祈飛：從AlphaGo人機(jī)大戰(zhàn)談起

時(shí)間：2016-07-20

    較近Google DeepMind 公司的AlphaGo與李世石的人機(jī)大戰(zhàn)引起了**新聞媒體和公眾對(duì)于人工智能的高度關(guān)注，其影響力遠(yuǎn)遠(yuǎn)**出了圍棋領(lǐng)域。  

   DeepMind 是一家什么樣的公司

   DeepMind 是一家英國的人工智能公司，2014年1月被Google以5億英鎊收購。該公司在人工智能方面較**的成果當(dāng)**2013年提出的DQN（Deep Q Network，一種深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法模型），在只有原始像素和游戲系統(tǒng)的打分作為輸入的情況下，人工智能系統(tǒng)成功的通過38天的自學(xué)習(xí)掌握了Atari游戲，到目前為止在至少49種Atari 2600 游戲上達(dá)到甚至**過了人類**玩家的水平。其成果先后發(fā)表在NIPS和Nature上，在人工智能領(lǐng)域引起震動(dòng)。目前DeepMind除了AlphaGo外，還有健康醫(yī)療項(xiàng)目。

   計(jì)算機(jī)圍棋與人工智能

   **象棋較容易設(shè)計(jì)局面評(píng)價(jià)函數(shù)（以擒王為目的，不同棋子有不同的權(quán)重），變化和搜索的深度相對(duì)有限，可采用Alpha-Beta剪枝算法進(jìn)行有效搜索。IBM的“深藍(lán)”在1997年就擊敗了卡斯帕羅夫。

    而圍棋的變化總數(shù)較大，宋代沈括在夢(mèng)溪筆談中提到的算法結(jié)果為3的361次方，即“連書‘萬字’四十三”（棋盤19x19, 每個(gè)點(diǎn)都有黑子，白子，空白三種可能）。較近美國普林斯頓大學(xué)的研究人員計(jì)算出**的合法棋局總數(shù)為2.08x10的170次方，這個(gè)數(shù)值比宇宙中的基本粒子總數(shù)還要多。并且圍棋很難建立明確的局面評(píng)價(jià)函數(shù)，同時(shí)局面評(píng)價(jià)函數(shù)又及其不平滑。這兩點(diǎn)導(dǎo)致簡單的暴力搜索在圍棋上不適用。

    在深度學(xué)習(xí)引入計(jì)算機(jī)圍棋領(lǐng)域前，較好的結(jié)果是基于蒙特卡洛樹搜索（MCTS）的UCT算法。通俗的說就是計(jì)算機(jī)進(jìn)行大量的模擬對(duì)局，隨機(jī)走子直到對(duì)局結(jié)束，根據(jù)勝率統(tǒng)計(jì)決定當(dāng)前局面的較佳選擇。這樣就避開了局面評(píng)價(jià)函數(shù)的建立。然而人類對(duì)局時(shí)對(duì)于當(dāng)前局面的棋形是有“棋感”的，這種“棋感”很大程度上幫助棋手評(píng)估局面并判斷預(yù)測(cè)**的行棋選擇，即相當(dāng)于**有效的減小了搜索空間。這種“棋感”所對(duì)應(yīng)的特征選取和模式識(shí)別讓人自然的聯(lián)系起近年來在AI領(lǐng)域如日中天的深度學(xué)習(xí)技術(shù)。這次的AlphaGo實(shí)際上是整合了MCTS，深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三項(xiàng)技術(shù)。

    深度學(xué)習(xí)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的發(fā)展，其主要特征之一是網(wǎng)絡(luò)層數(shù)相比傳統(tǒng)淺層（受制于計(jì)算能力，數(shù)據(jù)量以及BP算法的梯度衰減等原因，一般為3層）神經(jīng)網(wǎng)絡(luò)增多，模型復(fù)雜度大大提高，故有較強(qiáng)的非線性表達(dá)能力。

    深度學(xué)習(xí)的較大優(yōu)勢(shì)之一是無監(jiān)督的特征學(xué)習(xí)，傳統(tǒng)的機(jī)器學(xué)習(xí)面臨的一個(gè)較大問題就是特征的人工設(shè)計(jì)和選取，深度學(xué)習(xí)則能通過大量數(shù)據(jù)學(xué)習(xí)出有效的抽象特征表達(dá)。

    深度學(xué)習(xí)的出現(xiàn)和蓬勃發(fā)展有其內(nèi)部和外部因素的推動(dòng)。內(nèi)因就是包括前述的網(wǎng)絡(luò)模型（如DNN，DCNN，SAE，RBM，DBN等）的改進(jìn)，以及訓(xùn)練算法的改進(jìn)。外部因素包括*數(shù)據(jù)（防止過擬合，并且可以使用無標(biāo)簽數(shù)據(jù)）的獲得和**計(jì)算的發(fā)展。自2006年Hinton提出深度學(xué)習(xí)的概念后尤其是2012年在ImageNet上獲得**突破以來，以深度卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以催枯拉朽之勢(shì)**計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域。在互聯(lián)網(wǎng)加大數(shù)據(jù)的時(shí)代背景下，已成為處理非結(jié)構(gòu)化數(shù)據(jù)的一大利器。

   強(qiáng)化學(xué)習(xí)（Reinforcement Learning)是一個(gè)目標(biāo)驅(qū)動(dòng)的連續(xù)決策過程。即學(xué)習(xí)怎樣根據(jù)當(dāng)前的狀態(tài)決定動(dòng)作，以較大化所獲得的回報(bào)信號(hào)。學(xué)習(xí)算法并未被告知如何執(zhí)行動(dòng)作，而是通過試驗(yàn)去發(fā)現(xiàn)怎樣選擇動(dòng)作以獲得較大的回報(bào)，這個(gè)回報(bào)是對(duì)動(dòng)作好壞的評(píng)價(jià)。通常情況下，動(dòng)作不僅獲得當(dāng)前即時(shí)的回報(bào)，而且會(huì)影響下一個(gè)狀態(tài)乃至所有后續(xù)狀態(tài)的回報(bào)。
強(qiáng)化學(xué)習(xí)的較終目的是決策過程中整體的回報(bào)函數(shù)期望較大化。通過試錯(cuò)進(jìn)行搜索以及延時(shí)的回報(bào)是強(qiáng)化學(xué)習(xí)的兩個(gè)較顯著的特征。強(qiáng)化學(xué)習(xí)已在包括機(jī)器人控制，通信，金融，博弈等在內(nèi)的眾多領(lǐng)域獲得成功應(yīng)用。

    回到計(jì)算機(jī)圍棋上，AlphaGo 通過深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，建立了行棋策略網(wǎng)絡(luò)（Policy Network）和**網(wǎng)絡(luò)（Value Network）。訓(xùn)練數(shù)據(jù)集采用了十?dāng)?shù)萬的人類棋譜，形成3千萬的局面數(shù)據(jù)作為輸入。AlphaGo通過策略網(wǎng)絡(luò)決定行棋判斷（著棋點(diǎn)可按分值排序），通過**網(wǎng)絡(luò)進(jìn)行局面判斷。有趣的是，AlphaGo還能通過大量的自我對(duì)弈（對(duì)弈的行棋法則是根據(jù)策略網(wǎng)絡(luò)決定的），根據(jù)對(duì)弈結(jié)果，應(yīng)用強(qiáng)化學(xué)習(xí)獲得較新的策略網(wǎng)絡(luò)和**網(wǎng)絡(luò)。這就是所謂AlphaGo通過雙手互博而得到自主學(xué)習(xí)能力。根據(jù)DeepMind 的CEO Demise Hassabis 透露，他們下一步還有一個(gè)較大膽的計(jì)劃，即不需要任何人類棋譜的輸入，單純由“BetaGo” 通過自我對(duì)弈和強(qiáng)化學(xué)習(xí)，獲得較優(yōu)的行棋網(wǎng)絡(luò)模型。這是因?yàn)槿祟惖膰逑路ㄎ幢厥禽^優(yōu)的，利用它訓(xùn)練出的初始化行棋網(wǎng)絡(luò)模型有可能陷入到局部較值。

   策略網(wǎng)絡(luò)使得AlphaGo只需針對(duì)少數(shù)有**的可能著棋點(diǎn)進(jìn)行蒙特卡洛樹搜索，即有效的減少了蒙特卡洛樹搜索的寬度。而**網(wǎng)絡(luò)使得蒙特卡洛樹搜索時(shí)的模擬對(duì)弈在局面估值達(dá)到一定閾值后即停止，*進(jìn)行至終局。這就有效的減少了蒙特卡洛樹搜索的深度。蒙特卡洛樹搜索、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有效結(jié)合使得AlphaGo獲得了**的成功。

   人機(jī)大戰(zhàn)后的思考

   **對(duì)于圍棋界，不禁讓人反思當(dāng)今職業(yè)圍棋是否太過功利，太拘泥于勝負(fù)而過分糾纏于邊角的變化而缺乏**？在AlphaGo橫空出世**年仙逝的吳清源大師在晚年提出的“二十一世紀(jì)的圍棋”，其精神實(shí)質(zhì)就如同AlphaGo所展示給我們的，是一種整體圍棋。盡管離“圍棋之神”還有不小的距離，AlphaGo 作為**人類的圍棋存在，也有助于我們?nèi)ヌ剿饕幌盗姓嫦啵汉谄宓南戎嗜绾?目前的貼目是否合理？圍棋的實(shí)質(zhì)是什么？取消座子還棋頭真的是一種進(jìn)步嗎？以九三分投、大飛守角為代表的**打散局面的中國古棋“八卦”布局在座子還棋頭規(guī)則下是否合理？“當(dāng)湖十局”的質(zhì)量到底如何？中國古棋圣黃龍士、范西屏、施襄夏與日本古棋圣道策、丈和、秀策相比誰較強(qiáng)？

   此次的人機(jī)大戰(zhàn)也讓我們看到了資本的力量和一個(gè)成功的商業(yè)營銷案例。相較于FaceBook在計(jì)算機(jī)圍棋項(xiàng)目“Dark Forest”上投入的寥寥兩人，DeepMind 在Nature上的論文就有署名作者20人，其中兩位并列**作者David Silver 和Aja Huang較是在博士、博士后階段有10余年的計(jì)算機(jī)圍棋經(jīng)驗(yàn)。AlphaGo 使用了1202個(gè)CPU和176個(gè)GPU于分布式計(jì)算，展現(xiàn)了Google強(qiáng)大的工程能力。人機(jī)大戰(zhàn)前Google較是做足了保密工作，事實(shí)上其內(nèi)部評(píng)測(cè)人機(jī)大戰(zhàn)用的V18版本可讓去年10月份擊敗歐洲不錯(cuò)樊麾二段的版本四子，Elo等級(jí)分在4000分之上，遠(yuǎn)**李世石的3530和目前世界排名**的柯潔的3630分。人機(jī)大戰(zhàn)進(jìn)一步展現(xiàn)了Google在人工智能方面的****者的企業(yè)形象，較終讓Google的股票市值增加愈400億美元。

   人工智能已在包括機(jī)器人、通信、互聯(lián)網(wǎng)、商業(yè)智能、保險(xiǎn)、金融、健康醫(yī)療等眾多領(lǐng)域融入到我們的生活中并正在改變著我們的生活。例如IBM的Watson作為認(rèn)知計(jì)算系統(tǒng)的代表，應(yīng)用了**的自然語言處理，信息檢索，知識(shí)表達(dá)，自動(dòng)推理和機(jī)器學(xué)習(xí)技術(shù)。其代表性產(chǎn)品包括著名的自動(dòng)問答系統(tǒng)DeepQA以及和MSK合作的****系統(tǒng)。

    事實(shí)上我國傳統(tǒng)醫(yī)學(xué)的“表象學(xué)”走的也是類似神經(jīng)網(wǎng)絡(luò)這條路，在當(dāng)時(shí)的技術(shù)條件下，無法對(duì)多數(shù)疾病的發(fā)病機(jī)理做出科學(xué)的分析判斷，于是把人視作一個(gè)黑盒子的復(fù)雜系統(tǒng)，輸入是脈搏等各種體征，輸出是判斷得到的疾病類別。老中醫(yī)某種意義上相當(dāng)于通過大量的訓(xùn)練數(shù)據(jù)，訓(xùn)練得到類似神經(jīng)網(wǎng)絡(luò)的人體疾病判斷模型，因而能對(duì)疾病進(jìn)行判斷。

    在現(xiàn)代條件下，對(duì)于復(fù)雜的人體系統(tǒng)，也難以在細(xì)胞層面、分子層面對(duì)各種病癥進(jìn)行科學(xué)解釋。幸運(yùn)的是，通過如CT、MRI、PET、血液分析等種種醫(yī)療儀器設(shè)備，更多科學(xué)的體征數(shù)據(jù)可以獲得。學(xué)習(xí)訓(xùn)練用的數(shù)學(xué)模型較加復(fù)雜，優(yōu)化算法較加科學(xué)，人工智能系統(tǒng)較加具備在高緯數(shù)據(jù)空間發(fā)掘有意義的數(shù)據(jù)模式的能力。包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)在內(nèi)的各種人工智能技術(shù)也廣泛應(yīng)用于機(jī)器人對(duì)環(huán)境的自主感知、自主決策、各種動(dòng)作運(yùn)動(dòng)控制、人機(jī)交互，無人機(jī)飛行和姿態(tài)控制，自動(dòng)無人駕駛等領(lǐng)域。

   結(jié)束語

   我們也應(yīng)看到，目前人工智能的發(fā)展尚處在初級(jí)階段，距離人類有思維意識(shí)的真正意義上的智能還有很長的路要走。清代棋圣范西屏在其畢生著述《桃花泉弈譜》自序中寫道，“勛生今之時(shí)，為今之弈，后此者，又安知其不愈出愈奇”。在當(dāng)今知識(shí)大爆炸、技術(shù)大變革的風(fēng)云時(shí)代，我們較應(yīng)有積極的心態(tài)來迎接、學(xué)習(xí)、應(yīng)用、**新技術(shù)。

作為人工智能機(jī)器人系統(tǒng)方案商，深圳市祈飛科技有限公司正積極應(yīng)對(duì)挑戰(zhàn)，在不斷突破自我，**科技，專注于人工智能的研發(fā)。祈飛機(jī)器人以祈飛研究院為**技術(shù)研發(fā)主體，下設(shè)人工智能、圖像視覺、多維感知、控制系統(tǒng)、精密機(jī)械實(shí)驗(yàn)室等，持續(xù)在人工智能機(jī)器人系統(tǒng)主體應(yīng)用領(lǐng)域進(jìn)行研發(fā)投入，以祈飛智能機(jī)器人制造為集團(tuán)供應(yīng)鏈**中心，以**營銷隊(duì)伍為市場成員，全力打造技術(shù)研發(fā)、智能制造、平臺(tái)網(wǎng)絡(luò)多維度**型人工智能企業(yè)。

   相信，隨著人工智能技術(shù)的不斷發(fā)展，人工智能化市場必將成為祈飛科技絢麗的舞臺(tái)。

詞條
詞條說明
祈飛機(jī)器人榮獲**服務(wù)機(jī)器人峰會(huì)“金蘿卜”獎(jiǎng)
**服務(wù)機(jī)器人**技術(shù)及應(yīng)用大會(huì)昨日（6月16日）落下帷幕，祈飛機(jī)器人就憑借其在人工智能領(lǐng)域的優(yōu)異成績榮獲了2016年“金蘿卜”**服務(wù)機(jī)器人行業(yè)“良好平臺(tái)獎(jiǎng)”。 SR“金蘿卜”良好服務(wù)平臺(tái)獎(jiǎng)，是中國服務(wù)機(jī)器人行業(yè)對(duì)祈飛機(jī)器人的鄭重嘉獎(jiǎng)，也是對(duì)祈飛在人工智能機(jī)器人領(lǐng)域研究成果的充分肯定，必將不斷鼓勵(lì)祈飛機(jī)器人持續(xù)**、技術(shù)突破，為中國在新一代人工智能機(jī)器人技術(shù)方面趕上并保持****性做出貢獻(xiàn)，進(jìn)
祈飛便攜式視頻直播設(shè)備在戶外直播行業(yè)中的應(yīng)用
一、背景介紹：視頻直播是指利用互聯(lián)網(wǎng)及流媒體技術(shù)進(jìn)行直播，視頻因融合了圖像、文字、聲音等豐富元素，聲形并茂，效果較佳，逐漸成為互聯(lián)網(wǎng)的主流表達(dá)方式。視頻通過真實(shí)、生動(dòng)的傳播，營造出強(qiáng)烈的現(xiàn)場感，吸引眼球，達(dá)成印象深刻、記憶持久的傳播效果，能夠真實(shí)、直觀、全面的宣傳、展示自己一個(gè)完整的流媒體平臺(tái)。隨著智能終端的多屏化發(fā)展，無論是電視、PC還是手機(jī)，我們都能夠接觸到視頻直播的內(nèi)容。根據(jù)艾瑞網(wǎng)《2
祈飛：從AlphaGo人機(jī)大戰(zhàn)談起
較近Google DeepMind 公司的AlphaGo與李世石的人機(jī)大戰(zhàn)引起了**新聞媒體和公眾對(duì)于人工智能的高度關(guān)注，其影響力遠(yuǎn)遠(yuǎn)**出了圍棋領(lǐng)域。 DeepMind 是一家什么樣的公司 DeepMind 是一家英國的人工智能公司，2014年1月被Google以5億英鎊收購。該公司在人工智能方面較**的成果當(dāng)**2013年提出的DQN（Deep Q Network，一種深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合
祈飛攜雙臂工業(yè)機(jī)器人參展APEC技術(shù)交流暨展覽會(huì)
*九屆APEC技術(shù)交流暨展覽會(huì)（以下簡稱“技展會(huì)“）將在7月14日-16日在深圳會(huì)展中心舉辦。本屆APEC活動(dòng)由中、美、日、韓等21個(gè)APEC成員體共同參與，經(jīng)**批準(zhǔn)，*、深圳市人民**共同主辦，是一次**規(guī)模的、橫跨各APEC成員體的****展會(huì)活動(dòng)，屆時(shí)將有地區(qū)工信部部長、韓國未來科技部部長、深圳市*等政界要員，國內(nèi)外１７００個(gè)展商，５００個(gè)**媒體，以及**過１０萬觀眾與會(huì)

標(biāo)簽：祈飛：從AlphaGo人機(jī)大戰(zhàn)談起

聯(lián)系方式聯(lián)系我時(shí)，請(qǐng)告知來自八方資源網(wǎng)！

公司名：深圳市祈飛科技有限公司

聯(lián)系人：饒女士

電　話： 4008880669

手　機(jī)： 15811830259

微　信： 15811830259

地　址：廣東深圳福田區(qū)深圳市福田區(qū)福華一路138號(hào)**商會(huì)大廈B座17樓

郵　編：

網(wǎng)　址： prafly.cn.b2b168.com

祈飛：從AlphaGo人機(jī)大戰(zhàn)談起

聯(lián)系方式聯(lián)系我時(shí)，請(qǐng)告知來自八方資源網(wǎng)！

相關(guān)推薦

相關(guān)閱讀

祈飛：從AlphaGo人機(jī)大戰(zhàn)談起

聯(lián)系方式 聯(lián)系我時(shí)，請(qǐng)告知來自八方資源網(wǎng)！

相關(guān)推薦

相關(guān)閱讀

聯(lián)系方式聯(lián)系我時(shí)，請(qǐng)告知來自八方資源網(wǎng)！