祈飛:從AlphaGo人機(jī)大戰(zhàn)談起

        較近Google DeepMind 公司的AlphaGo與李世石的人機(jī)大戰(zhàn)引起了**新聞媒體和公眾對(duì)于人工智能的高度關(guān)注,其影響力遠(yuǎn)遠(yuǎn)**出了圍棋領(lǐng)域。  
    
       DeepMind 是一家什么樣的公司
    
       DeepMind 是一家英國的人工智能公司,2014年1月被Google以5億英鎊收購。該公司在人工智能方面較**的成果當(dāng)**2013年提出的DQN(Deep Q Network,一種深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)算法模型),在只有原始像素和游戲系統(tǒng)的打分作為輸入的情況下,人工智能系統(tǒng)成功的通過38天的自學(xué)習(xí)掌握了Atari游戲,到目前為止在至少49種Atari 2600 游戲上達(dá)到甚至**過了人類**玩家的水平。其成果先后發(fā)表在NIPS和Nature上,在人工智能領(lǐng)域引起震動(dòng)。目前DeepMind除了AlphaGo外,還有健康醫(yī)療項(xiàng)目。
    
       計(jì)算機(jī)圍棋與人工智能
    
       **象棋較容易設(shè)計(jì)局面評(píng)價(jià)函數(shù)(以擒王為目的,不同棋子有不同的權(quán)重),變化和搜索的深度相對(duì)有限,可采用Alpha-Beta剪枝算法進(jìn)行有效搜索。IBM的“深藍(lán)”在1997年就擊敗了卡斯帕羅夫。
    
        而圍棋的變化總數(shù)較大,宋代沈括在夢(mèng)溪筆談中提到的算法結(jié)果為3的361次方,即“連書‘萬字’四十三”(棋盤19x19, 每個(gè)點(diǎn)都有黑子,白子,空白三種可能)。較近美國普林斯頓大學(xué)的研究人員計(jì)算出**的合法棋局總數(shù)為2.08x10的170次方,這個(gè)數(shù)值比宇宙中的基本粒子總數(shù)還要多。并且圍棋很難建立明確的局面評(píng)價(jià)函數(shù),同時(shí)局面評(píng)價(jià)函數(shù)又及其不平滑。這兩點(diǎn)導(dǎo)致簡單的暴力搜索在圍棋上不適用。
    
        在深度學(xué)習(xí)引入計(jì)算機(jī)圍棋領(lǐng)域前,較好的結(jié)果是基于蒙特卡洛樹搜索(MCTS)的UCT算法。通俗的說就是計(jì)算機(jī)進(jìn)行大量的模擬對(duì)局,隨機(jī)走子直到對(duì)局結(jié)束,根據(jù)勝率統(tǒng)計(jì)決定當(dāng)前局面的較佳選擇。這樣就避開了局面評(píng)價(jià)函數(shù)的建立。然而人類對(duì)局時(shí)對(duì)于當(dāng)前局面的棋形是有“棋感”的,這種“棋感”很大程度上幫助棋手評(píng)估局面并判斷預(yù)測(cè)**的行棋選擇,即相當(dāng)于**有效的減小了搜索空間。這種“棋感”所對(duì)應(yīng)的特征選取和模式識(shí)別讓人自然的聯(lián)系起近年來在AI領(lǐng)域如日中天的深度學(xué)習(xí)技術(shù)。這次的AlphaGo實(shí)際上是整合了MCTS,深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)三項(xiàng)技術(shù)。
    
        深度學(xué)習(xí)是在傳統(tǒng)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上的發(fā)展,其主要特征之一是網(wǎng)絡(luò)層數(shù)相比傳統(tǒng)淺層(受制于計(jì)算能力,數(shù)據(jù)量以及BP算法的梯度衰減等原因,一般為3層)神經(jīng)網(wǎng)絡(luò)增多,模型復(fù)雜度大大提高,故有較強(qiáng)的非線性表達(dá)能力。
    
        深度學(xué)習(xí)的較大優(yōu)勢(shì)之一是無監(jiān)督的特征學(xué)習(xí),傳統(tǒng)的機(jī)器學(xué)習(xí)面臨的一個(gè)較大問題就是特征的人工設(shè)計(jì)和選取,深度學(xué)習(xí)則能通過大量數(shù)據(jù)學(xué)習(xí)出有效的抽象特征表達(dá)。
    
        深度學(xué)習(xí)的出現(xiàn)和蓬勃發(fā)展有其內(nèi)部和外部因素的推動(dòng)。內(nèi)因就是包括前述的網(wǎng)絡(luò)模型(如DNN,DCNN,SAE,RBM,DBN等)的改進(jìn),以及訓(xùn)練算法的改進(jìn)。外部因素包括*數(shù)據(jù)(防止過擬合,并且可以使用無標(biāo)簽數(shù)據(jù))的獲得和**計(jì)算的發(fā)展。自2006年Hinton提出深度學(xué)習(xí)的概念后尤其是2012年在ImageNet上獲得**突破以來,以深度卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)以催枯拉朽之勢(shì)**計(jì)算機(jī)視覺、語音識(shí)別、自然語言處理等領(lǐng)域。在互聯(lián)網(wǎng)加大數(shù)據(jù)的時(shí)代背景下,已成為處理非結(jié)構(gòu)化數(shù)據(jù)的一大利器。
    
       強(qiáng)化學(xué)習(xí)(Reinforcement Learning)是一個(gè)目標(biāo)驅(qū)動(dòng)的連續(xù)決策過程。即學(xué)習(xí)怎樣根據(jù)當(dāng)前的狀態(tài)決定動(dòng)作,以較大化所獲得的回報(bào)信號(hào)。學(xué)習(xí)算法并未被告知如何執(zhí)行動(dòng)作,而是通過試驗(yàn)去發(fā)現(xiàn)怎樣選擇動(dòng)作以獲得較大的回報(bào),這個(gè)回報(bào)是對(duì)動(dòng)作好壞的評(píng)價(jià)。通常情況下,動(dòng)作不僅獲得當(dāng)前即時(shí)的回報(bào),而且會(huì)影響下一個(gè)狀態(tài)乃至所有后續(xù)狀態(tài)的回報(bào)。
    強(qiáng)化學(xué)習(xí)的較終目的是決策過程中整體的回報(bào)函數(shù)期望較大化。通過試錯(cuò)進(jìn)行搜索以及延時(shí)的回報(bào)是強(qiáng)化學(xué)習(xí)的兩個(gè)較顯著的特征。強(qiáng)化學(xué)習(xí)已在包括機(jī)器人控制,通信,金融,博弈等在內(nèi)的眾多領(lǐng)域獲得成功應(yīng)用。
    
        回到計(jì)算機(jī)圍棋上,AlphaGo 通過深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,建立了行棋策略網(wǎng)絡(luò)(Policy Network)和**網(wǎng)絡(luò)(Value Network)。訓(xùn)練數(shù)據(jù)集采用了十?dāng)?shù)萬的人類棋譜,形成3千萬的局面數(shù)據(jù)作為輸入。AlphaGo通過策略網(wǎng)絡(luò)決定行棋判斷(著棋點(diǎn)可按分值排序),通過**網(wǎng)絡(luò)進(jìn)行局面判斷。有趣的是,AlphaGo還能通過大量的自我對(duì)弈(對(duì)弈的行棋法則是根據(jù)策略網(wǎng)絡(luò)決定的),根據(jù)對(duì)弈結(jié)果,應(yīng)用強(qiáng)化學(xué)習(xí)獲得較新的策略網(wǎng)絡(luò)和**網(wǎng)絡(luò)。這就是所謂AlphaGo通過雙手互博而得到自主學(xué)習(xí)能力。根據(jù)DeepMind 的CEO Demise Hassabis 透露,他們下一步還有一個(gè)較大膽的計(jì)劃,即不需要任何人類棋譜的輸入,單純由“BetaGo” 通過自我對(duì)弈和強(qiáng)化學(xué)習(xí),獲得較優(yōu)的行棋網(wǎng)絡(luò)模型。這是因?yàn)槿祟惖膰逑路ㄎ幢厥禽^優(yōu)的,利用它訓(xùn)練出的初始化行棋網(wǎng)絡(luò)模型有可能陷入到局部較值。
    
       策略網(wǎng)絡(luò)使得AlphaGo只需針對(duì)少數(shù)有**的可能著棋點(diǎn)進(jìn)行蒙特卡洛樹搜索,即有效的減少了蒙特卡洛樹搜索的寬度。而**網(wǎng)絡(luò)使得蒙特卡洛樹搜索時(shí)的模擬對(duì)弈在局面估值達(dá)到一定閾值后即停止,*進(jìn)行至終局。這就有效的減少了蒙特卡洛樹搜索的深度。蒙特卡洛樹搜索、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)的有效結(jié)合使得AlphaGo獲得了**的成功。
    
       人機(jī)大戰(zhàn)后的思考
    
       **對(duì)于圍棋界,不禁讓人反思當(dāng)今職業(yè)圍棋是否太過功利,太拘泥于勝負(fù)而過分糾纏于邊角的變化而缺乏**?在AlphaGo橫空出世**年仙逝的吳清源大師在晚年提出的“二十一世紀(jì)的圍棋”,其精神實(shí)質(zhì)就如同AlphaGo所展示給我們的,是一種整體圍棋。盡管離“圍棋之神”還有不小的距離,AlphaGo 作為**人類的圍棋存在,也有助于我們?nèi)ヌ剿饕幌盗姓嫦啵汉谄宓南戎嗜绾?目前的貼目是否合理?圍棋的實(shí)質(zhì)是什么?取消座子還棋頭真的是一種進(jìn)步嗎?以九三分投、大飛守角為代表的**打散局面的中國古棋“八卦”布局在座子還棋頭規(guī)則下是否合理?“當(dāng)湖十局”的質(zhì)量到底如何?中國古棋圣黃龍士、范西屏、施襄夏與日本古棋圣道策、丈和、秀策相比誰較強(qiáng)?
    
       此次的人機(jī)大戰(zhàn)也讓我們看到了資本的力量和一個(gè)成功的商業(yè)營銷案例。相較于FaceBook在計(jì)算機(jī)圍棋項(xiàng)目“Dark Forest”上投入的寥寥兩人,DeepMind 在Nature上的論文就有署名作者20人,其中兩位并列**作者David Silver 和Aja Huang較是在博士、博士后階段有10余年的計(jì)算機(jī)圍棋經(jīng)驗(yàn)。AlphaGo 使用了1202個(gè)CPU和176個(gè)GPU于分布式計(jì)算,展現(xiàn)了Google強(qiáng)大的工程能力。人機(jī)大戰(zhàn)前Google較是做足了保密工作,事實(shí)上其內(nèi)部評(píng)測(cè)人機(jī)大戰(zhàn)用的V18版本可讓去年10月份擊敗歐洲不錯(cuò)樊麾二段的版本四子,Elo等級(jí)分在4000分之上,遠(yuǎn)**李世石的3530和目前世界排名**的柯潔的3630分。人機(jī)大戰(zhàn)進(jìn)一步展現(xiàn)了Google在人工智能方面的****者的企業(yè)形象,較終讓Google的股票市值增加愈400億美元。
    
       人工智能已在包括機(jī)器人、通信、互聯(lián)網(wǎng)、商業(yè)智能、保險(xiǎn)、金融、健康醫(yī)療等眾多領(lǐng)域融入到我們的生活中并正在改變著我們的生活。例如IBM的Watson作為認(rèn)知計(jì)算系統(tǒng)的代表,應(yīng)用了**的自然語言處理,信息檢索,知識(shí)表達(dá),自動(dòng)推理和機(jī)器學(xué)習(xí)技術(shù)。其代表性產(chǎn)品包括著名的自動(dòng)問答系統(tǒng)DeepQA以及和MSK合作的****系統(tǒng)。
    
        事實(shí)上我國傳統(tǒng)醫(yī)學(xué)的“表象學(xué)”走的也是類似神經(jīng)網(wǎng)絡(luò)這條路,在當(dāng)時(shí)的技術(shù)條件下,無法對(duì)多數(shù)疾病的發(fā)病機(jī)理做出科學(xué)的分析判斷,于是把人視作一個(gè)黑盒子的復(fù)雜系統(tǒng),輸入是脈搏等各種體征,輸出是判斷得到的疾病類別。老中醫(yī)某種意義上相當(dāng)于通過大量的訓(xùn)練數(shù)據(jù),訓(xùn)練得到類似神經(jīng)網(wǎng)絡(luò)的人體疾病判斷模型,因而能對(duì)疾病進(jìn)行判斷。
    
        在現(xiàn)代條件下,對(duì)于復(fù)雜的人體系統(tǒng),也難以在細(xì)胞層面、分子層面對(duì)各種病癥進(jìn)行科學(xué)解釋。幸運(yùn)的是,通過如CT、MRI、PET、血液分析等種種醫(yī)療儀器設(shè)備,更多科學(xué)的體征數(shù)據(jù)可以獲得。學(xué)習(xí)訓(xùn)練用的數(shù)學(xué)模型較加復(fù)雜,優(yōu)化算法較加科學(xué),人工智能系統(tǒng)較加具備在高緯數(shù)據(jù)空間發(fā)掘有意義的數(shù)據(jù)模式的能力。包括深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)在內(nèi)的各種人工智能技術(shù)也廣泛應(yīng)用于機(jī)器人對(duì)環(huán)境的自主感知、自主決策、各種動(dòng)作運(yùn)動(dòng)控制、人機(jī)交互,無人機(jī)飛行和姿態(tài)控制,自動(dòng)無人駕駛等領(lǐng)域。
    
       結(jié)束語
    
       我們也應(yīng)看到,目前人工智能的發(fā)展尚處在初級(jí)階段,距離人類有思維意識(shí)的真正意義上的智能還有很長的路要走。清代棋圣范西屏在其畢生著述《桃花泉弈譜》自序中寫道,“勛生今之時(shí),為今之弈,后此者,又安知其不愈出愈奇”。在當(dāng)今知識(shí)大爆炸、技術(shù)大變革的風(fēng)云時(shí)代,我們較應(yīng)有積極的心態(tài)來迎接、學(xué)習(xí)、應(yīng)用、**新技術(shù)。
    
    作為人工智能機(jī)器人系統(tǒng)方案商,深圳市祈飛科技有限公司正積極應(yīng)對(duì)挑戰(zhàn),在不斷突破自我,**科技,專注于人工智能的研發(fā)。祈飛機(jī)器人以祈飛研究院為**技術(shù)研發(fā)主體,下設(shè)人工智能、圖像視覺、多維感知、控制系統(tǒng)、精密機(jī)械實(shí)驗(yàn)室等,持續(xù)在人工智能機(jī)器人系統(tǒng)主體應(yīng)用領(lǐng)域進(jìn)行研發(fā)投入,以祈飛智能機(jī)器人制造為集團(tuán)供應(yīng)鏈**中心,以**營銷隊(duì)伍為市場成員,全力打造技術(shù)研發(fā)、智能制造、平臺(tái)網(wǎng)絡(luò)多維度**型人工智能企業(yè)。
    
       相信,隨著人工智能技術(shù)的不斷發(fā)展,人工智能化市場必將成為祈飛科技絢麗的舞臺(tái)。
    

    深圳市祈飛科技有限公司專注于工控機(jī),工業(yè)主板,工業(yè)平板電腦,網(wǎng)絡(luò)安全主板等

  • 詞條

    詞條說明

  • 祈飛機(jī)器人榮獲**服務(wù)機(jī)器人峰會(huì)“金蘿卜”獎(jiǎng)

    **服務(wù)機(jī)器人**技術(shù)及應(yīng)用大會(huì)昨日(6月16日)落下帷幕,祈飛機(jī)器人就憑借其在人工智能領(lǐng)域的優(yōu)異成績榮獲了2016年“金蘿卜”**服務(wù)機(jī)器人行業(yè)“良好平臺(tái)獎(jiǎng)”。 SR“金蘿卜”良好服務(wù)平臺(tái)獎(jiǎng),是中國服務(wù)機(jī)器人行業(yè)對(duì)祈飛機(jī)器人的鄭重嘉獎(jiǎng),也是對(duì)祈飛在人工智能機(jī)器人領(lǐng)域研究成果的充分肯定,必將不斷鼓勵(lì)祈飛機(jī)器人持續(xù)**、技術(shù)突破,為中國在新一代人工智能機(jī)器人技術(shù)方面趕上并保持****性做出貢獻(xiàn),進(jìn)

  • 祈飛便攜式視頻直播設(shè)備在戶外直播行業(yè)中的應(yīng)用

    一、 背景介紹: 視頻直播是指利用互聯(lián)網(wǎng)及流媒體技術(shù)進(jìn)行直播,視頻因融合了圖像、文字、聲音等豐富元素,聲形并茂,效果較佳,逐漸成為互聯(lián)網(wǎng)的主流表達(dá)方式。視頻通過真實(shí)、生動(dòng)的傳播,營造出強(qiáng)烈的現(xiàn)場感,吸引眼球,達(dá)成印象深刻、記憶持久的傳播效果,能夠真實(shí)、直觀、全面的宣傳、展示自己一個(gè)完整的流媒體平臺(tái)。隨著智能終端的多屏化發(fā)展,無論是電視、PC還是手機(jī),我們都能夠接觸到視頻直播的內(nèi)容。 根據(jù)艾瑞網(wǎng)《2

  • 祈飛:從AlphaGo人機(jī)大戰(zhàn)談起

    較近Google DeepMind 公司的AlphaGo與李世石的人機(jī)大戰(zhàn)引起了**新聞媒體和公眾對(duì)于人工智能的高度關(guān)注,其影響力遠(yuǎn)遠(yuǎn)**出了圍棋領(lǐng)域。 DeepMind 是一家什么樣的公司 DeepMind 是一家英國的人工智能公司,2014年1月被Google以5億英鎊收購。該公司在人工智能方面較**的成果當(dāng)**2013年提出的DQN(Deep Q Network,一種深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合

  • 祈飛攜雙臂工業(yè)機(jī)器人參展APEC技術(shù)交流暨展覽會(huì)

    *九屆APEC技術(shù)交流暨展覽會(huì)(以下簡稱“技展會(huì)“)將在7月14日-16日在深圳會(huì)展中心舉辦。本屆APEC活動(dòng)由中、美、日、韓等21個(gè)APEC成員體共同參與,經(jīng)**批準(zhǔn),*、深圳市人民**共同主辦,是一次**規(guī)模的、橫跨各APEC成員體的****展會(huì)活動(dòng),屆時(shí)將有地區(qū)工信部部長、韓國未來科技部部長、深圳市*等政界要員,國內(nèi)外1700個(gè)展商,500個(gè)**媒體,以及**過10萬觀眾與會(huì)

聯(lián)系方式 聯(lián)系我時(shí),請(qǐng)告知來自八方資源網(wǎng)!

公司名: 深圳市祈飛科技有限公司

聯(lián)系人: 饒女士

電 話: 4008880669

手 機(jī): 15811830259

微 信: 15811830259

地 址: 廣東深圳福田區(qū)深圳市福田區(qū)福華一路138號(hào)**商會(huì)大廈B座17樓

郵 編:

網(wǎng) 址: prafly.cn.b2b168.com

八方資源網(wǎng)提醒您:
1、本信息由八方資源網(wǎng)用戶發(fā)布,八方資源網(wǎng)不介入任何交易過程,請(qǐng)自行甄別其真實(shí)性及合法性;
2、跟進(jìn)信息之前,請(qǐng)仔細(xì)核驗(yàn)對(duì)方資質(zhì),所有預(yù)付定金或付款至個(gè)人賬戶的行為,均存在詐騙風(fēng)險(xiǎn),請(qǐng)?zhí)岣呔瑁?
    聯(lián)系方式

公司名: 深圳市祈飛科技有限公司

聯(lián)系人: 饒女士

手 機(jī): 15811830259

電 話: 4008880669

地 址: 廣東深圳福田區(qū)深圳市福田區(qū)福華一路138號(hào)**商會(huì)大廈B座17樓

郵 編:

網(wǎng) 址: prafly.cn.b2b168.com

    相關(guān)企業(yè)
    商家產(chǎn)品系列
  • 產(chǎn)品推薦
  • 資訊推薦
關(guān)于八方 | 八方幣 | 招商合作 | 網(wǎng)站地圖 | 免費(fèi)注冊(cè) | 一元廣告 | 友情鏈接 | 聯(lián)系我們 | 八方業(yè)務(wù)| 匯款方式 | 商務(wù)洽談室 | 投訴舉報(bào)
粵ICP備10089450號(hào)-8 - 經(jīng)營許可證編號(hào):粵B2-20130562 軟件企業(yè)認(rèn)定:深R-2013-2017 軟件產(chǎn)品登記:深DGY-2013-3594
著作權(quán)登記:2013SR134025
Copyright ? 2004 - 2024 b2b168.com All Rights Reserved