2016年3月9~15日,谷歌公司研發(fā)的AlphaGo圍棋軟件與韓國棋圣李世石進行了五場人機對決,AlphaGo以4比1的比分取得了壓倒性的勝利。這個比賽結(jié)果不僅震驚了整個圍棋界,也讓人工智能領域的許多專家學者跌破眼鏡,更讓人工智能走出象牙塔,成為許多普通百姓茶余飯后的熱點話題。這場人機圍棋巔峰對決不僅向全世界展示了人工智能的強大實力與巨大應用潛力,也在人類社會引起了不小的恐慌和憂慮。人們開始認真思考以下這些問題:機器智能最終會超越人類智能嗎?人工智能將會如何改變?nèi)祟惿鐣??未來的智能機器會像電影《終結(jié)者》里所描述的那樣試圖主宰人類、甚至消滅人類嗎?要想回答這些問題,我們首先需要了解人工智能的本質(zhì)及其基本原理,進而討論其發(fā)展的規(guī)律和前景。當前,人工智能領域最前沿的分支學科當屬機器學習分支。本文首先對機器學習分支中最受世人矚目的研究成果——深度學習卷積神經(jīng)網(wǎng)絡——做一個簡單綜述,進而圍繞機器學習的本質(zhì)及其基本原理進行探討。接下來,通過對人腦認知機理最新研究成果的概括介紹,揭示機器智能與人類智能的本質(zhì)差異,比較兩種智能的優(yōu)勢與劣勢。通過機器智能與人類智能的優(yōu)劣勢比較,試圖找出上述幾個問題的答案。
深度學習卷積神經(jīng)網(wǎng)絡
過去幾年里,深度學習卷積神經(jīng)網(wǎng)絡所取得的成就足以使它成為人工智能王冠上最光彩奪目的明珠?;谏疃葘W習卷積神經(jīng)網(wǎng)絡的語音識別系統(tǒng)把語音識別的精度提高到了產(chǎn)品級的精度,從而為人類與計算機及各種智能終端之間提供了一種嶄新的、更為便捷的交互方式。將深度學習卷積神經(jīng)網(wǎng)絡應用于圖像內(nèi)容及人臉的識別,科學家們?nèi)〉昧四軌蚺c人類視覺系統(tǒng)相媲美的識別精度。戰(zhàn)勝韓國棋圣李世石的谷歌圍棋軟件AlphaGo能夠取得如此輝煌的戰(zhàn)績,深度學習卷積神經(jīng)網(wǎng)絡也發(fā)揮了關鍵性的作用。接下來,我們對深度學習卷積神經(jīng)網(wǎng)絡的起源及其原理做一個簡單介紹。
腦神經(jīng)科學領域的大量研究表明,人腦由大約1011個神經(jīng)細胞及1015個神經(jīng)突觸組成,這些神經(jīng)細胞及其突觸構(gòu)成一個龐大的生物神經(jīng)網(wǎng)絡。每個神經(jīng)細胞通過突觸與其它神經(jīng)細胞進行連接與信息傳遞。當通過突觸所接收到的信號強度超過某個閾值時,神經(jīng)細胞便會進入激活狀態(tài),并通過突觸向上層神經(jīng)細胞發(fā)送激活信號。人類所有與意識及智能有關的活動,都是通過特定區(qū)域神經(jīng)細胞之間的相互激活與協(xié)同工作而實現(xiàn)的。
早于1943年,美國心理學家W.S. McCulloch和數(shù)學家W. A. Pitts就在他們的論文中提出了生物神經(jīng)元的計算模型(簡稱M-P①模型),為后續(xù)人工神經(jīng)網(wǎng)絡的研究奠定了基礎。M-P模型的結(jié)構(gòu)如圖1(a)所示,它包含n個帶有權(quán)重的輸入,一個輸出,一個偏置b和一個激活函數(shù)組成。n個輸入代表來自下層n個神經(jīng)突觸的信息,每個權(quán)重W)代表對應突觸的連接強度,激活函數(shù)通常采用擁有S-型曲線的sigmoid函數(shù)(參見圖1(b)),用來模擬神經(jīng)細胞的激活模式。
早期的人工神經(jīng)網(wǎng)絡大都是基于M-P神經(jīng)元的全連接網(wǎng)絡。如圖2所示,此類網(wǎng)絡的特點是,屬于同一層的神經(jīng)元之間不存在連接;當前層的某個神經(jīng)元與上一層的所有神經(jīng)元都有連接。然而,人們很快發(fā)現(xiàn),這種全連接神經(jīng)網(wǎng)絡在應用于各種識別任務時不但識別精度不高,而且還不容易訓練。當神經(jīng)網(wǎng)絡的層數(shù)超過4層時,用傳統(tǒng)的反向傳遞算法(Back Propagation)訓練已經(jīng)無法收斂。
1983年,日本學者福島教授基于Hubel-Wiese的視覺認知模型提出了卷積神經(jīng)網(wǎng)絡計算模型(Convolution Neural Network,簡稱CNN)。早在1962年,Hubel和Wiesel通過對貓視覺皮層細胞的深入研究,提出高級動物視覺神經(jīng)網(wǎng)絡由簡單細胞和復雜細胞構(gòu)成(如圖3所示)。神經(jīng)網(wǎng)絡底層的簡單細胞的感受野只對應視網(wǎng)膜的某個特定區(qū)域,并只對該區(qū)域中特定方向的邊界線產(chǎn)生反應。復雜細胞通過對具有特定取向的簡單細胞進行聚類,擁有較大感受野,并獲得具有一定不變性的特征。上層簡單細胞對共生概率較高的復雜細胞進行聚類,產(chǎn)生更為復雜的邊界特征。通過簡單細胞和復雜細胞的逐層交替出現(xiàn),視覺神經(jīng)網(wǎng)絡實現(xiàn)了提取高度抽象性及不變性圖像特征的能力。
卷積神經(jīng)網(wǎng)絡可以看作是實現(xiàn)上述Hubel-Wiesel視覺認知模型的第一個網(wǎng)絡計算模型。如圖4所示,卷積神經(jīng)網(wǎng)絡是由卷積層(Convolution Layer)與降采樣層(Sampling Layer)交替出現(xiàn)的多層神經(jīng)網(wǎng)絡,每層由多個將神經(jīng)元排列成二維平面的子層組成(稱為特征圖,F(xiàn)eature Map)。每個卷積層和上層降采樣層通常擁有相同數(shù)量的特征圖。構(gòu)成卷積層x的每個神經(jīng)元負責對輸入圖像(如果x=1)或者x-1降采樣層的特征圖的特定小區(qū)域施行卷積運算,而降采樣層y的每個神經(jīng)元則負責對y-1卷積層的對應特征圖的特定小區(qū)域進行Max Pooling(只保留該區(qū)域神經(jīng)元的最大輸出值)。卷積運算中所使用的卷積核系數(shù)都是通過學習訓練自動獲取的。卷積層中屬于同一個特征圖的神經(jīng)元都共享一個卷積核,負責學習和提取同一種圖像特征,對應Hubel-Wiesel模型中某種特定取向的簡單細胞。卷積層中不同的特征圖負責學習和提取不同的圖像特征,對應Hubel-Wiesel模型中不同類型的簡單細胞。而降采樣層y中神經(jīng)元的Max Pooling操作等同于Hubel-Wiesel模型中復雜細胞對同類型簡單細胞的聚類,是對人腦視覺皮層復雜細胞的簡化模擬。
上世紀90年代初期,貝爾實驗室的Yann LeCun等人成功應用卷積神經(jīng)網(wǎng)絡實現(xiàn)了高精度手寫數(shù)字識別算法,所提出的系列LeNet,都達到商用級識別精度,被當時美國郵政局和許多大銀行用來識別信封上的手寫郵政編碼及支票上面的手寫數(shù)字。然而,受制于90年代計算機有限的內(nèi)存和弱小的運算能力,LeNet網(wǎng)絡采用了較淺的網(wǎng)絡結(jié)構(gòu),每層使用的特征圖數(shù)目也很少。盡管它在小規(guī)模圖像識別問題上取得了較好的效果,但與傳統(tǒng)機器學習算法(如SVM,AdaBoost等)相比,優(yōu)勢并不十分明顯。此外,由于卷積神經(jīng)網(wǎng)絡擁有很高的自由度,設計出一款性能優(yōu)異的網(wǎng)絡需要靈感并配合豐富的經(jīng)驗積累,是一項極具挑戰(zhàn)性的工作。因此卷積神經(jīng)網(wǎng)絡在被提出后的很長一段時間里并未得到足夠的重視和廣泛的應用。
2012年,加拿大多倫多大學Geoffrey Hinton教授的團隊提出了一個規(guī)模比傳統(tǒng)CNN大許多的深度卷積神經(jīng)網(wǎng)絡(簡稱AlexNet)。該網(wǎng)絡擁有5個卷積與降采樣層、3個全連接層,每個卷積與降采樣層擁有96?384個特征圖,網(wǎng)絡參數(shù)達到6000多萬個。利用AlexNet,Hinton團隊在國際上最具影響力的圖像內(nèi)容分類比賽(2012 ImageNet ILSVRC)中取得了壓倒性勝利,將1000類圖像的Top-5分類錯誤率降低到15.315%。在這次比賽中,獲得第二、三、四名的團隊均采用了傳統(tǒng)機器學習算法。三個團隊的Top-5圖像分類錯誤率分別是26.17%、26.98%和27.06%,相差不到1個百分點,而他們的成績和第一名相比卻低了超過10個百分點,差距十分明顯。當前,深度卷積神經(jīng)網(wǎng)絡(Deep CNN)相對傳統(tǒng)機器學習算法的優(yōu)勢還在不斷擴大,傳統(tǒng)學習方法在多個領域已經(jīng)完全無法與Deep CNN相抗衡。
機器學習算法的基本原理及其本質(zhì)
在幾千年的科學探索與研究中,科學家們提出了許多描述自然界及人類社會中各種事物與現(xiàn)象的數(shù)學模型。這些模型主要可以被歸納為以下三大類別。
歸納模型:由少數(shù)幾個參數(shù)(變量)構(gòu)成,每個變量都具有明確的物理意義。這類模型能夠真正揭示被描述對象的本質(zhì)及規(guī)律,許多數(shù)學和物理定律都是典型的歸納模型。
預測模型:用一個擁有大量參數(shù)的萬能函數(shù)來擬合用戶所提供的訓練樣本。萬能函數(shù)的參數(shù)一般不具備任何物理意義,模型本身往往只能用來模擬或預測某個特定事物或現(xiàn)象,并不能揭示被描述事物或現(xiàn)象的本質(zhì)及內(nèi)在規(guī)律。當代的大多數(shù)機器學習算法都是構(gòu)建于預測模型之上的。例如,單隱層全連接神經(jīng)網(wǎng)絡所使用的數(shù)學模型是:
上式中,x代表神經(jīng)網(wǎng)絡的輸入,代表神經(jīng)網(wǎng)絡的參數(shù)集,M是隱層神經(jīng)元的個數(shù)。這個數(shù)學模型如同一個橡皮泥,可以通過變換它的參數(shù)集被塑造成任何形狀。給定一個訓練樣本集,其中分別代表訓練樣本i以及人工賦予該樣本的標簽(標簽表示樣本的類別或某種屬性),通過利用T進行訓練,我們就能夠得到一個優(yōu)化的參數(shù)集,使神經(jīng)網(wǎng)絡能夠很好地擬合訓練樣本集T。當新的未知樣本x出現(xiàn)時,我們就能夠利用訓練好的神經(jīng)網(wǎng)絡預測出它的標簽y。顯而易見,神經(jīng)網(wǎng)絡的參數(shù)集規(guī)模與神經(jīng)元的數(shù)目及輸入x的維數(shù)成正比,所有參數(shù)沒有任何物理意義,模型本身也不具備揭示被描述對象的本質(zhì)及內(nèi)在規(guī)律的能力。
直推模型:沒有明確的數(shù)學函數(shù),利用所采集的大數(shù)據(jù)預測特定輸入的標簽。此類模型認為針對某個事物或現(xiàn)象所采集的大數(shù)據(jù)就是對該事物或現(xiàn)象的客觀描述。大數(shù)據(jù)的規(guī)模越大,對事物或現(xiàn)象的描述就越全面和準確。當新的未知樣本x出現(xiàn)時,我們可以在大數(shù)據(jù)中找到x的K近鄰,根據(jù)K近鄰的標簽或?qū)傩詠頉Q定x的標簽或?qū)傩?。顯而易見,由于不需要定義明確的數(shù)學模型,與其它模型相比,直推模型最簡單直接,但因為依靠大數(shù)據(jù)來決定未知樣本的標簽,直推模型往往需要較高的計算量及使用成本。同樣,直推模型也不能被用來揭示事物或現(xiàn)象的本質(zhì)及內(nèi)在規(guī)律。
應當指出,隨著互聯(lián)網(wǎng)用戶數(shù)量的不斷增長以及互聯(lián)網(wǎng)技術(shù)的快速進步,利用互聯(lián)網(wǎng)獲取內(nèi)容或用戶大數(shù)據(jù)變得越來越簡單廉價,利用直推模型來預測某個事物或現(xiàn)象也變得越來越普及。例如,許多互聯(lián)網(wǎng)搜索引擎利用每個網(wǎng)頁的用戶點擊率來改進搜索網(wǎng)頁的排序精度,就是直推模型在互聯(lián)網(wǎng)內(nèi)容搜索領域的一個成功應用。
綜上所述,機器學習算法的本質(zhì)就是選擇一個萬能函數(shù)建立預測模型。利用用戶提供的訓練樣本對模型進行訓練的目的,就是選擇最優(yōu)的參數(shù)集,使模型能夠很好地擬合訓練樣本集的空間分布。通過訓練得到的預測模型,實際上把訓練樣本集的空間分布提取出來并編碼到其龐大的參數(shù)集中。利用這個訓練好的預測模型,我們就能夠預測新的未知樣本x的標簽或?qū)傩?。當今大多?shù)機器學習算法都是基于這個原理,谷歌公司的AlphaGo也不例外。
針對某個事物或現(xiàn)象所采集的訓練樣本,是對該事物或現(xiàn)象的直觀描述,蘊藏著大量與之相關的先驗知識。例如,ImageNet ILSVRC國際圖像內(nèi)容分類比賽所提供的訓練樣本集擁有1000類、總共一百多萬張彩色圖像。每一類都對應自然界中的一種常見物體,如汽車、飛機、狗、鳥,等等,包含大約1000張從不同場景及不同角度拍攝的該種物體的彩色圖像。利用這個訓練樣本集訓練出來的深度卷積神經(jīng)網(wǎng)絡,實際上是將每類物體的共性特征及個體差異等進行信息提取與編碼,并記憶到其龐大的參數(shù)集中。當新的未知圖像出現(xiàn)時,神經(jīng)網(wǎng)絡就能夠利用已編碼到參數(shù)集中的這些先驗知識,對輸入圖像進行準確的識別與分類。
同樣,谷歌公司在訓練AlphaGo時,收集了20萬個職業(yè)圍棋高手的對局,再利用AlphaGo不同版本間的自我對弈生成了3000多萬個對局。3000多萬個圍棋對局包含了人類在圍棋領域所積累的最為豐富和全面的知識與經(jīng)驗。當新的棋局出現(xiàn)時,AlphaGo利用被編碼于其龐大參數(shù)集中的這些先驗知識,預測出勝率最高的一步棋,以及這步棋所產(chǎn)生的最終勝率。由于AlphaGo針對3000多萬個對局進行了學習與編碼,它對每一步棋的勝負判定甚至比九段棋手還要準,人類棋圣輸給AlphaGo也就不足為奇了。
人類智能的本質(zhì)與特性
對于人腦及其高度復雜的智能,人類至今還所知甚少。關于“智能”這個名詞的科學定義,學術(shù)文獻中就存在著許多個版本。即使是少數(shù)幾個被深入研究的認知功能(如人腦的視覺認知功能)的工作機理,也還存在著各種各樣的假說和爭議。在這里,我們列出若干較具代表性、認可度相對較高的關于人腦智能的假說及闡述。
人類智能的本質(zhì)是什么?這是認知科學的基本任務,也是基礎科學面臨的四大難題(Simon)中最后、最難解決的一個。每門基礎科學都有其特定的基本單元,例如高能物理學的基本粒子,遺傳學的基因、計算理論的符號、信息論的比特等。因此,“人類智能的本質(zhì)是什么”這個問題在某種程度上取決于“什么是認知基本單元”。眾所周知,適合描述物質(zhì)世界的變量并不一定適合描述精神世界。因此,認知基本單元是什么這個問題,不能靠物理的推理或計算的分析來解決,根本上只有通過認知科學的實驗來回答。大量實驗結(jié)果顯示,認知基本單元不是計算理論的符號,也不是信息論的比特,而是知覺組織形成的“知覺物體”。例如,實驗表明,當人的視覺系統(tǒng)注意一只飛鳥的時候,它所注意的是整只鳥(即一個知覺物體),而不是鳥的某個特性(形狀、大小、位置等)。盡管在飛行過程中鳥的各種特征性質(zhì)在改變,但它是同一個知覺物體的性質(zhì)始終保持不變。諾獎得主Kahneman認為,知覺物體概念的直覺定義正是在形狀等特征性質(zhì)改變下保持不變的同一性。中科院陳霖院士領導的團隊在發(fā)展了30多年的拓撲性質(zhì)知覺理論的基礎上,提出大范圍首先的知覺物體拓撲學定義:知覺物體的核心含義,即在變換下保持不變的整體同一性,可以被科學準確地定義為大范圍拓撲不變性質(zhì)。應當指出,上述大范圍首先知覺物體的概念,與人工智能領域廣為認同與采納的由局部到整體,由特征到物體,由具體到抽象的認知計算模型是完全背道而馳的,因而在人工智能領域并沒有得到足夠的重視及應用。
大量認知科學領域的實驗研究表明,人類智能具有以下幾個特性。
人類智能的目標不是準確。人類智能并不追求在精神世界里客觀準確地再現(xiàn)物理世界。上帝設計人類智能時,不假思索地直奔“生存”這一終極目標而去:用最合理的代價,獲取最大的生存優(yōu)勢。人類大腦的平均能耗大約只有20瓦,相對于龐大的計算機系統(tǒng)來說只是九牛一毛。盡管人腦的重量只有1400克左右,約占人體重量的2.3%,但它的血液供應量卻占到了全身的15.20%,耗氧量超過全身的20%,對于人類已經(jīng)接近其生理可以負擔的極限。在這種資源極其有限的條件下,人腦通過以下幾種方式實現(xiàn)了最有效的資源調(diào)配,由此來保障最有意義的生理和智能活動。
第一,主觀能動的選擇性。精神世界不是對物理世界的簡單映射,而是非常扭曲和失真的。體積相對較小的手指、舌頭等重點區(qū)域,在感覺運動中樞里卻占據(jù)大部分的皮層區(qū)域。同樣,在視覺上只有對應中央視野的視網(wǎng)膜具有很高的空間、顏色分辨率,而更廣泛的外周視野只對物體的突然出現(xiàn)或消失,以及物體的運動更敏感。人類視覺處理的通常方式是,外周視野的顯著變化會在第一時間被捕獲,做出應激反應,然后再把中央視野移動到目標上進行后續(xù)的處理。
人類通過知覺組織的選擇性注意機制,直接感知輸入信號中的大范圍不變性質(zhì),而忽略大量的局部特征性質(zhì)。大量視而不見的現(xiàn)象,在實驗室研究中表現(xiàn)為注意瞬脫、變化盲視等等。比如,盡管可以清晰地分辨出霓虹燈中的色塊顏色、形狀各不相同,甚至在空間和時間上都不連續(xù),人腦仍然把這些色塊看成是同一個物體,從而產(chǎn)生運動的感覺。研究表明,這種運動錯覺本質(zhì)上不是運動,其生態(tài)意義在于對知覺對象進行不變性抽提。另一方面,人腦會主動把忽略的部分補充回來。而通過經(jīng)驗知識,上下文關系等補充回來的信息,難免有錯。所謂錯覺就是精神世界和物理世界的錯位。這些錯覺的生態(tài)意義在于在有限資源條件下,快速直接地形成穩(wěn)定的感知。這種機制既是人類天馬行空的聯(lián)想能力和創(chuàng)造力的源泉,同時也是各種精神心理疾患的生物學基礎。
第二,模塊化的層次結(jié)構(gòu)和分布式表征。當前認知科學越來越依賴于腦成像技術(shù)的發(fā)展。功能模塊化假設認為,大腦是由結(jié)構(gòu)和功能相對獨立、專司特定認知功能的多個腦區(qū)組成。這些模塊組成復雜的層次結(jié)構(gòu),通過層次間的傳遞和反饋實現(xiàn)對輸入信號的主動調(diào)節(jié)。大量腦成像的研究實驗也支持了這一假設,特別是視覺研究發(fā)現(xiàn)了非常詳細而復雜的功能模塊及其層次結(jié)構(gòu)。另一方面,分布式表征的假說認為,認知功能的神經(jīng)機制是相對大范圍的分布式腦狀態(tài),而不是特定腦區(qū)的激活與否。當前研究認為,人腦是模塊化和分布式表達共存的自能系統(tǒng)。
第三,反應性活動和內(nèi)生性活動。人腦不是一個簡單的刺激—反應系統(tǒng),大量的內(nèi)生性活動甚至比反應性活動還多。人腦在所謂的靜息狀態(tài)下的耗氧量與任務狀態(tài)下相比差別很小。然而幾乎所有的經(jīng)典認知科學研究都是建立在刺激反應實驗范式的基礎之上。這種實驗范式是讓實驗對象在特定的條件下完成特定的認知任務,收集并分析實驗對象的行為或生理反應,通過對實驗數(shù)據(jù)的充分比照,建立人腦某種活動模式或認知機理的假設。內(nèi)生性活動因其往往只能通過內(nèi)省的方式進行研究,而被長期排除在認知科學的研究主流之外。隨著腦成像技術(shù)的發(fā)展,功能連接成為分析靜息態(tài)大腦自發(fā)活動的有力工具。特別是默認網(wǎng)絡的發(fā)現(xiàn),創(chuàng)立了強調(diào)內(nèi)生性活動的全新腦功能成像研究范式。默認網(wǎng)絡被認為涉及警覺狀態(tài)、自我意識、注意調(diào)控以及學習記憶等心理認知過程,已被廣泛應用于社會認知、自我、注意、學習、發(fā)育、衰老機制的研究,有力推動了各種腦生物指標的完善和腦疾病的治療,這些疾病包括阿爾茲海默病、帕金森病、抑郁癥、精神分裂癥和自閉癥等等。
因此,整合現(xiàn)有研究中有關分布式表達和內(nèi)生性活動的最新研究成果,可能會帶來對人腦活動模式(人類智能的物質(zhì)基礎)一種全新的理解。
人類智能的本質(zhì)不是計算。人類智能體現(xiàn)在對外部環(huán)境的感知、認知、對所觀察事物或現(xiàn)象的抽象、記憶、判斷、決策等。然而,這些智能并不是人類所獨有。許多高等動物,如狗、猴子、猩猩,也或多或少具有類似的能力。同時,計算并不是人類智能的強項。真正將人類與其它動物區(qū)分開來的,是人類的邏輯推理能力、想象力、創(chuàng)造力以及自我意識。人類利用這類能力能夠想象并且創(chuàng)造出自然界中不存在的東西,如汽車、飛機、電視、計算機、手機,互聯(lián)網(wǎng)。這類能力是推動人類社會不斷發(fā)展與進步的源泉,是生物智能的圣杯。
而對代表生物智能最高水平的上述能力,人類目前還所知甚少,對其機理的研究還處于啟蒙階段。研究表明,這些能力不是依靠計算得來的,而似乎是與聯(lián)想記憶及人類豐富的精神世界有關?;谀X信號的分析實驗發(fā)現(xiàn),人腦的海馬回、海馬旁回、杏仁核等腦區(qū)中存在著大量專司特定聯(lián)想記憶的神經(jīng)細胞。例如,上述腦區(qū)中存在單個或一小簇神經(jīng)細胞,會被與美國前總統(tǒng)克林頓相關的所有刺激信號所激活,無論刺激信號是關于克林頓的圖片,還是Clinton這個英語單詞,還是克林頓本人的語音回放。顯然,這些神經(jīng)細胞并不是被某個模態(tài)的特定特征所激活,它們所對應的是克林頓這個抽象概念。此外,腦成像研究表明,圍棋專業(yè)棋手相對于業(yè)余棋手更多的是依賴聯(lián)想記憶系統(tǒng),而非邏輯推理來下棋。實際上,圍棋界訓練棋手的最常用方法就是將高手對局中的關鍵部分拆解成許多死活題,棋手通過大量死活題的解題訓練來提高自己聯(lián)想記憶的經(jīng)驗和效率。
機器智能與人類智能的優(yōu)勢與劣勢
當代的計算機擁有強大的存儲與運算能力。伴隨著計算技術(shù)的不斷發(fā)展與進步,這些能力的增長似乎還遠沒有到達盡頭。早在1997年,IBM的“深藍”超級電腦就戰(zhàn)勝了國際象棋冠軍卡斯帕羅夫。但這次勝利在人工智能領域并沒有產(chǎn)生太大的反響,原因在于,“深藍”幾乎純粹是依靠強大的運算能力遍歷所有的可能性,利用“蠻力”取勝的。“深藍”所遵循的,就是“人工智能即是計算加記憶”這個簡單法則。由于圍棋的搜索空間比國際象棋大很多,“深藍”的這種制勝策略針對圍棋是行不通的。與“深藍”相比,AlphaGo的最大進步就是從“計算加記憶”進化到“擬合加記憶”法則。它利用深度卷積神經(jīng)網(wǎng)絡這個萬能函數(shù),通過學習來擬合兩千多年來人類所積累的全部經(jīng)驗及制勝模式,并將其編碼到神經(jīng)網(wǎng)絡的龐大參數(shù)集中。對于當前棋局的任何一個可能的落子,訓練好的神經(jīng)網(wǎng)絡都能夠預測出它的優(yōu)劣,并通過有限數(shù)量的模擬搜索,計算出最終的獲勝概率。這樣的戰(zhàn)略不需要對棋局的所有可能性做遍歷搜索,更像人類棋手所使用的策略。然而,由于AlphaGo對每個落子以及最終勝率的預測,是建立在圍棋界兩千多年來所形成的完整知識庫之上的,它的預測比人類最優(yōu)秀的棋手更準確。與其說李世石輸給了機器系統(tǒng),不如說輸給了人類棋藝的集大成者。由此推斷,AlphaGo取勝也是情理之中的事。
與機器相比,人類智能的最大優(yōu)勢當屬它的邏輯推理能力、想象力、創(chuàng)造力及其高效性。人腦功耗只有20多瓦,處理許多感知及認知任務(如圖像識別、人臉識別、語音識別等)的精度與擁有龐大內(nèi)存、運算速度達到萬億次的超級電腦相比卻毫不遜色。盡管機器智能很可能在不遠的將來在棋牌類競賽中全面超越人類,但現(xiàn)有的機器學習框架并不能模擬出人類的想象力和創(chuàng)造力。因此,在當前情況下,機器智能全面超越人類智能的預測是不會成為現(xiàn)實的。
隨著機器學習算法的不斷發(fā)展與進步,計算機借助強大的存儲與運算能力,學習人類幾千年來發(fā)展與進化過程中所積累的完整知識的能力越來越強,借助完整知識庫對復雜事務進行預測與判斷的準確度將會全面超越人類。由此推斷,在未來幾十年里,不僅是那些簡單重復性的體力勞動將會全面被機器取代,而且那些需要對復雜事務進行評估與判斷的工作,如金融投資、企業(yè)管理、軍事指揮等,也有可能被讓位于機器智能。甚至大到整個國家,也可能會越來越依靠機器智能預測政治、經(jīng)濟、外交發(fā)展趨勢,制定最優(yōu)的政策方針及發(fā)展規(guī)劃。實際上,許多發(fā)達國家的智囊機構(gòu)已經(jīng)在利用各種評估及預測模型為政府提供對各種事物的預測與判斷,提出政策建議或解決方案。
然而,當前的機器學習框架無法模擬人類的想象力及創(chuàng)造力,科學研究與發(fā)明創(chuàng)造仍將是人類的優(yōu)勢所在。不難預測,在未來人類社會的發(fā)展進程中,將有越來越多的人從事科學研究以及新產(chǎn)品的設計研發(fā)工作。社會對每個人的知識能力、智慧以及發(fā)明創(chuàng)造力的要求將會越來越高,不具備這些能力的人們將會無法找到滿意的工作,逐漸成為處于社會底層的貧困階層。了解并解決科技迅速發(fā)展所帶來的社會挑戰(zhàn),仍然是人類需要面對的任務,而機器是無法替代人類解決這些問題的。
(中科院生物物理所腦與認知國家重點實驗室周天罡、西安交通大學電信學院韓勁松對本文亦有貢獻)
責 編/凌肖漢
Will Artificial Intelligence Surpass Human Intelligence Ultimately?
——Discussion Based on Basic Principle of Machine Learning and Human Cognition
Gong Yihong
Abstract: Recently, the smashing 4-1 win of Google’s AlphaGo over the South Korean Go Master Lee Sedol has not only shown the power and great potentials of artificial intelligence, but also caused panic and worries in the human society. People begin to think carefully about the progress and challenges that artificial intelligence will bring to the human society and whether artificial intelligence will ultimately surpass human intelligence. To find the answer, we need to first understand the essence and basic principles of artificial intelligence. In the beginning, this article briefly described the deep Convolutional Neural Networks (deep CNN)—the most popular research result in the field of machine intelligence to date, and then discussed the essence and basic principles of machine learning. After that, with an overview of the latest research discoveries about human brain’s cognitive mechanism, this article tried to reveal the essential differences between machine intelligence and human intelligence, and compared their advantages and disadvantages in order to find the answers to the foregoing questions.
Keywords: artificial intelligence, AlphaGo, neural synapse, machine learning, pattern recognition
龔怡宏,西安交通大學人工智能與機器人研究所教授、博導,中組部“千人計劃”教授,國家973項目首席科學家,視覺信息處理國家工程實驗室首席科學家。研究方向為多媒體內(nèi)容分析、機器學習、模式識別。主要著作有主要著作有《Intelligent Image Databases - Towards Advanced Image Retrieval》《Machine Learning for Multimedia Content Analysis》等。