在最近結(jié)束的2017年度AI星際爭(zhēng)霸競(jìng)賽上,F(xiàn)acebook做出了一款人工智能“CherryPi”,參與到這項(xiàng)旨在讓各路AI技術(shù)在星際爭(zhēng)霸游戲中同場(chǎng)競(jìng)技的賽事之中。
但遺憾的是,F(xiàn)acebook僅僅獲得賽事的第六名,最直接的原因,在于Facebook堅(jiān)持在CherryPi的研發(fā)中主要使用機(jī)器學(xué)習(xí)技術(shù),而非像其他大多數(shù)參與者那樣使用純粹的預(yù)設(shè)編碼腳本。預(yù)設(shè)編碼腳本即通過(guò)人工方式預(yù)編程了非常復(fù)雜的游戲策略腳本,讓程序根據(jù)腳本按圖索驥機(jī)械式執(zhí)行游戲。面對(duì)這些實(shí)際上并不能稱為人工智能的對(duì)手,F(xiàn)acebook自家主要基于AI技術(shù)的CherryPi基本處于劣勢(shì),最終僅能獲得第六名。隨便提一下今年這項(xiàng)賽事的獲勝者是一名對(duì)星際爭(zhēng)霸游戲本身有深刻理解的業(yè)余人士所編制的腳本機(jī)器人。當(dāng)然Facebook的失敗并不意外,因?yàn)槟壳耙兇饪咳斯ぶ悄苋ヌ魬?zhàn)攜帶了大量人類游戲先驗(yàn)知識(shí)的腳本機(jī)器人,本身就是一場(chǎng)不對(duì)等的較量。
如果說(shuō)Facebook的人工智能技術(shù)雖然最終未能取得好成績(jī),但尚且能和人類精心編制的腳本機(jī)器人一戰(zhàn)的話,那發(fā)明了AlphaGo的DeepMind目前則被星際爭(zhēng)霸2徹底玩壞了。
此前,DeepMind和星際爭(zhēng)霸系列制作公司暴雪聯(lián)合推出了星際爭(zhēng)霸2的機(jī)器學(xué)習(xí)平臺(tái)sc2le,DeepMind借此希望在繼AlphaGo后在星際爭(zhēng)霸2上繼續(xù)挑戰(zhàn)人類,但令人失望的是,目前DeepMind在星際爭(zhēng)霸2上進(jìn)展緩慢。在今年7月底,DeepMind發(fā)表了一篇論文《StarCraft II: A New Challenge for Reinforcement Learning》系統(tǒng)闡述了他們?cè)谛请H爭(zhēng)霸2中的進(jìn)展,在論文中DeepMind承認(rèn)了目前的深度學(xué)習(xí)與增強(qiáng)學(xué)習(xí)框架在星際爭(zhēng)霸2中并無(wú)任何理想的結(jié)果。
在上面難度相當(dāng)于Atari小游戲的迷你任務(wù)中,DeepMind的人工智能的表現(xiàn)才勉強(qiáng)達(dá)到合格線。下圖是DeepMind在論文中總結(jié)的任務(wù)得分?jǐn)?shù)據(jù),在尋找并消滅小狗和消滅蟑螂游戲中AI接近、超越了普通人類玩家(DeepMind 自家工作人員),在尋路上接近了人類高手。
然而,上述7個(gè)迷你游戲相對(duì)于星際爭(zhēng)霸2的全局游戲相差懸殊,DeepMind通過(guò)迷你游戲的設(shè)計(jì)將星際爭(zhēng)霸2人工智能試驗(yàn)降低到Atari小游戲級(jí)別的難度,并不意味著人工智能在星際爭(zhēng)霸2這款類似人類現(xiàn)實(shí)世界對(duì)抗/戰(zhàn)爭(zhēng)簡(jiǎn)化模擬的游戲上有太多顯著的突破。而究其原因,在于星際爭(zhēng)霸2的決策空間巨大,涉及了在收集資源、建設(shè)建筑、訓(xùn)練部隊(duì)、局部戰(zhàn)術(shù)等方面的海量決策,其決策空間遠(yuǎn)高于只有落子一個(gè)動(dòng)作的圍棋。另外更要命的是,RTS游戲由于進(jìn)程較長(zhǎng),其策略的回報(bào)(reward)趨向長(zhǎng)期,即意味著難以定義類似于Atari游戲中Agent非常明確的回報(bào),這使得DeepMind在Atari游戲中屢試不爽的Reinforcement Learning變得難以湊效。
于是DeepMind似乎希望后續(xù)把研究回歸到傳統(tǒng)的監(jiān)督學(xué)習(xí)方向,借助海量的星際爭(zhēng)霸2人類玩家對(duì)局replay數(shù)據(jù)去優(yōu)化學(xué)習(xí)的效果。在論文中通過(guò)replay增強(qiáng)學(xué)習(xí)后,Agent在采礦和造兵上等任務(wù)上相比此前自學(xué)有了顯著的提升。
之所以說(shuō)了這么多AI與星際爭(zhēng)霸2的事情,是因?yàn)閺闹形覀兛梢钥吹揭粋€(gè)關(guān)鍵性的現(xiàn)象:在類似于星際爭(zhēng)霸2這種復(fù)雜任務(wù)(決策空間巨大)之中,在計(jì)算機(jī)視覺(jué)、機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域取得了巨大成功的主流深度學(xué)習(xí)方法,事實(shí)上難以取得太多的成果,甚至連DeepMind也承認(rèn),在星際爭(zhēng)霸2的嘗試中他們遇到的困難遠(yuǎn)遠(yuǎn)高于此前的估計(jì)。而這是因?yàn)?,?dāng)前的主流深度學(xué)習(xí)方法并不完美,其一切都是建立在海量的訓(xùn)練數(shù)據(jù)基礎(chǔ)上。
算法不夠,數(shù)據(jù)來(lái)湊
眾所周知,目前深度學(xué)習(xí)在人工智能中所取得的成功,實(shí)際上建立在三大驅(qū)動(dòng)因素上:算法、數(shù)據(jù)和算力。首先主流的深度學(xué)習(xí)算法近年來(lái)變化越來(lái)越少,同時(shí)深度網(wǎng)絡(luò)的架構(gòu)本身似乎對(duì)于效果的產(chǎn)出正在減弱,而真正讓主流深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)、機(jī)器翻譯、語(yǔ)音識(shí)別等領(lǐng)域取得了巨大成功的關(guān)鍵驅(qū)動(dòng)力是數(shù)據(jù)。深度學(xué)習(xí)區(qū)別于傳統(tǒng)機(jī)器學(xué)習(xí)方法的最大特征,是深度學(xué)習(xí)可以使用海量的數(shù)據(jù)去提升自身的表現(xiàn)(Performance),這可以用一幅經(jīng)典的圖表去展示。
傳統(tǒng)的機(jī)器學(xué)習(xí)算法往往在數(shù)據(jù)量超過(guò)一定的閾值后,其表現(xiàn)就難以繼續(xù)隨著訓(xùn)練數(shù)據(jù)量而提升,更多的數(shù)據(jù)輸入僅僅是浪費(fèi);而大型的深度神經(jīng)網(wǎng)絡(luò)模型猶如一只大水桶,在裝入了更多的數(shù)據(jù)后其表現(xiàn)能夠繼續(xù)攀升,數(shù)據(jù)成為了深度學(xué)習(xí)的核心驅(qū)動(dòng)力,缺乏了海量的標(biāo)注數(shù)據(jù),深度學(xué)習(xí)的效果并不會(huì)比傳統(tǒng)機(jī)器學(xué)習(xí)方法有太大的改善。而最后算力是保障如此巨大的海量數(shù)據(jù)能跑在深度學(xué)習(xí)框架上的基礎(chǔ)能力,從某種角度理解NVIDIA的股價(jià),是建立在數(shù)據(jù)科學(xué)界需要將海量數(shù)據(jù)注入深度神經(jīng)網(wǎng)絡(luò)并進(jìn)行大量前向/方向傳播的基礎(chǔ)上。
甚至,我們能以以下公式描述當(dāng)今的人工智能業(yè)態(tài):
當(dāng)今人工智能 = 海量的標(biāo)注數(shù)據(jù) + 簡(jiǎn)單粗暴的前向/后向傳播計(jì)算
于是AI界開(kāi)始了標(biāo)注數(shù)據(jù)收集的軍備競(jìng)賽,類似Amazon Mechanical Turk的數(shù)據(jù)標(biāo)注眾包平臺(tái)不斷涌現(xiàn),而自身具備了海量數(shù)據(jù)資源的BAT或者搜狗,一夜之間在語(yǔ)音識(shí)別準(zhǔn)確率上紛紛接近甚至超越了在語(yǔ)音識(shí)別深耕了超過(guò)十年的科大訊飛。標(biāo)注數(shù)據(jù)的價(jià)值,讓大數(shù)據(jù)時(shí)代一句經(jīng)典的話——“數(shù)據(jù)即將成為新時(shí)代的電力”變得前所未有的真實(shí)。一個(gè)個(gè)如ImageNet等人工智能競(jìng)賽中不斷被打破的準(zhǔn)確率記錄,其背后是無(wú)數(shù)的人力物力被投入到高質(zhì)量的標(biāo)注數(shù)據(jù)之中,人工智能一定程度上,甚至可以理解為有多少人工,被投入到數(shù)據(jù)標(biāo)注之中,就能有多少智能。
然而,過(guò)分依賴海量標(biāo)注數(shù)據(jù)的主流深度學(xué)習(xí)方法目前面臨了越來(lái)越多的挑戰(zhàn),首先在某些標(biāo)注數(shù)據(jù)難以收集或者收集代價(jià)很大的領(lǐng)域,讓AI應(yīng)用的建立變得舉步維艱,比如在智慧醫(yī)療中,高質(zhì)量的醫(yī)學(xué)影像標(biāo)注數(shù)據(jù)收集門檻非常高。另外更為重要的是,海量標(biāo)注數(shù)據(jù)+深度學(xué)習(xí)框架+GPU并行計(jì)算的簡(jiǎn)單粗暴模式,在越來(lái)越多領(lǐng)域被證明或許沒(méi)有大家想象的那么管用,上一節(jié)DeepMind在星際爭(zhēng)霸2中的努力是其中一個(gè)案例。
究其原因,當(dāng)下主流的深度學(xué)習(xí)方法或許并不是最優(yōu)的范式。目前有越來(lái)越多的人在反思深度學(xué)習(xí)的局限和缺陷,甚至包括了深度學(xué)習(xí)之父Geoffrey Hinton本人。大多數(shù)學(xué)習(xí)過(guò)深度學(xué)習(xí)的人基本都練習(xí)過(guò)經(jīng)典的cats vs dogs(貓狗大戰(zhàn))數(shù)據(jù)集,即從數(shù)萬(wàn)張已標(biāo)注的貓咪和狗狗照片,訓(xùn)練神經(jīng)網(wǎng)絡(luò)判斷一張圖片的類別。但對(duì)于人類而言,我們并不需要如此大量的標(biāo)注去讓我們學(xué)習(xí)一種動(dòng)物是貓咪,即使對(duì)于一個(gè)從來(lái)不知道貓的幼兒,在見(jiàn)過(guò)幾次貓之后就能認(rèn)知到這種實(shí)際上是一種區(qū)別于其他動(dòng)物的物種,哪怕不知道它的語(yǔ)言名稱,當(dāng)某一天有人告訴她這種生物叫“貓咪”后,只需要這一次“標(biāo)注”,她以后就能準(zhǔn)確分辨出每一只貓。然而對(duì)于當(dāng)前深度學(xué)習(xí)來(lái)說(shuō),依賴的是大量的數(shù)據(jù)標(biāo)注,這種One-shot learning是極其艱難的挑戰(zhàn)。
在這里,我們能總結(jié)性地說(shuō)一句,大數(shù)據(jù)讓深度學(xué)習(xí)插上了騰飛的翅膀,但同樣也成為了深度學(xué)習(xí)飛翔到更多領(lǐng)域的障礙。畢竟在很多領(lǐng)域海量的標(biāo)注數(shù)據(jù)不是那么容易獲取,甚至“標(biāo)注”本身也是一項(xiàng)極其難定義的事情,比如在星際爭(zhēng)霸2中,我們應(yīng)該如何更好地標(biāo)注replay數(shù)據(jù),讓AI能更好地進(jìn)行監(jiān)督學(xué)習(xí)?甚至進(jìn)一步說(shuō),這種標(biāo)注行為也許并不是一個(gè)明智的選擇,正如人類并不需要在學(xué)會(huì)玩星際爭(zhēng)霸之前,首先得看成千上萬(wàn)場(chǎng)別人的replay去學(xué)習(xí)各種玩法。
人工智能的下半場(chǎng)
在計(jì)算機(jī)視覺(jué)、機(jī)器翻譯、語(yǔ)音識(shí)別等標(biāo)注數(shù)據(jù)獲取相對(duì)代價(jià)低廉的領(lǐng)域,誠(chéng)然我們看到了主流深度學(xué)習(xí)方法所取得的巨大成功,這不僅是孜孜不倦積累30多年的深度神經(jīng)網(wǎng)絡(luò)技術(shù)的集中爆發(fā),也使得深度學(xué)習(xí)引領(lǐng)人工智能進(jìn)入了目前的熾熱狀態(tài)。但必須實(shí)事求是地說(shuō),越來(lái)越多的證據(jù)表明,當(dāng)前主流深度學(xué)習(xí)方法也許并不是一項(xiàng)普適性技術(shù),在更多類似星際爭(zhēng)霸2等任務(wù)極其復(fù)雜、數(shù)據(jù)難以標(biāo)注的領(lǐng)域,也許我們需要的是新的方法。
深度學(xué)習(xí)之父Geoffrey Hinton最近公開(kāi)號(hào)召摒棄現(xiàn)有深度學(xué)習(xí)(主要是反向傳播、CNN)范式,重新奮力向前尋找全新的道路。Hinton認(rèn)為,要想讓神經(jīng)網(wǎng)絡(luò)能夠自己變得智能,即實(shí)現(xiàn)不依賴海量標(biāo)注數(shù)據(jù)的“無(wú)監(jiān)督學(xué)習(xí)”,意味著需要放棄反向傳播等目前主流深度學(xué)習(xí)理念。對(duì)于在深度學(xué)習(xí)領(lǐng)域中,地位猶如愛(ài)因斯坦于物理學(xué)界的Hinton,要質(zhì)疑甚至推翻自身花費(fèi)了十幾年心血所建立的主流深度學(xué)習(xí)方法,必然是需要具備極其巨大勇氣的,我們甚至可以合理推測(cè),Hinton老爺子心中必定是對(duì)人工智能未來(lái)有了新的vision,才能驅(qū)使他堅(jiān)定地做出如此艱難的選擇。
當(dāng)然,也許只有類似Hinton等極少數(shù)人才能擁有對(duì)于未來(lái)技術(shù)演進(jìn)的vision,但立足于對(duì)當(dāng)前業(yè)態(tài)的觀察,我們也能發(fā)現(xiàn)目前主流深度學(xué)習(xí)的勢(shì)能似乎已經(jīng)在逐漸減弱,也許這就是當(dāng)前人工智能業(yè)界最大的風(fēng)險(xiǎn)所在。
海量的標(biāo)注數(shù)據(jù),加上簡(jiǎn)單粗暴的前向/后向傳播計(jì)算,也許并不是人工智能未來(lái)的全部,從今天開(kāi)始,我們最好把這點(diǎn)記在心中。
來(lái)源:大數(shù)據(jù)觀察