近些年,人工智能受到了極大關注,主要歸功于深度學習的興起,極大地推動了機器人控制、計算機視覺、語音識別、自然語言處理等領域的進展,使得很多傳統(tǒng)的AI任務取得了一些突破性的進展。
例如,在大規(guī)模圖像數(shù)據(jù)分類上,1000個類別的分類任務等一些指定的任務,前五個結果的識別錯誤率深度學習的算法甚至低于人類的水平。當然,最具影響力人工智能系統(tǒng)還數(shù)DeepMind公司推出的Alpha Go圍棋系統(tǒng),數(shù)度打敗了人類的九段棋手。
另外,還有一些人工智能系統(tǒng),在某些特定的任務上,如寫詩、作畫、音樂生成、寫字上甚至通過了圖靈測試(注:圖靈測試中的測試用戶組的專業(yè)水平會很大程度影響測試的最終結果和結論)。例如DeepMind的唇語識別系統(tǒng),甚至也超過了人類唇語識別專家的水平。本文將對當前人工智能的現(xiàn)狀做一些初步的思考和探討。
強化學習帶來AI新時代
關于Alpha GO的技術討論和分析已經隨處可見,深度強化學習的應用是其成功的關鍵,這里我們討論的是其對人類智能的一些啟發(fā)和思考。首先,這樣的AI系統(tǒng)跟人類的學習機制是有很大不同的。
Alpha GO可以利用計算機強大的計算能力和建模算法的學習能力,短時間內提升其對弈的水平,這在人類的學習過程中是不可能實現(xiàn)的。圍棋本質是一個策略搜索問題,有明確的評價標準,利用大量的數(shù)據(jù)和先進的計算模型,AI系統(tǒng)比較容易學習到最佳的策略;而人類受限于記憶、計算能力,更多從樣本學習、歸納、總結和延伸推理中進行練習和提高。
雖然Alpha Go聲稱模擬了人類的學習機制,但實際上這兩者在學習機制方面存在顯著的差異。其次,人工智能系統(tǒng)有可能探索出人類智力水平尚沒有探索到的空間。關于Alpha GO的棋藝討論中,專業(yè)人士給出了各種分析,他們發(fā)現(xiàn)了一些很古怪的、人類從未嘗試過的下法。這其實要歸功于強化學習的探索機制。
強化學習可以以一定概率去探索一些未知的空間,并計算這種探索對未來長期回報的可能收益,因此,它可能探索出人類未知的知識和技能。從這個意義上來說,人工智能系統(tǒng)與人類可以形成很好的互補:智能系統(tǒng)利用強大的計算和存儲能力,可以探索未知的知識領域,延伸人類對事物的認知。
盡管Alpha GO展示了人工智能系統(tǒng)的強大威力,但這并不意味著普遍意義的人工智能已經達到或超過了人類的水平。在當前的技術水平下,人工智能適合處理特定的任務,如計算密集型、搜索類(圍棋、國際象棋等)的任務就很適合智能系統(tǒng)處理。
而對于需要各種知識、語義理解、歸納和推理的任務,智能系統(tǒng)相對于人則還有較為遙遠的距離。以人機對話系統(tǒng)為例,現(xiàn)在微軟小冰算是全世界做得最好的閑聊機器人之一了,但是用戶很快就會發(fā)現(xiàn),她距離通過圖靈測試還非常遠,還遠遠沒有達到人的對話能力和水平。
AI與各領域結合進展矚目
人工智能與各行各業(yè)的結合,取得了令人矚目的進展。這里僅以機器人、智能駕駛、信息處理領域的相關進展為例進行說明。
傳統(tǒng)機械領域與人工智能的結合產生了機械智能。工業(yè)機器人在汽車制造、電子電氣、橡膠及塑料、家用電器等行業(yè)發(fā)揮著突出作用,而且伴隨人工智能技術的發(fā)展,應用領域更加廣泛。除了工業(yè)機器人,還有各種仿生機器人,在這里就必須提到機器人技術世界領先的波士頓動力公司,其研發(fā)的產品如Atlas、SpotMini、WildCat、Spot、JumpingRobot等,以及早期的BigDog,涵蓋了雙足、四足、雙輪足式機器人。
這些機器人產品體現(xiàn)了各種人工智能技術的綜合運用,具有超強的目標識別、環(huán)境感知與建模、任務規(guī)劃、協(xié)調控制能力,充分體現(xiàn)了人工智能系統(tǒng)的綜合特點。此外,服務器機器人也逐步進入家庭市場。其中,軟銀公司推出的Pepper情感機器人,具有一定的情緒感知和情感表達的能力,而MIT推出的Jibo、藍蛙公司的Buddy,則定位在社交機器人屬性,具有與家庭成員進行互動、完成任務、協(xié)助兒童學習等功能。
還需指出,制約家庭機器人發(fā)展的不僅僅是人工智能關鍵技術,還有涉及很多其他領域,包括機械、動力甚至材料,例如,動力的噪聲,傳感器的性能與價格等等。人工智能的發(fā)展必須與眾多領域同步,才能夠達到理想狀態(tài)。隨著未來人工智能及相關技術的逐步完善和成熟,服務機器人必將走進千家萬戶,人與機器人和諧并存的社會雖然還需時日,但可以期待。
人工智能在汽車領域一個火熱的應用就是無人駕駛,谷歌、特斯拉、百度等公司都在無人駕駛上進行了布局和投入。2017年年初,Drive.ai公布一段在Drive.ai山景城總部進行復雜路況、環(huán)境下的無人駕駛路測片段,視頻顯示該公司的無人駕駛技術能夠輕松應對雨天夜間的極端復雜的現(xiàn)實路況。
這也意味著具有現(xiàn)實普及意義的無人駕駛離我們又近了一步。特斯拉、沃爾沃等高端品牌甚至已經配置了無人駕駛的功能。無人駕駛是典型的人工智能技術的綜合運用,需要處理復雜的目標識別、環(huán)境感知與建模、規(guī)劃與控制、綜合決策等問題,對于智能系統(tǒng)的魯棒性、不確定性決策、安全性提出了更高的要求。
人工智能也極大地推動了信息處理領域的進展。IBM在2010推出的深度問答系統(tǒng)Watson,在知識問答類的節(jié)目中擊敗了人類冠軍選手,后來相關技術又在醫(yī)療健康領域得到運用,在輔助診斷方面獲得了應用。國內搜狗公司研發(fā)的問答機器人在“一站到底”的節(jié)目中參加比賽,也取得了不俗的戰(zhàn)績。
在計算機視覺領域,人臉識別算法甚至能在性能要求苛刻的“刷臉”支付中應用。在大規(guī)模的圖像分類數(shù)據(jù)集上,識別錯誤率甚至低于人類的錯誤水平。在語音識別上,深度學習算法將之前傳統(tǒng)模型的性能進行了數(shù)量級的提升,使得連續(xù)語音識別的性能達到了可實用的標準(一定環(huán)境下)。
在創(chuàng)作類的任務上,例如圖像風格轉換、寫詩、音樂創(chuàng)作、寫字、對對聯(lián)等方面,人工智能也取得了顯著的進展,在某些特定的任務上甚至聲稱通過了圖靈測試。在人機對話方面,從任務助理類的虛擬機器人如蘋果的Siri、微軟Cortana、百度度秘、阿里小蜜,到閑聊情感陪護的微軟小冰,已經逐步在改變人機交互的范式,促進從鼠標鍵盤、觸控模式到語音交互模式的轉換,也催生了互聯(lián)網行業(yè)對入口類設備如智能音箱的激烈爭奪。這些將會全面改變人與機器的交互方式以及信息管理方式。
優(yōu)秀AI須具備三特征
我們認為,一個優(yōu)秀的人工智能系統(tǒng)之所以能號稱“人工智能”,應該具有三個方面的特征:從數(shù)據(jù)或經驗中學習的能力、運用知識的能力、處理不確定性的能力。
學習能力:系統(tǒng)需要具備從數(shù)據(jù)中或過去的經驗中學習的能力,這通常需要運用機器學習算法。更進一步,如果系統(tǒng)具備從環(huán)境交互中學習,在與用戶交互過程中動態(tài)學習,具備一個不斷進化和進步的學習能力,那么就可能具備更高的智能水平。同時,學習過程應該能夠融入盡可能多的知識類信息,方能夠達到支持智能系統(tǒng)的要求。
知識運用能力:知識是智能體現(xiàn)的一個最重要的維度。聽說看能力如果不考慮內容的深度,則僅僅是停留在感知智能的層面,只能與環(huán)境交互和獲取環(huán)境的信息,其智能表現(xiàn)的空間非常有限。只有基于知識的智能系統(tǒng)才能夠從根本上趨近人類的邏輯推理等深層次的智慧表現(xiàn)。知識可以歸納為關于客觀事物的規(guī)律、經驗、規(guī)則,或者各種常識的描述。一個智能系統(tǒng)應該能夠很好的存儲與表示、運用知識,并基于知識進行歸納推理。只有將知識與數(shù)據(jù)融合,邏輯與統(tǒng)計結合,才能夠催生真正擁有認知智能能力的智能系統(tǒng)。
不確定性處理能力:在現(xiàn)實生活中任何事情,確定性是相對的,不確定性是絕對的。因此,一個優(yōu)秀的智能系統(tǒng)還應該具有很強的不確定性處理的能力,應該能夠很好地處理數(shù)據(jù)中不確定性(噪聲、數(shù)據(jù)屬性缺失等),模型決策的不確定性(決策結果的置信度等),甚至模型內部參數(shù)的不確定性。無人駕駛系統(tǒng)就需要處理各種各樣的不確定性如環(huán)境的不確定性、決策的不確定性,Alpha Go系統(tǒng)采用強化學習,以概率方式探索不同的落子方法。
目前,絕大多數(shù)人工智能的系統(tǒng),還都或多或少地缺少這些應有的特質。
魯棒性可解釋性仍是局限
魯棒性:當前以深度學習為代表的人工智能技術普遍面臨魯棒性的問題。首先,這些技術往往依賴大量的高質量訓練數(shù)據(jù)和計算資源來充分學習模型的參數(shù)。
但是,在訓練數(shù)據(jù)量有限的情況下,深度神經網絡的性能往往存在很大局限,一些規(guī)模巨大的深度神經網絡也容易出現(xiàn)過擬合,使得在新數(shù)據(jù)上的測試性能遠低于之前測試數(shù)據(jù)上的性能。
其次,在特定數(shù)據(jù)集上測試性能良好的深度神經網絡,很容易被添加少量隨機噪聲的“對抗”樣本欺騙,系統(tǒng)很容易出現(xiàn)高可信度的錯誤判斷。從另一個方面,系統(tǒng)初始建模時,由于數(shù)據(jù)充分使用能夠得到比較理想的效果,然而,在投入使用一段時期后,在線數(shù)據(jù)內容的更新,就會產生系統(tǒng)性能上的偏差,嚴重時直接導致系統(tǒng)下線。
因此,可擴展性也是人工智能系統(tǒng)實際應用的關鍵問題之一。模型的可擴展性,以及增量學習問題是絕對不可小覷的。如何應對上述挑戰(zhàn),發(fā)展魯棒性、可擴展性的智能學習系統(tǒng)必將成為下一代人工智能系統(tǒng)的重要研究課題。在方法論方面,需要系統(tǒng)全面借鑒魯棒的人類認知機理,不僅僅是神經系統(tǒng)的特性,還有認知系統(tǒng)(包括知識表示、更新、推理等),發(fā)展更加具有生物合理性的人工智能系統(tǒng)。
可解釋性:當前基于深度學習的人工智能系統(tǒng)普遍存在可解釋性不足的問題。絕大部分系統(tǒng)被當做一個“黑盒”(即輸入-系統(tǒng)-輸出,系統(tǒng)的處理過程對用戶完全不可見)處理,中間的分析、決策過程對用戶來說不可見,也缺乏可交互性和操作性。
尤其大規(guī)模的深度學習系統(tǒng),由于網絡中存在大量的復雜非線性變換和大規(guī)模的神經元連接,少量的隨機擾動就會導致最后結果的劇烈變化,其行為和表現(xiàn)難以理解和合理解釋。因此,可解釋性成為下一代人工智能系統(tǒng)的重要特性和研究課題。
一方面,具有較強可解釋性的模型可以讓使用者能夠更好地對機器決策的過程進行理解,以決定相應結果的置信度,增加人對系統(tǒng)的信任度;另一方面,具有可解釋性的模型能夠為用戶提供一個可操作的交互方式,使人的經驗介入到數(shù)據(jù)驅動的建模和決策中,做到決策的追溯、引導和糾正,從而提升系統(tǒng)的性能與表現(xiàn)。
不斷磨練邁向強AI時代
人工智能在新的數(shù)據(jù)資源、計算資源、計算模型等的推動下得到了蓬勃發(fā)展。在今天,我們擁有了更多的數(shù)據(jù),更強大的計算資源,理論、算法和模型也得到了很大的推動和發(fā)展,因此我們處在一個人工智能發(fā)展的最好時機中。
Alpha Go的成功讓世人認識到人工智能成功的一面,開啟了人工智能的新時代。然而,對于具有很強學習能力、知識運用能力、不確定性處理能力的人工智能系統(tǒng)的要求,還有一定的距離。當前人工智能技術的魯棒性、可解釋性和可交互性等問題,也在實際應用中漸漸被提到日程上來。
有問題不等于不能夠用,在人工智能研究不斷推進的同時,落地的實用產品也不斷被推出,技術在實戰(zhàn)中磨練、更新。新一代人工智能技術將不斷在魯棒性、可解釋性、交互性等關鍵問題上實現(xiàn)更多突破。人類必將逐步走向理想的強人工智能時代。
作者:黃民烈系清華大學副教授,朱小燕系清華大學教授、智能技術與系統(tǒng)國家實驗室主任
來源:《中國電子報》