如今,人工智能發(fā)展迅速,應用也越來越廣泛,但是我們不能對這一新技術抱以完全的信任。因為盲目的信任,有可能會造成誤導或是危險的結果,謹慎一點是必須的。
關于人工智能(AI)這個相當過時的概念,最近引起了大量的討論。人工智能充斥著我們的生活,涉及了無數(shù)的應用程序,從谷歌搜索,到Uber或Lyft打車軟件,到機票價格,到智能助手Alexa或Siri。對一些人來說,人工智能是一種拯救,它會提高生活質量,同時在眾多成熟的行業(yè)中注入創(chuàng)新元素。
然而,另一些人則發(fā)出了可怕的警告:我們很快就會完全被高超的機器智能所征服。人工智能是典型的軟件主導,而軟件是容易出現(xiàn)漏洞的??紤]到這一點,我們如何知道人工智能本身是足夠可靠去完成工作的?或者更確切地說,我們對于人工智能的成果能夠信任到什么程度?
盲目信任的風險
我們來討論一下自動駕駛汽車。汽車自動駕駛系統(tǒng)的發(fā)展中,人工智能的元素發(fā)揮了很大的作用?,F(xiàn)在制造出了大部分時間都遵守道路規(guī)則的車輛。這里有一個案例,一輛自動駕駛汽車在佛羅里達州側面撞上一輛轉彎的卡車,導致“司機”死亡。這起事故最終被歸咎于“司機”的失誤,因為自動控制裝置被認為是在他們的設計范圍內運行的。當時的躲避系統(tǒng)設計要求雷達和視覺系統(tǒng)的結果達成一致后做出閃避的動作。
然而,有證據表明,白色卡車在明亮的陽光下轉彎時造成眩光晃到了這輛車的視覺系統(tǒng)。于是這個系統(tǒng)既沒有察覺到,也沒有對即將到來的危險做出反應。并且,在這次事故中,還有其他證據表明,當時“司機”正在看《哈利波特》電影。這名“司機”顯然對自動駕駛系統(tǒng)過于自信,并沒有對其行為進行積極的監(jiān)控,也沒能發(fā)現(xiàn)它的漏洞,盡管估計有7秒鐘的可以讓他預見到風險的時間。
設計的保護等級已經確定,但司機沒有意識到他的自動駕駛儀仍然需要他全神貫注的注意力。在這種罕見的情況下,對于人工智能系統(tǒng)的錯誤信任引發(fā)了致命的結果。
建立信任的門檻
人工智能的發(fā)展確實令人印象深刻。美國國防部高級研究計劃局(DARPA)在2016年年底完成了“網絡大挑戰(zhàn)”(CGC)競賽。CGC上,機器可以獨立地玩一種被稱為“奪旗必死”的實時黑客游戲。在這里,“旗幟”隱藏在代碼中,黑客的工作就是利用漏洞攻擊對手的“旗幟”。CGC為最成功的球隊提供了200萬美元的獎金。CGC最后一輪在一個普通的封閉網絡上,在沒有人為干預的情況下,七臺機器相互競爭。這些機器必須識別對手系統(tǒng)中的漏洞,在自己的系統(tǒng)上進行修復,并在對手的系統(tǒng)中利用這些漏洞來奪旗。卡內基梅隆大學的Mayhem團隊獲得勝利。
美國國防部高級研究規(guī)劃局信息創(chuàng)新辦公室主任John Launchbury將與CGC有關的人工智能的特征描述為手工制造的知識。這項技術從早期的專業(yè)系統(tǒng)中脫穎而出,對于現(xiàn)代人工智能的發(fā)展至關重要。在手工制造的知識中,系統(tǒng)根據復雜的、手動定義的規(guī)則集進行推理。這種人工智能具有推理能力,但在感知方面是有限的,它沒有學習和進行抽象的能力。
在對于未來的推理型人工智能可以快速診斷和修復軟件漏洞這方面建立信心的同時,需要指出CGC是有范圍限制的。出于競賽的目的,開源操作系統(tǒng)的擴展被簡化了,被植入的惡意軟件版本,相對于真實生活中的惡意軟件來說,是大打折扣的。這就有意地減輕了開發(fā)負擔,為競爭評估建立了統(tǒng)一的基礎,并降低了將競爭對手的軟件不經重大修改就發(fā)布到更大的聯(lián)網世界的風險。
在游戲中使用“卑鄙的手段”來擊敗對手,是一個更黑暗的維度。盡管重新設計代碼以快速隔離和修復漏洞是好的,但將這些漏洞轉化為有效利用其他代碼的機會是另一回事。一些人擔心,如果這種能力得到釋放并失去控制,它可能會變成一種“超級代碼”——既規(guī)避了常見的漏洞,也能利用同樣的漏洞來控制他人的網絡,包括日益增長和可能還很脆弱的物聯(lián)網。這種擔憂促使電子前沿基金會呼吁人工智能開發(fā)者“道德規(guī)范”,以限制推理系統(tǒng)在可信賴的狀態(tài)下執(zhí)行。
機器學習增加了信任的賭注
Launchbury把統(tǒng)計學習這個詞歸于他認為的第二次浪潮。在這里,感知和學習能力很強,但這項技術缺乏執(zhí)行推理和抽象的能力。雖然統(tǒng)計數(shù)據令人印象深刻,但機器學習會周期性地產生不可靠的結果,通常表現(xiàn)為奇怪的異常值。隨著時間的推移,機器學習也會因受到污染的訓練數(shù)據而出現(xiàn)偏差??紤]到并非所有的人工智能學習都能產生可預測的結果,這導致了人工智能系統(tǒng)可能會以意想不到的方式出錯。那么,有效地定義人工智能工具的信任等級就是個很大的障礙。
從本質上講,人工智能是一種高階結構。在實踐中,大量松散聯(lián)合的實踐和算法似乎構成了大多數(shù)人工智能的組成部分——通常跨越許多局部領域。事實上,人工智能已經遠遠超出了計算機科學的范疇,涵蓋了神經科學、語言學、數(shù)學、統(tǒng)計學、物理學、心理學、生理學、網絡科學、倫理學等領域。下圖描繪了一組不完全統(tǒng)計的算法,這些算法是第二波人工智能現(xiàn)象的基礎,通常被統(tǒng)稱為機器學習。
為了實現(xiàn)機器學習的某種狀態(tài),有大量的潛在算法和方法存在,這就帶來了一些嚴重的信任問題,特別是對于那些為了確保信任等級而參與軟件測試的人來說。當人工智能與任務臨界狀態(tài)相關時,就像越來越多的情況一樣,測試人員必須為多個因素建立基礎,例如程序一致性、可重復性、穿透性、應用路徑跟蹤,或可識別的系統(tǒng)故障模式。
關于“什么是最合適的人工智能算法”這個關鍵問題的歷史,可以追溯到1976年。人工智能從業(yè)者都面臨著一個復雜的問題,那就是如何使用合適的算法來適應所需的人工智能設計。給定一個預期結果,那么,哪種算法最準確?哪一種效率最高?在預期的環(huán)境中,哪一種最容易實現(xiàn)?哪一種隨時間擁有最大的潛力?哪些是最熟悉、最有可能讓用戶參與其中的?設計是基于某種集中式還是分布式代理、或者是集群軟件代理?這一切要怎么進行測試呢?
這些問題表明,在各種與人工智能相關的算法和技術之間存在必要的設計權衡。這么多人工智能可替代方法的存在表明,大多數(shù)人工智能架構都遠非那么一致或有凝聚力。更糟糕的是,對于推理和學習系統(tǒng)來說哦,它們都需要高度的基于上下文的個性化。當然,這也是在說人工智能測試,因為每一種算法和它的個性化實現(xiàn)都會帶來獨特的深度測試的挑戰(zhàn),即使是在單元級別。
一個高級人工智能測試評估了正確識別和分類圖像的能力。在某些情況下,這項測試已經超越了人類做出此類評估的能力。例如,在人面數(shù)據庫(LFW)中的數(shù)據集用13000張圖片支持人臉識別技術的訓練,并使用用神經網絡或深度學習來校準面部識別機器學習工具。新的自動化人工智能圖像識別工具可以使用這個數(shù)據表在統(tǒng)計學上超越人類的面部識別能力。然而,眼前的任務本質上是感性的。這些任務通過數(shù)學上相關的幾何圖形來區(qū)分,但沒有任何形式的高階認知推理。此外,盡管它將選擇性識別的準確率與人類能力進行了比較,但在這個測試中,底層代碼基礎的其他關鍵任務方面仍未得到檢測。
代碼之外
機器學習的測試變得更加復雜,因為在學習環(huán)境中需要大量的數(shù)據集來“訓練”人工智能。不僅人工智能應該被證明是無懈可擊的,在訓練中使用的數(shù)據理論上也應該具有最高的質量。然而,在現(xiàn)實世界中,數(shù)據集往往是不平衡的、稀少的、不連貫的,而且往往是不準確的。下面的圖片表明,信息經常是由解決歧義得到的。即使在受控條件下,使用單個或多個經過驗證的數(shù)據集來訓練和測試分類器也會產生顯著的差異。因此,即使是對分類器的受控測試也會變得非常復雜,必須仔細研究。
其他與信任相關的因素遠遠超出了代碼的范圍。因為編程既是一種創(chuàng)造性行為,又是一種句法科學,因此它需要一定程度的翻譯解釋。程序員可以將有意的或無意的文化或個人偏見注入到產生的人工智能代碼中??紤]一下程序員的情況,他們創(chuàng)造了一種非常精確的面部識別程序,但忽略了皮膚色素沉著是識別標準中的一個決定性因素。這一動作會使結果偏離原本由皮膚顏色強化的功能。相反,罪犯的再犯率扭曲了一些以美國為基地的監(jiān)獄釋放決定。這意味著,一些在押人員比其他人更有機會得到提前釋放的數(shù)據——而無視了普遍的情況。語義上的不一致性可能會進一步危害人工智能代碼的中立性,尤其是在涉及自然語言處理或慣用語音識別的情況下。
一些人認為,所有的IT從業(yè)者都是網絡安全從業(yè)者。這也對人工智能的發(fā)展和實施產生了巨大的影響。從網絡安全的角度來看,“誰知道機器知道什么、機器是什么時候知道的?”的問題就變得尤為重要。機器學習的東西往往不是很容易被觀察到的,而是被深度編碼的。這不僅會影響新入網的數(shù)據,而且——在物聯(lián)網中——這些數(shù)據會讓執(zhí)行器觸發(fā)激活器,從而將“學習”轉化為某種行為。由于缺乏具體的刺激身份和出身,整個人工智能引發(fā)的物聯(lián)網刺激反應機制也變得同樣不確定。在任務關鍵型系統(tǒng)中產生的行為需要嚴格的驗證。
第三次浪潮
Launchbury預言了一個尚未完善的人工智能第三次浪潮,他將其命名為“語境適應”。這項技術需要更多的工作,將感知、學習和推理的優(yōu)勢集中在一起,并支持跨領域抽象的更高水平。
2017年5月,年度本體峰會被命名為“人工智能、學習、推理和本體”。印證了Launchbury的觀察,峰會公報草案得出結論說,到目前為止,大多數(shù)人工智能方法,包括機器學習工具和使用的計算技術都是在運用計算技術的亞符號水平上運行,是不接近人類思維的。盡管在許多形式的人工智能中已經取得了巨大的進步,但在象征層面上對知識表現(xiàn)的全面處理還有待于成熟。相應地,本體作為正式的語義組織工具的實用性,對人工智能及其最終測試環(huán)境的優(yōu)勢有限。
語義網絡涉及到以節(jié)點和弧的圖形形式來表現(xiàn)知識。它提供了一種理解和視覺化符號之間關系的方式,通常用積極的詞語來表示。在不同的上下文語境中,這些詞表達不同的意思。人工智能在很大程度上是象征性的,它需要以一種更加正式的方式來處理應用語義,以實現(xiàn)第三浪潮的狀態(tài)。在這種情況下,人工智能就變成了非線性的,因果關系通過多個執(zhí)行線程逐漸解耦。這就導致了復雜的自適應系統(tǒng)(CAS)的建立,這種系統(tǒng)往往會受到非線性網絡行為的影響。
在CAS中,隨著時間的推移,新的行為會基于環(huán)境的情況出現(xiàn)。在這里,可以有多個自組織的路徑通向成功或失敗,所有這些路徑都是由高度多樣化的節(jié)點和弧線所觸發(fā)的,這些節(jié)點和弧線可以隨著時間的推移而變化、增長、收縮和消失。這種網絡在使用嵌入式軟件時,違背了傳統(tǒng)的遞歸單元測試,而這與數(shù)據是相關聯(lián)的。這是因為,在CAS中,整體往往不僅僅是各部分的總和。相反,從應用網絡科學出現(xiàn)的新方法,提供了一種更好的方法來評估隨時間推移而出現(xiàn)的動態(tài)人工智能行為。與圖論相關的時間指標逐漸被更好地理解為一種描述動態(tài)行為的方法,這些動態(tài)行為是一些未能遵循線性路徑來達到預期效果的行為。
除非采用可靠的方法來評估人工智能的信任程度,不然喊口號就必須謹慎。對于尚不那么可靠的技術,如果盲目信任則有可能會造成誤導,有時甚至會導致危險的結果。
來源:網易智能