本文摘選自阿里“達(dá)摩院”首批學(xué)術(shù)咨詢委員會成員、哥倫比亞大學(xué)數(shù)據(jù)科學(xué)研究院主任周以真教授,于2017年10月11日在云棲大會的演講《Data for Good:Scary AI and Other Dangers with Big Data(大數(shù)據(jù)的好處:可怕的人工智能以及大數(shù)據(jù)的威脅)》。
數(shù)據(jù)能夠帶來什么樣的好處,我這里分兩方面來說。
◎ 第一方面,我們要有責(zé)任的使用數(shù)據(jù)。
◎ 第二方面,我們要用數(shù)據(jù)來應(yīng)對社會巨大的問題,比如說能源、環(huán)境、教育、氣侯變化等等這些重大的人類命題。
但是今天我只是會去談有責(zé)任的使用數(shù)據(jù)這一個方面,因為我們所有人都是在使用數(shù)據(jù),我們在使用數(shù)據(jù)的目的,都是為了應(yīng)對社會的挑戰(zhàn)。我演講的目的,給大家敲一個警鐘,我們在使用數(shù)據(jù)過程當(dāng)中不負(fù)責(zé)任的話,會有什么樣的后果。
我想用FATES(命運)這個比喻的縮寫來去講一下怎么有責(zé)任的使用,F(xiàn)是代表公平,A是可靠,T是透明,E是有道德,S是代表安全。
有偏見的數(shù)據(jù)導(dǎo)致的問題,誰該負(fù)責(zé)任?
首先來看一下數(shù)據(jù),我在給大家分享之前,先非常簡單的講一下典型的算法和模式,我們在用大數(shù)據(jù)為原料,進(jìn)行大數(shù)據(jù)計算的時候,涉及到的一些算法和模型。我們知道機器學(xué)習(xí)和形成一種模型,有這個模型,我可以再輸入新的數(shù)據(jù),這個新的數(shù)據(jù),經(jīng)過這個模型之后,有可能產(chǎn)生新的結(jié)果,之后我們可以來判斷和預(yù)計,這個用戶有可能采購哪些商品。
我們知道數(shù)據(jù)和算法都可能是有偏見的,那么如果數(shù)據(jù)和算法是有偏見的話,那么我們的這個模型可能也會有偏見,那么我們的結(jié)果也會有偏見的。讓我們來看一個實例,那么這是幾年前我們看到兩個小偷,在美國的法官用了這種算法來決定判斷量刑過程當(dāng)中是否恰當(dāng),我們看到這些自主研發(fā)的算法,在法官當(dāng)中廣為流行的算法,用于幫助法官去判斷這些量刑。
我發(fā)現(xiàn)他們對于黑人和白人量刑的結(jié)果是不同的,其實結(jié)果還不僅僅于此,我們在算法當(dāng)中有一些什么樣的問題,這個算法本身是有偏見的,而且哈佛大學(xué)學(xué)者研究出來,這些算法有可能是可以判斷的,又可能是錯誤的,但不可能兩者兼具,實際上是不可能去判斷這個風(fēng)險的分?jǐn)?shù)。
第二個例子,這是我的這些同事做的項目,我的這些同事研究了在Google上的廣告,他們發(fā)現(xiàn)這些高薪的工作機會更多的會向男性網(wǎng)民展現(xiàn),女性網(wǎng)民看到這些高薪的招聘廣告機會會比較少,我們覺得這是不公平的?,F(xiàn)在我們就要去思考,這個模型是否是公正的,這些分類是否是公正的,我們怎么樣來確保,這個案例就引發(fā)了另外一個問題,那就是可靠性。
說到底,出現(xiàn)問題的時候,我們應(yīng)該怪誰呢?
好像這個問題很難找出一個好的答案,但是我們要有擔(dān)當(dāng),我們在IT界,我們是發(fā)明這些算法的人,我們是使用數(shù)據(jù)的人,我們是產(chǎn)生和收集這些數(shù)據(jù)的人,并且生成這些結(jié)果的人,我們要有擔(dān)當(dāng)。
如果你是一家企業(yè),那么如果你是一個有責(zé)任的企業(yè),你應(yīng)該做什么,你首先可以把政策進(jìn)行公布,你的隱私政策進(jìn)行公布,而且你要遵守這些政策,如果有人違規(guī)的話,違反了這個政策,你就要去修補你的這個漏洞。
我和的同事在微軟研究院所做的,我們會看一下在人們遵守這個公共政策的規(guī)模和程度是如何。這涉及到我們編程的語言,我們做成數(shù)據(jù)地圖,這個數(shù)據(jù)地圖每天晚上在微軟進(jìn)行運行,幫我們找到我們政策上的漏洞,所以自動化可以在這方面幫助我們,讓我們負(fù)起責(zé)任來,讓我們對于我們發(fā)布的政策負(fù)起責(zé)任來。
152層的DNN(深度神經(jīng)網(wǎng)絡(luò))如何保障其透明度?
關(guān)鍵詞:透明度。透明度現(xiàn)在是一個很大的問題,特別是我們涉及到這些深層的神經(jīng)網(wǎng)絡(luò)的時候,我們是否應(yīng)該對這個結(jié)果予以信任,我們?yōu)槭裁匆獙@個結(jié)果予以信任呢,我們都不知道怎么樣來運作的,從這個科學(xué)的角度來說,我們其實并不了解他們是如何來工作的,那這樣的話,就會引起一些問題。
在給大家舉例子之前,首先給大家介紹一下,我們最大的DNN(深度神經(jīng)網(wǎng)絡(luò)),這是152層的DNN,那么它是獲得了2015年的Image.net的競賽獎項,這里面我們可以看到這里的DNN一共有152層,大家問為什么是要152層,事實上我們不知道為什么是152層,結(jié)果就是如此,對于科學(xué)家來講,我們不僅僅滿足于這個答案,我們看這個DNN在什么情況下會出錯。
這個例子看出來,我們?yōu)槭裁词褂眠@個DNN的時候,做圖象識別的時候,要小心,這是一段視頻,在這個視頻當(dāng)中,我們可以看到,我們在駕駛車輛,我們開車的時候,可以看到有一個車速限速度的標(biāo)志,在右側(cè)可以看到,在右邊是停止的Stop的牌子,在左邊是涂鴉的限速45英里的牌子,這個DNN識別到在右側(cè)Stop的圖像。它認(rèn)為有了這個涂鴉的限速牌,不認(rèn)為這是一個限速牌,在開車不到一秒的時間里面,我們可以看到后面駕駛的車輛,開得很近的時候,發(fā)現(xiàn)涂鴉的這個標(biāo)牌也是Stop的標(biāo)牌,但是看見的時候已經(jīng)太遲了,他覺得這個時候要剎車已經(jīng)來不及了,這時候就有可能發(fā)生撞車的事故。
現(xiàn)在不光是熊貓、猴子,還有剛才我們所提的這樣一些例子,這個就是大家可以看到的,如果我們對于這個DNN怎樣工作的原理不清楚的話,就會潛在的造成一些威脅。
我們再來看一個例子。我們可以看到奧巴馬在同樣一個音軌,同樣的話,用四種語音語段發(fā)出來,這是一個Youtube上面比較好玩的事情。對于這樣一個音頻流,你可以知道任何人都可以模擬任何人的發(fā)音,這樣就會產(chǎn)生威脅。
阿里巴巴這樣的大公司應(yīng)該怎么做?
這不單會產(chǎn)生技術(shù)問題,也不是寫論文的問題,應(yīng)該說這是一個實實在在的,對于大公司,比方說像阿里巴巴這樣的大公司,正在努力致力于研究解決的這樣一些問題。歐盟也有這樣的政策,2018年所有大的公司,都要遵守這樣的一個有關(guān)于數(shù)據(jù)方面的問題的法規(guī)章程,不然的話,你就會被罰款或者說有4%這樣的營業(yè)收入就要來交營業(yè)罰款。
這里有四個標(biāo)準(zhǔn),一個是可訪問的權(quán)利,一個是可忘卻的權(quán)力,一個是數(shù)據(jù)的可攜帶性,還有可解釋的權(quán)利,2017年到2018年之間,科學(xué)家正在致力于了解深度學(xué)習(xí)到底是怎么樣來進(jìn)行工作的,要能夠解釋得清,這是一個倫理的問題。
這里面我們可以看到,這里是一個列車的問題,我們可以看到這里面一輛列車開過來,扳這里有一個選擇,到底是通過扳道,是往上面的通道走還是往下面的通道走,下面可能是小孩子或者說肥胖的人,不管是把道路往哪個方向搬,這都會牽涉到倫理方面的難題。那么現(xiàn)在有了我們這個自動駕駛車,必須要做這樣的決定,比方說在碰到類似情況的時候,這個車應(yīng)該做什么樣的決斷。比方說在右邊有一個行人,但是這個人比方說在人行道上面也有其他的人,這個車躲避的話,到底是躲避誰,撞上什么,這是很難下的決定。
這是一個假新聞的問題,那么假新聞現(xiàn)在也在美國到處肆虐,這里應(yīng)該說假新聞泛濫,造成了很多的問題,我們大家看到微軟有這樣一個例子,一個聊天機器人,叫做小兵,這個聊天機器人是如此的流行,以至于在美國,我們有一點嫉妒,你們中國有這樣的很好的聊天機器人,在美國還沒有這么好的聊天機器人,去年微軟也有了這么一個聊天機器人。
我們在24小時之內(nèi),不得不把這個聊天機器人關(guān)閉了,為什么呢?因為我們看到由于互聯(lián)網(wǎng)之間有一些陰暗面的存在,很快我們發(fā)現(xiàn)聊天機器人被誘導(dǎo),引導(dǎo)說一些很不好聽的話題,這里面我們才認(rèn)識到互聯(lián)網(wǎng),這里面也有一些快速傳播的不良信息,我們要非常重視倫理道德,我們在設(shè)計的時候就要注意,而不是在運用的時候。
還有一個例子是關(guān)于安全和保密的事情,例如天貓精靈,在你家或者車?yán)?,很容易被黑客侵入,所以物?lián)網(wǎng)這樣的平臺,如果說連到互聯(lián)網(wǎng)這樣任何的物品,很容易被壞人所侵入,這樣就會造成一些影響。
如何用科技保證科技本身的公平透明?
回過頭來再看一下縮寫拼出的詞,F(xiàn)ATEC代表公平、透明等等,在這方面,科技能夠做哪些工作呢?
我們可以看到剛才所說的,應(yīng)該要產(chǎn)出各種可能性,有各種各樣的模式模板,所以我們要讓第三方別人能夠來檢查我們這樣的一些產(chǎn)品,同樣的道理,比如說給他們提供這樣一些資料和數(shù)據(jù),我和我的兩個同事也寫過一篇論文,大家有興趣的話,也可以閱讀一下,比方說你的數(shù)據(jù)誰在掌握,我們現(xiàn)在有很多這樣的科技公司,可以看到這樣一些科技公司都是盡量在確保想要把人工智能、數(shù)據(jù)往好的方面運用。
比如說亞馬遜、深度思考,包括蘋果、IBM、Google、臉書等等機構(gòu),現(xiàn)在都有更多的機構(gòu)和個人,都加入進(jìn)來。人工智能能夠造福人類,但是我們在科技界應(yīng)該承擔(dān)這樣的責(zé)任,能夠確保往好的方面來發(fā)展,我們現(xiàn)在也有一些新的問題。
我們現(xiàn)在已經(jīng)對機器人有相關(guān)的立法,對人工智能是否也要立法,那么人工智能是不是也要進(jìn)行很好的管制,包括這樣一些平臺,包括一些使用,人工智能的這樣一些管道,是否也應(yīng)該進(jìn)行管制呢,如果要管制的話,是由誰來管制呢,我們是否要有一個消費者保護(hù),有一個保險,還有比方說一些經(jīng)濟上面的獎勵,以避免這樣一些人工智能不良的應(yīng)用。
包括我們所有的產(chǎn)品是否需要有一個授權(quán)許可,公司是否也需要有這樣一個委員會專門來進(jìn)行檢查和審核。所以我們對于這個數(shù)據(jù)有一個負(fù)責(zé)任的態(tài)度來使用,才能夠物盡其用,謝謝。
來源:DT數(shù)據(jù)俠、大數(shù)據(jù)文摘