人工智能使用代碼和數(shù)據(jù),這種結(jié)合對(duì)開源來(lái)說(shuō)仍然是一個(gè)挑戰(zhàn),聯(lián)合國(guó)OSPOs for Good大會(huì)的專家表示。
譯自O(shè)pen Source AI: What About Data Transparency?,作者 Steven J Vaughan-Nichols。
紐約 - 在聯(lián)合國(guó)OSPOs for Good Conference上,我們?cè)俅伪惶嵝蚜巳斯ぶ悄芎烷_源程序的奇特狀況:雖然人工智能的基礎(chǔ)建立在開源工具和庫(kù)上,但幾乎沒(méi)有主要的 AI 程序是真正開源的。OpenAI?的ChatGPT、Google的 PaLM(及其繼任者,多模態(tài)Gemini)和 Meta 的Llama-3通常被吹捧為開放的,但它們并非如此。它們附帶了不符合開源軟件定義的重大限制。
開源倡議組織 (OSI)作為開源定義的管理者,認(rèn)識(shí)到人工智能日益增長(zhǎng)的重要性和該領(lǐng)域需要清晰度,因此 OSI 已經(jīng)開始了一個(gè)雄心勃勃的項(xiàng)目,旨在定義“開源人工智能”的含義。這項(xiàng)工作匯集了 70 位專家,包括研究人員、律師、政策制定者以及來(lái)自亞馬遜、谷歌和 Meta 等科技巨頭的代表。
說(shuō)起來(lái)容易做起來(lái)難。正如 OSI 執(zhí)行董事Stefano Maffulli在關(guān)于開源和人工智能的小組討論中指出的那樣,“雖然人們對(duì)總體原則達(dá)成廣泛共識(shí),但很明顯,魔鬼在細(xì)節(jié)中?!?/span>
開源社區(qū)是一個(gè)大帳篷,涵蓋了從地下黑客到基層活動(dòng)家再到財(cái)富 500 強(qiáng)公司的所有人,每個(gè)人都有自己的優(yōu)先事項(xiàng)和關(guān)注點(diǎn)。
簡(jiǎn)而言之,“在開源人工智能的實(shí)際含義方面,我們需要新的護(hù)欄和新的指南,”GitLab首席營(yíng)銷和戰(zhàn)略官Ashley Kramer在小組討論中說(shuō)。
LLM 數(shù)據(jù)透明度:一個(gè)棘手的問(wèn)題
小組討論中清楚地表明,定義開源人工智能的最大挑戰(zhàn)在于解決訓(xùn)練數(shù)據(jù)的作用。大型語(yǔ)言模型 (LLM)依賴于龐大的數(shù)據(jù)集,這些數(shù)據(jù)集通常是從互聯(lián)網(wǎng)上抓取的,沒(méi)有明確的許可。這些混亂的數(shù)據(jù)引發(fā)了關(guān)于隱私、版權(quán)和倫理的棘手問(wèn)題。
事實(shí)上,我們知道其中一些數(shù)據(jù)完全是非法的。“最近用于訓(xùn)練許多圖像生成 AI 工具的最大圖像數(shù)據(jù)集之一[LAION-5B] 包含兒童性虐待圖像,” Maffulli 說(shuō)?!拔覀冃枰獢?shù)據(jù)集維護(hù)者注意到并刪除這些內(nèi)容?!?/span>
OSI 的草案定義試圖通過(guò)關(guān)注與開源軟件傳統(tǒng)相關(guān)的“四大自由”來(lái)回避數(shù)據(jù)問(wèn)題:使用、學(xué)習(xí)、修改和分發(fā) AI 系統(tǒng)的自由。它關(guān)注的是代碼,而不是數(shù)據(jù)。
是否應(yīng)該要求開源 AI 模型披露其訓(xùn)練數(shù)據(jù)?如果是,如何才能在隱私問(wèn)題和共享 PB 級(jí)信息帶來(lái)的實(shí)際挑戰(zhàn)之間取得平衡?對(duì)于 OSI AI 定義草案的許多批評(píng)者來(lái)說(shuō),答案不僅僅是肯定,而是“絕對(duì)肯定”。
正如亞馬遜網(wǎng)絡(luò)服務(wù)公司首席開源技術(shù)策略師Tom Callaway在會(huì)議之前在 LinkedIn 上寫道的那樣,“沒(méi)有數(shù)據(jù)就無(wú)法構(gòu)建 LLM。沒(méi)有數(shù)據(jù),LLM 不僅缺乏任何目的,它根本不存在。這使得數(shù)據(jù)成為 LLM 的功能性和必需的源組件?!?/span>
他和其他人認(rèn)為,任何關(guān)于開源人工智能的定義,如果不解決數(shù)據(jù)問(wèn)題,都是不完整的。
Maffulli 承認(rèn)這是一個(gè)真正的擔(dān)憂:“這需要辯論和最終確定?!钡a(bǔ)充說(shuō),“推動(dòng)數(shù)據(jù)徹底開放存在弊端,也會(huì)帶來(lái)問(wèn)題。因此,這將是意圖和對(duì)公眾最有利的結(jié)果之間的平衡。”
然而,另一位小組成員,Sasha Luccioni,Hugging Face?的人工智能和氣候負(fù)責(zé)人,則持不同觀點(diǎn)。Luccioni 認(rèn)為,成為開源純粹主義者是一個(gè)錯(cuò)誤。
“你不能指望所有公司都 100% 開源,因?yàn)檫@受開源許可證的定義,”她在小組討論中說(shuō)?!斑@就是為什么存在多種許可證的原因。說(shuō)這不是真的,開源會(huì)讓公司感到反感。你不能指望公司放棄他們賺錢的一切,并以他們感到舒適的方式這樣做?!?/span>
她認(rèn)為,“存在一種負(fù)責(zé)任的人工智能許可證”,它對(duì)開源友好,“你可以定義自己的開源條款。通過(guò)稍微調(diào)整語(yǔ)言,你可以以一種讓公司、政府和學(xué)術(shù)界都感到舒適的方式向前發(fā)展,而不是說(shuō)這個(gè)項(xiàng)目或許可證不是開源的。
“我們必須共同努力”
在?The New Stack?采訪過(guò)的所有開源倡導(dǎo)者中,沒(méi)有人對(duì)這種觀點(diǎn)感到滿意。無(wú)論 OSI 人工智能定義如何,什么是開源人工智能,什么不是開源人工智能,這個(gè)問(wèn)題對(duì)開源社區(qū)來(lái)說(shuō)仍然至關(guān)重要。
這在開源社區(qū)之外也很重要。正如肯尼亞科技特使Philip Thigo 大使在一個(gè)專門針對(duì)開源和人工智能的會(huì)議上的主題演講中所觀察到的,“開源人工智能確保許多全球南方社區(qū)能夠構(gòu)建自己的 AI 程序和 LLM。”
這些國(guó)家無(wú)力為其人工智能需求支付 OpenAI 的費(fèi)用。他們需要開源、全球標(biāo)準(zhǔn)和互操作性來(lái)構(gòu)建人工智能系統(tǒng),以解決他們的健康、氣候和教育需求。
展望未來(lái),“我們必須共同努力,”Kramer 在會(huì)議小組中說(shuō),表明開源是實(shí)現(xiàn)這一目標(biāo)的方式。
“我們必須了解模型的基礎(chǔ)數(shù)據(jù),”Kramer 說(shuō)?!半m然我喜歡人工智能的炒作,也喜歡它前進(jìn)的方向,但我們?cè)诨ヂ?lián)網(wǎng)和云技術(shù)的興起中看到了非常相似的模式。我們行動(dòng)越快,錯(cuò)過(guò)的東西就越多。因此,需要一個(gè)團(tuán)隊(duì),需要一個(gè)開源人工智能護(hù)欄模型來(lái)真正弄清楚如何快速實(shí)現(xiàn)這一目標(biāo),同時(shí)將隱私、信任和安全放在首位。”
敬請(qǐng)關(guān)注。我們?nèi)栽跁鴮戦_源人工智能的故事。隨著 OSI 和其他人努力解決這些復(fù)雜問(wèn)題,結(jié)果將對(duì)人工智能開發(fā)、創(chuàng)新和治理的未來(lái)產(chǎn)生深遠(yuǎn)的影響。挑戰(zhàn)在于找到一個(gè)既能保持開放精神又能解決數(shù)據(jù)帶來(lái)的獨(dú)特挑戰(zhàn)的定義。這項(xiàng)任務(wù)可能需要重新思考關(guān)于在人工智能時(shí)代“開源”意味著什么的某些長(zhǎng)期假設(shè)。