像GPT-4和Gemini這樣的預(yù)訓(xùn)練大型語(yǔ)言模型(LLM)非常棒,但真正的競(jìng)爭(zhēng)優(yōu)勢(shì)來(lái)自于將LLM與私有數(shù)據(jù)相結(jié)合。不幸的是,根據(jù)麻省理工科技評(píng)論(MIT Technology Review)的一份新報(bào)告,企業(yè)為GenAI準(zhǔn)備數(shù)據(jù)資產(chǎn)的情況存在問題。
毫無(wú)疑問,生成式人工智能(GenAI)已經(jīng)引起了企業(yè)組織的注意,他們渴望使用LLM來(lái)構(gòu)建聊天機(jī)器人、數(shù)字助理和其他類型的應(yīng)用程序。在接受麻省理工科技評(píng)論調(diào)查的高管中,82%的人認(rèn)為擴(kuò)展人工智能或GenAI是“首要任務(wù)”。這份報(bào)告的標(biāo)題是“高管級(jí)領(lǐng)導(dǎo)者的人工智能準(zhǔn)備情況”,是由ETL供應(yīng)商Fivetran委托進(jìn)行的。
根據(jù)調(diào)查,企業(yè)組織對(duì)與GenAI一起使用的數(shù)據(jù)有很好的了解,調(diào)查發(fā)現(xiàn)83%的組織已經(jīng)確定了用于人工智能或GenAI的數(shù)據(jù)源。
但是,在需要的時(shí)候、需要的地方、充分的清理和準(zhǔn)備以及以適當(dāng)?shù)母袷綄?shù)據(jù)交付給GenAI應(yīng)用程序時(shí),組織準(zhǔn)備得如何呢?在不危及隱私和安全的情況下做到這一切?
當(dāng)然,這才是真正的核心,并不是很多組織都做得很好,至少目前還不是。
將所有數(shù)據(jù)工具和技術(shù)放在同一頁(yè)面上的困難是巨大的。正如IDC分析師斯Stewart Bond在接受麻省理工科技評(píng)論采訪時(shí)稱,IDC最近的一項(xiàng)研究得出的結(jié)論是,一般企業(yè)“有十幾種不同的技術(shù)來(lái)收集有關(guān)其數(shù)據(jù)的所有情報(bào),同時(shí)也有同樣多的技術(shù)來(lái)整合、轉(zhuǎn)換和復(fù)制這些情報(bào)?!薄凹夹g(shù)‘債務(wù)’是非常真實(shí)的。”
麻省理工科技評(píng)論在其報(bào)告中表示,為集中式數(shù)據(jù)倉(cāng)庫(kù)計(jì)劃開發(fā)的舊數(shù)據(jù)集成和ETL工具可能不適合新的GenAI用例。這就是為什么調(diào)查發(fā)現(xiàn)82%的受訪技術(shù)高管表示他們“正在優(yōu)先考慮獲取數(shù)據(jù)集成和數(shù)據(jù)移動(dòng)解決方案,這些解決方案將在未來(lái)繼續(xù)發(fā)揮作用,無(wú)論數(shù)據(jù)戰(zhàn)略和合作伙伴發(fā)生了其他變化?!?/span>
報(bào)告發(fā)現(xiàn),獲得更好的數(shù)據(jù)集成和ETL/數(shù)據(jù)管道工具顯然是一個(gè)優(yōu)先事項(xiàng),但還有其他重要的投資需要進(jìn)行。64%的受訪者表示,數(shù)據(jù)集成和ETL/管道工具是GenAI投資的兩大優(yōu)先事項(xiàng)之一,35%的受訪者認(rèn)為數(shù)據(jù)湖是優(yōu)先事項(xiàng),而31%的受訪者認(rèn)為數(shù)據(jù)轉(zhuǎn)換工具是優(yōu)先事項(xiàng)。與此同時(shí),數(shù)據(jù)目錄和LLM投資僅占7%的份額,矢量數(shù)據(jù)庫(kù)和計(jì)算層位居中間。
接受調(diào)查的技術(shù)高管發(fā)現(xiàn),在構(gòu)建數(shù)據(jù)基礎(chǔ)方面存在許多挑戰(zhàn),包括數(shù)據(jù)集成和構(gòu)建數(shù)據(jù)管道;數(shù)據(jù)治理和安全;還有數(shù)據(jù)質(zhì)量等問題。
在數(shù)據(jù)集成/數(shù)據(jù)管道方面,組織最頭疼的四大任務(wù)包括:管理數(shù)據(jù)量;將數(shù)據(jù)從本地遷移到云端;實(shí)現(xiàn)實(shí)時(shí)訪問;管理數(shù)據(jù)的變化。根據(jù)這項(xiàng)研究,整合來(lái)自不同地區(qū)的數(shù)據(jù)和整合第三方數(shù)據(jù)也獲得了顯著的反響。
Fivetran首席執(zhí)行官George Fraser認(rèn)為,強(qiáng)大的數(shù)據(jù)基礎(chǔ)是GenAI成功的必要條件。
Fraser在報(bào)告中表示:“在你開始雇傭大量數(shù)據(jù)科學(xué)家和啟動(dòng)大量生成式人工智能項(xiàng)目之前,你要確保有一個(gè)擁有干凈、精心策劃的數(shù)據(jù)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù),它應(yīng)該支持你所有的傳統(tǒng)商業(yè)智能和分析工作負(fù)載?!薄叭绻M織不從建立強(qiáng)大的數(shù)據(jù)基礎(chǔ)開始,他們的數(shù)據(jù)科學(xué)家就會(huì)把時(shí)間浪費(fèi)在基本的數(shù)據(jù)整合和清洗上?!?/span>
當(dāng)涉及到數(shù)據(jù)治理、遵從性和報(bào)告方面時(shí),調(diào)查數(shù)據(jù)變得更加微妙。
雖然大部分受訪者表示,他們?yōu)槿斯ぶ悄軠?zhǔn)備數(shù)據(jù)的最大挑戰(zhàn)是數(shù)據(jù)治理和安全(44%的受訪者提到)和數(shù)據(jù)集成或管道(45%的受訪者提到),但對(duì)調(diào)查更深入研究揭示了一個(gè)有意義的分歧。調(diào)查顯示,政府和金融服務(wù)機(jī)構(gòu)這兩個(gè)高度保守的領(lǐng)域高度關(guān)注安全和治理,而制造業(yè)、零售業(yè)和其他行業(yè)的技術(shù)高管對(duì)安全和治理的關(guān)注相對(duì)較低。