像GPT-4和Gemini這樣的預(yù)訓(xùn)練大型語言模型(LLM)非常棒,但真正的競爭優(yōu)勢來自于將LLM與私有數(shù)據(jù)相結(jié)合。不幸的是,根據(jù)麻省理工科技評論(MIT Technology Review)的一份新報告,企業(yè)為GenAI準(zhǔn)備數(shù)據(jù)資產(chǎn)的情況存在問題。
毫無疑問,生成式人工智能(GenAI)已經(jīng)引起了企業(yè)組織的注意,他們渴望使用LLM來構(gòu)建聊天機(jī)器人、數(shù)字助理和其他類型的應(yīng)用程序。在接受麻省理工科技評論調(diào)查的高管中,82%的人認(rèn)為擴(kuò)展人工智能或GenAI是“首要任務(wù)”。這份報告的標(biāo)題是“高管級領(lǐng)導(dǎo)者的人工智能準(zhǔn)備情況”,是由ETL供應(yīng)商Fivetran委托進(jìn)行的。
根據(jù)調(diào)查,企業(yè)組織對與GenAI一起使用的數(shù)據(jù)有很好的了解,調(diào)查發(fā)現(xiàn)83%的組織已經(jīng)確定了用于人工智能或GenAI的數(shù)據(jù)源。
但是,在需要的時候、需要的地方、充分的清理和準(zhǔn)備以及以適當(dāng)?shù)母袷綄?shù)據(jù)交付給GenAI應(yīng)用程序時,組織準(zhǔn)備得如何呢?在不危及隱私和安全的情況下做到這一切?
當(dāng)然,這才是真正的核心,并不是很多組織都做得很好,至少目前還不是。
將所有數(shù)據(jù)工具和技術(shù)放在同一頁面上的困難是巨大的。正如IDC分析師斯Stewart Bond在接受麻省理工科技評論采訪時稱,IDC最近的一項研究得出的結(jié)論是,一般企業(yè)“有十幾種不同的技術(shù)來收集有關(guān)其數(shù)據(jù)的所有情報,同時也有同樣多的技術(shù)來整合、轉(zhuǎn)換和復(fù)制這些情報。”“技術(shù)‘債務(wù)’是非常真實的?!?/span>
麻省理工科技評論在其報告中表示,為集中式數(shù)據(jù)倉庫計劃開發(fā)的舊數(shù)據(jù)集成和ETL工具可能不適合新的GenAI用例。這就是為什么調(diào)查發(fā)現(xiàn)82%的受訪技術(shù)高管表示他們“正在優(yōu)先考慮獲取數(shù)據(jù)集成和數(shù)據(jù)移動解決方案,這些解決方案將在未來繼續(xù)發(fā)揮作用,無論數(shù)據(jù)戰(zhàn)略和合作伙伴發(fā)生了其他變化?!?/span>
報告發(fā)現(xiàn),獲得更好的數(shù)據(jù)集成和ETL/數(shù)據(jù)管道工具顯然是一個優(yōu)先事項,但還有其他重要的投資需要進(jìn)行。64%的受訪者表示,數(shù)據(jù)集成和ETL/管道工具是GenAI投資的兩大優(yōu)先事項之一,35%的受訪者認(rèn)為數(shù)據(jù)湖是優(yōu)先事項,而31%的受訪者認(rèn)為數(shù)據(jù)轉(zhuǎn)換工具是優(yōu)先事項。與此同時,數(shù)據(jù)目錄和LLM投資僅占7%的份額,矢量數(shù)據(jù)庫和計算層位居中間。
接受調(diào)查的技術(shù)高管發(fā)現(xiàn),在構(gòu)建數(shù)據(jù)基礎(chǔ)方面存在許多挑戰(zhàn),包括數(shù)據(jù)集成和構(gòu)建數(shù)據(jù)管道;數(shù)據(jù)治理和安全;還有數(shù)據(jù)質(zhì)量等問題。
在數(shù)據(jù)集成/數(shù)據(jù)管道方面,組織最頭疼的四大任務(wù)包括:管理數(shù)據(jù)量;將數(shù)據(jù)從本地遷移到云端;實現(xiàn)實時訪問;管理數(shù)據(jù)的變化。根據(jù)這項研究,整合來自不同地區(qū)的數(shù)據(jù)和整合第三方數(shù)據(jù)也獲得了顯著的反響。
Fivetran首席執(zhí)行官George Fraser認(rèn)為,強(qiáng)大的數(shù)據(jù)基礎(chǔ)是GenAI成功的必要條件。
Fraser在報告中表示:“在你開始雇傭大量數(shù)據(jù)科學(xué)家和啟動大量生成式人工智能項目之前,你要確保有一個擁有干凈、精心策劃的數(shù)據(jù)的企業(yè)數(shù)據(jù)倉庫,它應(yīng)該支持你所有的傳統(tǒng)商業(yè)智能和分析工作負(fù)載?!薄叭绻M織不從建立強(qiáng)大的數(shù)據(jù)基礎(chǔ)開始,他們的數(shù)據(jù)科學(xué)家就會把時間浪費在基本的數(shù)據(jù)整合和清洗上?!?/span>
當(dāng)涉及到數(shù)據(jù)治理、遵從性和報告方面時,調(diào)查數(shù)據(jù)變得更加微妙。
雖然大部分受訪者表示,他們?yōu)槿斯ぶ悄軠?zhǔn)備數(shù)據(jù)的最大挑戰(zhàn)是數(shù)據(jù)治理和安全(44%的受訪者提到)和數(shù)據(jù)集成或管道(45%的受訪者提到),但對調(diào)查更深入研究揭示了一個有意義的分歧。調(diào)查顯示,政府和金融服務(wù)機(jī)構(gòu)這兩個高度保守的領(lǐng)域高度關(guān)注安全和治理,而制造業(yè)、零售業(yè)和其他行業(yè)的技術(shù)高管對安全和治理的關(guān)注相對較低。