盡管至少六年前就已經(jīng)發(fā)出警告,但根據(jù)一些數(shù)據(jù)管理供應(yīng)商的說法,許多CIO未能收集和企業(yè)其企業(yè)不斷生成的大量數(shù)據(jù)。數(shù)據(jù)管理領(lǐng)域的IT領(lǐng)導(dǎo)者表示,在啟動AI項目之前,只有不到一半的企業(yè)有一個連貫的數(shù)據(jù)管理流程。Databricks和Astera Software的IT領(lǐng)導(dǎo)者均表示,只有大約20%的企業(yè)的數(shù)據(jù)策略足夠成熟,能夠充分利用大多數(shù)AI工具。Databricks是一家在成功AI項目中屢次出現(xiàn)的數(shù)據(jù)管理供應(yīng)商,其AI副總裁Naveen Rao估計,一些小型AI項目可以基于有限的公司數(shù)據(jù)或外部數(shù)據(jù)工作,但許多成功的AI部署需要全面的內(nèi)部數(shù)據(jù)。?
“我們今天與客戶談?wù)揋enAI時,實際上很多是在設(shè)定什么是可能的,”他補充道,“如果他們的數(shù)據(jù)沒有整理好,他們就不會有預(yù)期的影響?!?
啟動的壓力?
與此同時,Astera Software的首席運營官Jay Mishra補充說,支持任何AI部署的數(shù)據(jù)策略不到一半的企業(yè)已經(jīng)到位。一些企業(yè)對數(shù)據(jù)管理幾乎沒有概念,但仍在啟動AI項目。?
“來自投資者和市場的壓力很大,要求進入AI領(lǐng)域,”他說,“他們開始做一些事情,花了幾個月后才意識到?jīng)]有達到預(yù)期的結(jié)果?!?
如果IT基礎(chǔ)設(shè)施和計算能力是AI的引擎,那么數(shù)據(jù)就是燃料,戴爾科技的首席AI官Jeff Boudreau補充道?!凹词故亲顝?fù)雜的AI應(yīng)用也依賴于高質(zhì)量的數(shù)據(jù)來運行,”他說,“數(shù)據(jù)是區(qū)別的關(guān)鍵。糟糕的數(shù)據(jù)等于糟糕的AI?!?
Rao和Mishra的數(shù)據(jù)成熟度觀察在某些方面與Gartner最近的一項調(diào)查結(jié)果相符。接受調(diào)查的首席數(shù)據(jù)和分析官(CDAO)中有61%同意ChatGPT和其他技術(shù)市場的顛覆迫使他們發(fā)展或重新思考他們的數(shù)據(jù)和分析策略。?
然而,78%的CDAO表示,他們的數(shù)據(jù)和分析策略在2023年發(fā)展到足以支持創(chuàng)新,然而,擁有CDAO或首席數(shù)據(jù)官角色的公司可能在數(shù)據(jù)管理方面領(lǐng)先一步。?
常見的數(shù)據(jù)問題?
數(shù)據(jù)管理挑戰(zhàn)主要集中在四個方面:?
首先,數(shù)據(jù)存在于孤島中。營銷團隊的數(shù)據(jù)可能位于與工程團隊數(shù)據(jù)不同的位置,并且具有不同的訪問規(guī)則。?
其次,大多數(shù)企業(yè)已經(jīng)生成了大量數(shù)據(jù),而且他們每天都在創(chuàng)建更多數(shù)據(jù)。如果沒有數(shù)據(jù)管理計劃和系統(tǒng),舊數(shù)據(jù)會被埋在舊服務(wù)器的角落里,而新數(shù)據(jù)沒有被分類和企業(yè)。?
數(shù)據(jù)不完整、不準(zhǔn)確、不一致。?
最后,大量數(shù)據(jù)是非結(jié)構(gòu)化的,因此不容易企業(yè)。關(guān)鍵數(shù)據(jù)存在于每天發(fā)送和接收的數(shù)百封電子郵件中、電子表格中、PowerPoint演示文稿中、視頻中、圖片中、帶有圖表的報告中、文本文檔中、網(wǎng)頁中、采購訂單中、公用事業(yè)賬單中和PDF中。?
文本文檔通常存儲在企業(yè)的多個位置,往往包含大量信息。Astera的Mishra說,一個重要的數(shù)據(jù)點可能埋在一份20頁文檔的第5頁的圖表上,或者在一份100頁的華爾街分析報告中。?
“許多由常規(guī)應(yīng)用程序或業(yè)務(wù)用戶生成的數(shù)據(jù)都保存在文檔中,而文檔仍然是最大的交流形式,”他說,“這些數(shù)據(jù)是自由流動的,并不集中在一個地方,這既是巨大的挑戰(zhàn),也是巨大的機會?!?
更多的數(shù)據(jù)不一定能產(chǎn)生更好的AI?
Mishra補充說,關(guān)于公司持有的數(shù)據(jù)量的一個誤解是,向AI模型提供更多數(shù)據(jù)會產(chǎn)生更好的AI結(jié)果。雖然一些AI工具確實需要大量數(shù)據(jù),但質(zhì)量更為重要。?
“未經(jīng)整理的數(shù)據(jù)將成為錯誤結(jié)果的基礎(chǔ),”他說,“數(shù)據(jù)的質(zhì)量決定了一切。”?
但AI用戶不應(yīng)低估大型語言模型AI對數(shù)據(jù)的需求,cBEYONData(為美國政府機構(gòu)提供專業(yè)服務(wù)的供應(yīng)商)的CTO Bryan Eckle說。?
“AI非常非常需要數(shù)據(jù),”Eckle說,他為客戶評估AI工具。“數(shù)據(jù)需要準(zhǔn)確、及時、快速,而且需要很多?!?
除了數(shù)據(jù)管理的四大問題外,企業(yè)還面臨數(shù)據(jù)單一可信來源的挑戰(zhàn),Eckle說。企業(yè)中流傳的五個版本的產(chǎn)品規(guī)范PDF哪個是正確的?你的客戶支持聊天機器人是否可以訪問所有五個版本??
關(guān)注質(zhì)量和標(biāo)準(zhǔn)化?
對于那些努力清理數(shù)據(jù)的企業(yè),Dell的Boudreau建議關(guān)注數(shù)據(jù)管理流程和治理,包括隱私、標(biāo)準(zhǔn)化、質(zhì)量和集成。?
在企業(yè)開始清理和整理數(shù)據(jù)之前,Eckle建議他們首先考慮數(shù)據(jù)的目標(biāo)。?
“你可以先退一步,問問自己,‘我們想要回答什么樣的問題?’”他說,“然后,從那里出發(fā),‘我們需要哪些基本數(shù)據(jù)元素來回答這些問題?’然后從那里,‘什么是可信來源?’”?
Eckle補充說,在AI項目中,清理數(shù)據(jù)往往被忽略,因為它不是閃光點,但AI項目的一個巨大部分,80%或更多,是清理數(shù)據(jù)。?
“這有點像苦差事,”他說,“這些項目的大部分時間都花在確保你有正確的訓(xùn)練數(shù)據(jù)來輸入這些知道如何識別數(shù)據(jù)中存在的模式的機器學(xué)習(xí)模型中。”?
AI用戶還必須認識到,清理數(shù)據(jù)不是一次性的項目,Eckle補充道。如果你在三年前整理了內(nèi)部數(shù)據(jù),那么你現(xiàn)在已經(jīng)過時了,而且數(shù)據(jù)不僅來自內(nèi)部用戶,大多數(shù)企業(yè)不斷從合作伙伴、供應(yīng)商和其他來源接收數(shù)據(jù)。?
“這是一段旅程,對吧?”他說,“你總是會引入額外的數(shù)據(jù)源,這些數(shù)據(jù)源可以提供見解,而且你總是會希望監(jiān)控數(shù)據(jù)管道的健康狀況?!?
小步前進?
Mishra建議企業(yè)在推出AI項目時從小處著手,或許可以專注于一個業(yè)務(wù)部門的一個AI用例。企業(yè)一個業(yè)務(wù)部門的數(shù)據(jù)比整合整個企業(yè)的數(shù)太字節(jié)數(shù)據(jù)要容易得多。?
“找到一種特定類型的數(shù)據(jù),并在一次迭代中清理數(shù)據(jù),”他說,“看看你整理的一個數(shù)據(jù)子集,然后在此基礎(chǔ)上開始你的AI工作。與引入所有數(shù)據(jù)相比,這不需要那么多的努力?!?/span>