用專有數(shù)據(jù)訓(xùn)練大型語言模型能為你帶來競爭優(yōu)勢嗎?
盡管我們生活在一個(gè)日益數(shù)據(jù)驅(qū)動的世界中,但大多數(shù)公司并未采用數(shù)據(jù)驅(qū)動的商業(yè)模式。像Alphabet、Meta和亞馬遜這樣的企業(yè)憑借網(wǎng)絡(luò)效應(yīng)形成的良性循環(huán)而取得成功,但這種模式對于銷售傳統(tǒng)產(chǎn)品和服務(wù)的組織來說卻難以實(shí)現(xiàn),然而,如今已能廣泛獲取各種工具來充分利用日常業(yè)務(wù)流程中生成的專有數(shù)據(jù),這些工具可能幫助你的公司形成競爭優(yōu)勢。
隨著市場競爭的加劇,利用數(shù)據(jù)構(gòu)建防御性護(hù)城河至關(guān)重要。麥肯錫估計(jì),利用內(nèi)部數(shù)據(jù)來獲取銷售和營銷見解,可以實(shí)現(xiàn)高于平均水平的市場增長,并使息稅折舊及攤銷前利潤(EBITDA)增長15%至25%。大型語言模型提供了一種新穎且獨(dú)特的方法來提取這種價(jià)值,并且通過在專有數(shù)據(jù)上訓(xùn)練它們以實(shí)現(xiàn)特定的業(yè)務(wù)目標(biāo),可能會使許多公司發(fā)生轉(zhuǎn)變。
數(shù)據(jù)質(zhì)量優(yōu)于數(shù)量
正如AI專家、谷歌前研究總監(jiān)彼得·諾維格(Peter Norvig)所言:“更多數(shù)據(jù)勝過更好的算法,但更好的數(shù)據(jù)勝過更多數(shù)據(jù)?!彪S著通用AI模型被改編用于企業(yè)用途,這一點(diǎn)愈發(fā)正確。雖然前沿模型已在從互聯(lián)網(wǎng)和其他公共來源抓取的海量數(shù)據(jù)上進(jìn)行了訓(xùn)練,但它們用于特定業(yè)務(wù)目的的效用卻有限。
為了真正實(shí)現(xiàn)實(shí)際效益,這些大型語言模型從數(shù)據(jù)中提取意義的能力需要與企業(yè)獨(dú)有的專有數(shù)據(jù)相結(jié)合。一旦設(shè)定了業(yè)務(wù)目標(biāo),確保數(shù)據(jù)為此做好準(zhǔn)備便是一個(gè)關(guān)鍵步驟。Gartner估計(jì),為AI準(zhǔn)備數(shù)據(jù)可以使業(yè)務(wù)成果提高20%,這意味著數(shù)據(jù)必須適合預(yù)期的使用場景,無論是結(jié)構(gòu)化數(shù)據(jù)還是非結(jié)構(gòu)化數(shù)據(jù)。據(jù)Gartner稱,內(nèi)部AI項(xiàng)目中有30%被放棄的一個(gè)主要原因是數(shù)據(jù)質(zhì)量輸入不佳,這涉及刪除損壞的數(shù)據(jù)和重復(fù)數(shù)據(jù),并填補(bǔ)輸入不完整之處。
雖然質(zhì)量是關(guān)鍵,但也需要有足夠的數(shù)量。根據(jù)目標(biāo)和大型語言模型的調(diào)整方式,這意味著至少需要數(shù)千條記錄,甚至可能更多。
進(jìn)行調(diào)整
使用獨(dú)特的專有數(shù)據(jù)可能實(shí)現(xiàn)最大的競爭優(yōu)勢,這可能包括匿名化的客戶數(shù)據(jù)和購買模式、客戶反饋、網(wǎng)絡(luò)分析以及供應(yīng)鏈信息。開源數(shù)據(jù)也可以作為有用的補(bǔ)充,但顧名思義,它對所有人都是可用的,因此本身并不是區(qū)分因素。在符合隱私法規(guī)的前提下使用專有數(shù)據(jù),還可以減少與數(shù)據(jù)主權(quán)相關(guān)的法律復(fù)雜性。
但大多數(shù)企業(yè)沒有從頭開始構(gòu)建和訓(xùn)練自己特定領(lǐng)域模型的財(cái)力和人力資源。盡管微調(diào)現(xiàn)有大型語言模型所需的計(jì)算能力和數(shù)據(jù)比從頭構(gòu)建要少,但這仍然超出了中型企業(yè)的能力范圍,需要耗費(fèi)大量的時(shí)間和技能。提示微調(diào)和提示工程是最常見且最直接的方法,這些方法不需要修改模型參數(shù),因此資源消耗要少得多,盡管需要專業(yè)技能,但相對容易采用。
實(shí)際應(yīng)用
一些早期在內(nèi)部數(shù)據(jù)上訓(xùn)練大型語言模型的部署來自大型銀行和咨詢公司。例如,摩根士丹利使用提示微調(diào)技術(shù)在10萬套與投資銀行業(yè)務(wù)流程相關(guān)的文檔上訓(xùn)練了GPT-4,其目標(biāo)是幫助財(cái)務(wù)顧問為客戶提供更準(zhǔn)確、更及時(shí)的建議。波士頓咨詢公司(BCG)也采用了類似的方法,幫助其咨詢顧問生成見解和為客戶提供建議,同時(shí)通過一個(gè)迭代過程,根據(jù)用戶反饋微調(diào)其模型,這有助于改進(jìn)輸出結(jié)果,并減少面向消費(fèi)者的GPT中更常見的幻覺現(xiàn)象。
我們現(xiàn)在開始看到,一些技術(shù)密集度較低、以服務(wù)為導(dǎo)向的公司也在利用內(nèi)部數(shù)據(jù)定制大型語言模型。園藝護(hù)理公司ScottsMiracle-Gro與Google Cloud合作,創(chuàng)建了一個(gè)由AI驅(qū)動的“園藝品鑒師”,為客戶提供園藝建議和產(chǎn)品推薦,該系統(tǒng)已在公司的產(chǎn)品目錄和內(nèi)部知識庫上進(jìn)行訓(xùn)練,并將很快推廣至其1000名現(xiàn)場銷售人員,以幫助他們就價(jià)格和可用性為零售和園藝市場客戶提供建議。預(yù)計(jì)根據(jù)結(jié)果,該系統(tǒng)隨后將面向消費(fèi)者推出,旨在推動銷售和提高客戶滿意度。
正如ScottsMiracle-Gro利用AI為其傳統(tǒng)銷售目錄增值一樣,美國大眾汽車也在其汽車手冊上這樣做。在車輛使用說明書上進(jìn)行訓(xùn)練,并結(jié)合客戶的聯(lián)網(wǎng)汽車數(shù)據(jù),這個(gè)由AI驅(qū)動的虛擬助手可以幫助駕駛員更好地了解他們的車輛,這包括提供更換輪胎的指導(dǎo)以及解釋儀表板指示燈的含義。
隨著開源模型的崛起,大型語言模型在功能集和處理能力方面日益商品化,從而降低了應(yīng)用開發(fā)人員的進(jìn)入門檻,數(shù)據(jù)將變得越來越重要。內(nèi)容所有者已經(jīng)開始反對允許OpenAI和Anthropic等公司自由收集他們的數(shù)據(jù),這些舉措將進(jìn)一步凸顯專有信息的價(jià)值。
各規(guī)模的公司都應(yīng)明智地開始更加重視和保護(hù)其內(nèi)部數(shù)據(jù)資產(chǎn),并思考如何通過AI利用這些數(shù)據(jù)來獲得競爭優(yōu)勢。正如我們所見,即便是普通的產(chǎn)品目錄或用戶手冊,也是可以加以利用的有價(jià)值資產(chǎn)。