盡管人們生活在一個日益數據驅動的世界,但大多數公司并沒有采用數據驅動的商業(yè)模式。推動Alphabet、Meta和亞馬遜等企業(yè)成功的網絡效應良性循環(huán),并不適用于銷售傳統產品和服務的組織。然而,從日常業(yè)務流程生成的專有數據中獲取更多信息的工具正在變得廣泛可用,并且可以幫助企業(yè)開發(fā)競爭優(yōu)勢。
隨著市場競爭變得更加激烈,從數據中建立一個可防御的護城河可以讓一切變得不同。麥肯錫公司估計,利用內部數據進行銷售和營銷洞察可以帶來高于平均水平的市場增長,并使收入增加15%至25%。大型語言模型(LLM)提供了一種新的、獨特的方式來提取這種價值,對他們進行專有數據培訓,以實現特定的商業(yè)目標,可能會改變許多公司。
數據的質量大于數量
正如人工智能大師、谷歌公司前研究總監(jiān)Peter Norvig曾經說過的那樣,“更多的數據勝過更好的算法,但更好的數據勝過更多的數據?!彪S著通用人工智能模型適應于企業(yè)使用,這一點變得越來越真實。雖然前沿模型已經接受了從互聯網和其他公共資源中收集的大量數據的訓練,但它們在特定商業(yè)目的上的效用有限。
這些大型語言模型從數據中提取意義的能力需要與組織獨有的專有數據相結合,才能實現真正的利益。一旦設定了業(yè)務目標,確保為此準備好數據是關鍵的一步。Gartner公司估計,為人工智能準備數據可以將業(yè)務成果提高20%,這意味著數據必須適合預期的用例,無論是結構化還是非結構化。Gartner公司聲稱,30%的內部人工智能項目被放棄的一個關鍵原因是數據質量差。這包括刪除損壞的數據和重復的數據,以及填補輸入不完整的空白。
雖然質量是關鍵,但也需要足夠的數量。根據目標和LLM的調優(yōu)方式,這意味著至少需要數千條記錄,甚至可能更多。
使用獨特的專有數據可以實現最大的競爭優(yōu)勢。這可能包括匿名的客戶數據和購買模式、客戶反饋、Web分析和供應鏈信息。開源數據也可以是一個有用的補充,但是根據定義,它對每個人都可用,因此它本身不是一個區(qū)分因素。使用專有數據,只要它符合隱私法規(guī),還可以減少與數據主權相關的法律復雜性。
但是,大多數組織沒有資源、財力和人力來從頭開始構建和訓練他們自己的領域特定模型。微調現有LLM需要大量的時間和技能,這超出了中型企業(yè)的能力,盡管它比從頭開始構建需要更少的計算能力和數據。即時調優(yōu)和即時工程是最常見和最直接的方法。與修改模型參數相比,這些技術消耗的資源要少得多,盡管需要專業(yè)技能,但采用起來相對容易。
在現實世界中
一些早期使用內部數據訓練的LLM來自大型銀行和咨詢公司。例如,摩根士丹利公司使用即時調優(yōu)來訓練GPT-4處理與其投資銀行業(yè)務流程相關的10萬份文件。其目的是幫助其財務顧問為客戶提供更準確、更及時的建議。波士頓咨詢公司也采用了類似的方法,幫助其顧問產生見解和客戶建議,同時采用迭代流程,根據用戶反饋對模型進行微調。這有助于提高產出,減少幻覺的機會,而幻覺在面向消費者的GPT中更為常見。
我們現在開始看到技術密集程度較低的服務型公司使用內部數據定制LLM。園藝護理公司Scotts Miracle-Gro與谷歌云合作,創(chuàng)建了一個人工智能的“園藝師”,為客戶提供園藝建議和產品推薦。他們已經對公司的產品目錄和內部知識庫進行了培訓,并將很快推廣到1000名現場銷售人員,幫助他們向零售和市場花園客戶提供價格和可用性方面的建議。預計,根據結果,它將向消費者開放,目的是推動銷售和客戶滿意度。
就像Scotts Miracle-Gro利用人工智能為其傳統的銷售目錄增加價值一樣,美國大眾汽車公司的汽車手冊也是如此。這款人工智能虛擬助手接受了車輛指導的培訓,并輔以客戶的聯網汽車數據,可以幫助司機更好地了解他們的車輛。這包括提供更換輪胎的指導,以及理解儀表盤指示燈的含義。
隨著開源模型的興起,LLM在功能集和處理能力方面變得越來越商品化,從而降低了應用程序開發(fā)人員的進入門檻,數據將變得越來越重要。內容所有者已經在反對允許OpenAI和Anthropic等公司自由收集他們的數據,此舉將進一步凸顯專有信息的價值。
所有規(guī)模的公司都應該開始更加謹慎地評估和保護其內部數據資產,并考慮如何通過人工智能來利用它來獲得競爭優(yōu)勢。正如我們所看到的,即使是不起眼的產品目錄或用戶手冊,也可以成為成熟的資產。