自ChatGPT推出以來,僅僅一年多的時(shí)間里,公眾對(duì)于“人工智能”(AI)的認(rèn)識(shí)已經(jīng)發(fā)生了根本性的變化。這種變化部分源于公眾意識(shí)的提高,更多則是基于這樣一個(gè)認(rèn)識(shí):AI驅(qū)動(dòng)的系統(tǒng)不僅可能,而且可能已經(jīng)具備了與人類相當(dāng)?shù)哪芰捅憩F(xiàn)。ChatGPT不僅是AI能力的一個(gè)驗(yàn)證,更是半個(gè)多世紀(jì)以來AI研究成果的集中展示,向我們展示了一個(gè)可能的未來:按照Ray Kurzweil的定義,我們可以創(chuàng)造“執(zhí)行需要智能的功能的機(jī)器”。因此,圍繞AI代理的討論和開發(fā)在近幾個(gè)月里迅速增加。AI代理體現(xiàn)了人工智能長(zhǎng)期以來的追求目標(biāo)。
AI代理的概念雖然不新,但卻始終充滿吸引力。從星球大戰(zhàn)中的C-3PO到學(xué)術(shù)界的定義,智能代理一直是AI的核心議題。隨著ChatGPT、Claude和Gemini等模型的出現(xiàn),這些模型在多樣的知識(shí)領(lǐng)域都展現(xiàn)出強(qiáng)大的理解力和對(duì)話能力,AI代理的概念變得越發(fā)具體和實(shí)現(xiàn)可能。新增的“視覺”能力和函數(shù)調(diào)用功能,更是為AI代理的發(fā)展提供了新的可能性。
在AI代理的發(fā)展道路上,我們需要從單純的提示工程過渡到更廣泛的代理工程,并建立相應(yīng)的框架、方法和思維模式,以便有效地設(shè)計(jì)和實(shí)施這些代理。本文旨在探討LLM環(huán)境中代理工程的關(guān)鍵理念和原則。
我們首先定義“代理能力需求”,明確代理所需執(zhí)行的功能及其所需的熟練程度。隨后,在“代理工程與設(shè)計(jì)”階段將評(píng)估可用的技術(shù),探討如何構(gòu)建和協(xié)調(diào)代理的結(jié)構(gòu)。
本框架旨在提供一個(gè)實(shí)用的思維模型,雖不全面,但足以作為一個(gè)起點(diǎn),隨后可根據(jù)實(shí)際需要進(jìn)行細(xì)化和擴(kuò)展。
代理工程框架
構(gòu)建AI代理的初衷是什么?它需要完成哪些工作,實(shí)現(xiàn)哪些目標(biāo)?在多能力代理與多代理集群之間,哪一種更適合特定的任務(wù)?人類語言的靈活性讓我們能夠在多個(gè)維度上擴(kuò)展和深化這些概念,但這也可能導(dǎo)致概念上的模糊。在本框架中,我們嘗試避免過度解析術(shù)語的語義差異,更注重概念的通用性和實(shí)用性。核心理念如下:
代理需完成特定工作。
完成工作需采取具體行動(dòng)。
行動(dòng)的執(zhí)行依賴于代理的能力。
能力必須達(dá)到一定的熟練度。
達(dá)到此熟練度需要相應(yīng)的技術(shù)和技術(shù)協(xié)調(diào)。
能力需求與設(shè)計(jì)
設(shè)計(jì)AI代理的第一步是明確代理的職責(zé)和目標(biāo)。這可能是一個(gè)高層次的目標(biāo),也可以細(xì)化為具體的任務(wù)。例如,電子商務(wù)聊天機(jī)器人可能需要處理客戶咨詢、分析客戶行為并提供產(chǎn)品推薦;內(nèi)容創(chuàng)作代理可能需要生成內(nèi)容想法、起草文章或博客。
定義了任務(wù)后,接下來確定代理執(zhí)行這些任務(wù)所需的具體行動(dòng)。這不僅僅是定義目標(biāo),更重要的是具體化實(shí)現(xiàn)目標(biāo)的行動(dòng)步驟。此階段也需考慮代理的自主性。例如,內(nèi)容創(chuàng)作代理的行動(dòng)可能包括調(diào)用數(shù)據(jù)分析代理獲取趨勢(shì)洞察、根據(jù)趨勢(shì)和受眾偏好生成內(nèi)容想法、起草和修訂文章。
所需能力的具體化
現(xiàn)在我們已經(jīng)概述了代理執(zhí)行工作所需要采取的行動(dòng),所以這些行動(dòng)需要代理有不同的專業(yè)能力,比如說自然語言對(duì)話、信息檢索、內(nèi)容生成、數(shù)據(jù)分析、持續(xù)學(xué)習(xí)等等。它們也可以在更技術(shù)層面上表達(dá),例如API調(diào)用、函數(shù)調(diào)用等。例如,對(duì)于內(nèi)容創(chuàng)建代理,所需的能力可能包括:
動(dòng)態(tài)調(diào)用內(nèi)容趨勢(shì)代理的API。
頭腦風(fēng)暴和總結(jié)能力。
根據(jù)當(dāng)前話題和趨勢(shì)生成合適語調(diào)的內(nèi)容。
根據(jù)人類提供的編輯指令進(jìn)行操作。
記憶
選擇實(shí)現(xiàn)這些能力的技術(shù)時(shí),應(yīng)避免限制技術(shù)選項(xiàng),以確保能夠靈活適應(yīng)未來的技術(shù)發(fā)展。例如,盡管當(dāng)前大型語言模型(LLM)備受青睞,但其他如大型行動(dòng)模型(LAM)的發(fā)展可能為實(shí)現(xiàn)所需能力提供新的可能性。
能力和熟練度
確認(rèn)代理需要的能力后,評(píng)估并定義每種能力所需的具體熟練度是至關(guān)重要的。這包括設(shè)定性能基準(zhǔn),如準(zhǔn)確性、效率和可靠性等。
例如,對(duì)于我們的內(nèi)容創(chuàng)建代理,所需的熟練度水平可能包括:
功能調(diào)用的可靠性為75%。
功能調(diào)用失敗的解釋性為99.99%。
第一次嘗試時(shí),內(nèi)容趨勢(shì)代理的功能調(diào)用至少75%的時(shí)間能夠產(chǎn)生相關(guān)主題。
生成的內(nèi)容想法在75%的時(shí)間內(nèi)能夠產(chǎn)生理想的主題。
精確信息檢索的精度率為99.99%。
用戶反饋滿意度在90%或更高的編輯生成。
最終草案的用戶反饋滿意度為90%或更高。
代理工程與設(shè)計(jì)
在明確了所需能力及其熟練度后,接下來的步驟是確定如何通過現(xiàn)有技術(shù)和方法滿足這些要求。這涉及評(píng)估廣泛的技術(shù)和方法,如LLM、信息檢索增強(qiáng)生成(RAG)、專門的API以及其他機(jī)器學(xué)習(xí)和人工智能模型,以確定它們是否能達(dá)到所需的熟練度。
在此過程中,重要的是考慮每項(xiàng)技術(shù)或方法的優(yōu)勢(shì)和成本效益,以及它們?cè)趯?shí)現(xiàn)具體能力方面的適用性。
廣泛知識(shí)熟練度
廣泛知識(shí)是指跨廣泛主題和領(lǐng)域的一般理解和信息。這種類型的知識(shí)對(duì)于創(chuàng)建能夠有效進(jìn)行對(duì)話、理解上下文并在各種主題上提供相關(guān)響應(yīng)的AI代理至關(guān)重要。
LLMs — 如果你的代理的能力需要廣泛的知識(shí)熟練度,好消息是LLM的開發(fā)仍在持續(xù)不斷。從LlaMA3等開源模型到OpenAI、Anthropic和Google的最新專有模型,有不少技術(shù)可以在如此廣泛的人類語言和知識(shí)范圍內(nèi)提供高密度的連貫性。
提示工程 — 這個(gè)動(dòng)態(tài)且非常活躍的發(fā)展領(lǐng)域主要關(guān)注如何激活由LLMs建模的上下文適當(dāng)?shù)闹R(shí)領(lǐng)域。由于語言的萬花筒特質(zhì),掌握這門藝術(shù)可以顯著提高我們代理的能力熟練度水平。
特定知識(shí)熟練度
特定知識(shí)涉及對(duì)特定領(lǐng)域或主題的更深入理解。在追求我們的熟練度目標(biāo)時(shí),可能會(huì)考慮哪些技術(shù)/技術(shù)?
檢索增強(qiáng)生成(RAG) — RAG結(jié)合了LLMs的生成能力和信息檢索系統(tǒng),以便從外部來源合并信息。這可能是精確信息或特定知識(shí)(例如,一種獨(dú)特方法的描述),LLM能夠在上下文中“理解”它,因?yàn)樗哂袕V泛的知識(shí)熟練度。
模型微調(diào) — 在特定上下文數(shù)據(jù)集上微調(diào)LLMs,使模型能夠在特定設(shè)置中生成更具上下文相關(guān)性的響應(yīng)。雖然不如RAG流行,但隨著代理工程繼續(xù)獲得關(guān)注,我們可能會(huì)發(fā)現(xiàn)熟練度要求促使我們更頻繁地轉(zhuǎn)向這種技術(shù)。
精確信息
精確信息是指對(duì)需要準(zhǔn)確答案的任務(wù)至關(guān)重要的高度準(zhǔn)確和具體的數(shù)據(jù)點(diǎn)。
函數(shù)調(diào)用(又名工具使用) — 無可爭(zhēng)議的具體事實(shí)產(chǎn)生幻覺是AI代理的一個(gè)主要問題,所以我們可以使用函數(shù)調(diào)用來檢索特定信息。例如,電子商務(wù)代理可能使用定價(jià)API提供最新的產(chǎn)品價(jià)格,或者使用股票市場(chǎng)API提供股票價(jià)值的實(shí)時(shí)更新。
Guardrails — Guardrails可以幫助確保代理在其響應(yīng)中提供精確和準(zhǔn)確的信息。這可以涉及基于規(guī)則的約束、有導(dǎo)向的對(duì)話設(shè)計(jì)和意圖預(yù)處理。
代理的拆解和協(xié)調(diào)
在明確了代理的任務(wù)、所需能力及技術(shù)后,下一步是設(shè)計(jì)和協(xié)調(diào)代理的具體結(jié)構(gòu)。這可能涉及將多個(gè)技術(shù)和方法整合在一起,以構(gòu)建一個(gè)能夠獨(dú)立或在更廣泛系統(tǒng)中協(xié)同工作的AI代理。這包括考慮如何將不同能力分配給一個(gè)或多個(gè)代理,以及如何開發(fā)可以輕松重新配置和適應(yīng)新任務(wù)的代理結(jié)構(gòu)。這個(gè)話題本身就涉及多篇文章,所以我們不會(huì)在這里深入討論。
總結(jié)
從提示工程到代理工程的轉(zhuǎn)變才剛剛開始,未來的路還很長(zhǎng)。本文提出的代理工程框架只是一個(gè)起點(diǎn),旨在提供一個(gè)實(shí)用的設(shè)計(jì)思路,幫助我們?cè)贏I代理的開發(fā)和實(shí)現(xiàn)上取得進(jìn)展。隨著技術(shù)的發(fā)展和新方法的出現(xiàn),構(gòu)建AI代理的模型和技術(shù)將不斷增多,這要求我們建立能夠適應(yīng)各種技術(shù)的通用框架。通過明確定義代理的任務(wù)、行動(dòng)和所需能力,我們?yōu)锳I代理的設(shè)計(jì)和工程奠定了堅(jiān)實(shí)而靈活的基礎(chǔ),為未來的發(fā)展提供了持續(xù)的支持和改進(jìn)的可能。