從各項(xiàng)指標(biāo)來看,2024年是迄今為止AI領(lǐng)域最具突破性的一年,至少?gòu)倪@項(xiàng)技術(shù)的商業(yè)化角度來看是如此。
由2022年底ChatGPT的推出所引發(fā)的大型語言模型(LLM)熱潮并未顯現(xiàn)任何減緩跡象,不僅OpenAI和微軟、Meta、谷歌等老牌科技巨頭推出了眾多新的LLM,還有許多其他初創(chuàng)公司和個(gè)人開發(fā)者也投身其中。
有關(guān)AI研究放緩的報(bào)道,即便不是毫無根據(jù),至少在目前來看也是被夸大其詞了。
此外,除了支撐大多數(shù)大型LLM的Transformer架構(gòu)之外,新的技術(shù)也開始浮現(xiàn),例如Liquid AI的Liquid Foundation Models。
最后,企業(yè)開始全面采用“代理式”AI方法——開發(fā)特定的由AI驅(qū)動(dòng)的機(jī)器人、應(yīng)用程序和工作流程,這些可以獨(dú)立解決特定問題,或者在處理典型LLM聊天機(jī)器人的往復(fù)交互時(shí),需要更少的人工管理。
要從一年的新聞故事中提煉出14個(gè),更不用說10個(gè)或4個(gè)頂尖故事,是一項(xiàng)令人苦惱的任務(wù),但我還是嘗試了,盡管我稍微作弊,將幾個(gè)故事合并成了更大的主題。在我看來,以下是從今年開始將產(chǎn)生最大影響的內(nèi)容:
OpenAI的拓展遠(yuǎn)超ChatGPT
這家可以說最應(yīng)為開啟通用AI時(shí)代負(fù)責(zé)的公司,在今年并沒有因新晉企業(yè)和傳統(tǒng)科技公司的激烈競(jìng)爭(zhēng)(甚至是其自己的投資者和合作伙伴微軟)而錯(cuò)失良機(jī)。
o1模型:OpenAI發(fā)布了其首個(gè)除GPT系列之外的大型通用模型新系列——o1“推理”系列,該系列分配了更多時(shí)間來處理復(fù)雜提示,從而提高了準(zhǔn)確性,它在科學(xué)、編程和推理任務(wù)中尤其有效。
o3模型:繼9月的o1模型之后,該公司在年底重磅宣布了更先進(jìn)的o3模型,雖然該模型要到2025年初才會(huì)向公眾甚至任何第三方開放,但這表明OpenAI并沒有滿足于現(xiàn)狀。
ChatGPT Search:這一功能最初以僅限邀請(qǐng)的獨(dú)立產(chǎn)品SearchGPT推出,后來被整合到ChatGPT中,它能夠在ChatGPT中實(shí)現(xiàn)更多實(shí)時(shí)網(wǎng)絡(luò)信息檢索,并優(yōu)化搜索結(jié)果的呈現(xiàn),從而增強(qiáng)了其在查詢最新信息方面的實(shí)用性,并與谷歌、Bing和新加入的Perplexity展開正面競(jìng)爭(zhēng)。
Canvas:于10月推出,Canvas將ChatGPT的界面從對(duì)話界面擴(kuò)展到了類似工作站的面板,可以根據(jù)用戶請(qǐng)求動(dòng)態(tài)更新內(nèi)容,如編輯文檔或編程項(xiàng)目。當(dāng)然,很難不將其視為對(duì)Anthropic幾個(gè)月前宣布的Artifacts的反應(yīng),或至少是與之相當(dāng)?shù)墓δ堋?/span>
Sora:在近乎一年的神秘預(yù)告后,OpenAI終于在12月初向大眾推出了其備受矚目的視頻生成器模型Sora,憑借其獨(dú)特且深思熟慮的界面和故事板功能,在競(jìng)爭(zhēng)激烈的AI視頻領(lǐng)域?qū)で蟛町惢?,并迅速引發(fā)了廣泛反響。
開源AI崛起
Llama 3和3.1:Meta于4月推出了Llama 3,為開源AI的性能樹立了新標(biāo)準(zhǔn),隨后又在7月迅速推出了擁有4050億個(gè)參數(shù)的Llama 3.1。Llama 3.1的多個(gè)版本被用于支持Meta AI,這是該公司跨WhatsApp、Messenger、Instagram和Facebook等平臺(tái)集成的助手,旨在成為使用最廣泛的AI助手。
Llama 3.3:于2024年12月發(fā)布,Llama 3.3的性能可與更大的模型相媲美,但計(jì)算成本卻大大降低,使其更易于企業(yè)應(yīng)用。
與此同時(shí),中國(guó)的模型如阿里巴巴的Qwen-2.5系列和DeepSeek的新V2.5及R1-Lite Preview似乎橫空出世,在一些基準(zhǔn)測(cè)試榜單上名列前茅,而Nvidia本身也超越了顯卡和軟件架構(gòu)的供應(yīng),推出了其自己的開源、強(qiáng)大的Nemotron-70B模型。
位于舊金山的小型機(jī)構(gòu)Nous Research旨在提供更個(gè)性化、限制更少的開源AI模型,也首次推出了幾個(gè)新穎的想法。
當(dāng)然,我們也不能忘記法國(guó)的Mistral,它迅速擴(kuò)展了自己的開源和專有AI產(chǎn)品。
谷歌的Gemini系列成為最佳可用模型的有力競(jìng)爭(zhēng)者
在今年的回歸故事中,谷歌的Gemini系列AI模型曾因生成奇怪的圖像而被嘲笑,并因過于“覺醒”而受到批評(píng),但現(xiàn)在它們以更強(qiáng)大、更新的版本強(qiáng)勢(shì)回歸,在第三方性能基準(zhǔn)測(cè)試榜單上名列前茅,并且越來越受到開發(fā)者和企業(yè)的青睞。
谷歌推出了Gemini 2.0 Flash,這是一個(gè)多模態(tài)AI模型,支持流媒體視頻分析,可以看到并指導(dǎo)你在屏幕上的操作,隨后又推出了Gemini 2.0 Flash Thinking,與OpenAI的o1和o3推理模型展開競(jìng)爭(zhēng)。
代理式AI席卷企業(yè)
隨著一年的推進(jìn),“代理式”AI從一個(gè)流行詞變成了頂級(jí)企業(yè)軟件供應(yīng)商發(fā)布的一系列重大產(chǎn)品公告和舉措。例如:
Salesforce的Agentforce 2.0:Salesforce幾天前推出了Agentforce 2.0,這是一個(gè)先進(jìn)的AI代理程序,旨在增強(qiáng)其CRM和銷售產(chǎn)品以及Slack中的推理、集成和定制功能,從而顯著提升企業(yè)生產(chǎn)力工具。
SAP的Joule:SAP將其Joule聊天機(jī)器人轉(zhuǎn)變?yōu)橛砷_源大型語言模型(LLM)驅(qū)動(dòng)的AI代理,推動(dòng)了企業(yè)環(huán)境中的創(chuàng)新和效率。
谷歌的Project Astra:作為Gemini 2.0計(jì)劃的一部分,谷歌推出了Project Astra,這是一個(gè)AI助手,旨在通過利用谷歌的一系列服務(wù)提供實(shí)時(shí)、情境化的響應(yīng),以增強(qiáng)用戶生產(chǎn)力和決策能力。
我對(duì)2025年的大膽預(yù)測(cè):AI生成的內(nèi)容將占據(jù)主導(dǎo)地位
基于這些進(jìn)步,2025年有望見證AI生成的內(nèi)容在商業(yè)和消費(fèi)領(lǐng)域的廣泛傳播,特別是現(xiàn)在從OpenAI到Meta、谷歌、微軟、蘋果,甚至埃隆·馬斯克的xAI,都已經(jīng)在其產(chǎn)品中內(nèi)置了AI圖像生成器。
這種擴(kuò)展將簡(jiǎn)化內(nèi)容創(chuàng)建、增強(qiáng)個(gè)性化,并提升各個(gè)行業(yè)的效率。
此外,我們預(yù)計(jì)大型語言模型(LLM)和由GenAI驅(qū)動(dòng)的機(jī)器人將在商業(yè)和消費(fèi)環(huán)境中首次大規(guī)模部署,徹底改變自動(dòng)化和人機(jī)交互。