從各項指標(biāo)來看,2024年是迄今為止AI領(lǐng)域最具突破性的一年,至少從這項技術(shù)的商業(yè)化角度來看是如此。
由2022年底ChatGPT的推出所引發(fā)的大型語言模型(LLM)熱潮并未顯現(xiàn)任何減緩跡象,不僅OpenAI和微軟、Meta、谷歌等老牌科技巨頭推出了眾多新的LLM,還有許多其他初創(chuàng)公司和個人開發(fā)者也投身其中。
有關(guān)AI研究放緩的報道,即便不是毫無根據(jù),至少在目前來看也是被夸大其詞了。
此外,除了支撐大多數(shù)大型LLM的Transformer架構(gòu)之外,新的技術(shù)也開始浮現(xiàn),例如Liquid AI的Liquid Foundation Models。
最后,企業(yè)開始全面采用“代理式”AI方法——開發(fā)特定的由AI驅(qū)動的機器人、應(yīng)用程序和工作流程,這些可以獨立解決特定問題,或者在處理典型LLM聊天機器人的往復(fù)交互時,需要更少的人工管理。
要從一年的新聞故事中提煉出14個,更不用說10個或4個頂尖故事,是一項令人苦惱的任務(wù),但我還是嘗試了,盡管我稍微作弊,將幾個故事合并成了更大的主題。在我看來,以下是從今年開始將產(chǎn)生最大影響的內(nèi)容:
OpenAI的拓展遠超ChatGPT
這家可以說最應(yīng)為開啟通用AI時代負(fù)責(zé)的公司,在今年并沒有因新晉企業(yè)和傳統(tǒng)科技公司的激烈競爭(甚至是其自己的投資者和合作伙伴微軟)而錯失良機。
o1模型:OpenAI發(fā)布了其首個除GPT系列之外的大型通用模型新系列——o1“推理”系列,該系列分配了更多時間來處理復(fù)雜提示,從而提高了準(zhǔn)確性,它在科學(xué)、編程和推理任務(wù)中尤其有效。
o3模型:繼9月的o1模型之后,該公司在年底重磅宣布了更先進的o3模型,雖然該模型要到2025年初才會向公眾甚至任何第三方開放,但這表明OpenAI并沒有滿足于現(xiàn)狀。
ChatGPT Search:這一功能最初以僅限邀請的獨立產(chǎn)品SearchGPT推出,后來被整合到ChatGPT中,它能夠在ChatGPT中實現(xiàn)更多實時網(wǎng)絡(luò)信息檢索,并優(yōu)化搜索結(jié)果的呈現(xiàn),從而增強了其在查詢最新信息方面的實用性,并與谷歌、Bing和新加入的Perplexity展開正面競爭。
Canvas:于10月推出,Canvas將ChatGPT的界面從對話界面擴展到了類似工作站的面板,可以根據(jù)用戶請求動態(tài)更新內(nèi)容,如編輯文檔或編程項目。當(dāng)然,很難不將其視為對Anthropic幾個月前宣布的Artifacts的反應(yīng),或至少是與之相當(dāng)?shù)墓δ堋?/span>
Sora:在近乎一年的神秘預(yù)告后,OpenAI終于在12月初向大眾推出了其備受矚目的視頻生成器模型Sora,憑借其獨特且深思熟慮的界面和故事板功能,在競爭激烈的AI視頻領(lǐng)域?qū)で蟛町惢?,并迅速引發(fā)了廣泛反響。
開源AI崛起
Llama 3和3.1:Meta于4月推出了Llama 3,為開源AI 的性能樹立了新標(biāo)準(zhǔn),隨后又在7月迅速推出了擁有4050億個參數(shù)的Llama 3.1。Llama 3.1的多個版本被用于支持Meta AI,這是該公司跨WhatsApp、Messenger、Instagram和Facebook等平臺集成的助手,旨在成為使用最廣泛的AI助手。
Llama 3.3:于2024年12月發(fā)布,Llama 3.3的性能可與更大的模型相媲美,但計算成本卻大大降低,使其更易于企業(yè)應(yīng)用。
與此同時,中國的模型如阿里巴巴的Qwen-2.5系列和DeepSeek的新V2.5及R1-Lite Preview似乎橫空出世,在一些基準(zhǔn)測試榜單上名列前茅,而Nvidia本身也超越了顯卡和軟件架構(gòu)的供應(yīng),推出了其自己的開源、強大的Nemotron-70B模型。
位于舊金山的小型機構(gòu)Nous Research旨在提供更個性化、限制更少的開源AI模型,也首次推出了幾個新穎的想法。
當(dāng)然,我們也不能忘記法國的Mistral,它迅速擴展了自己的開源和專有AI產(chǎn)品。
谷歌的Gemini系列成為最佳可用模型的有力競爭者
在今年的回歸故事中,谷歌的Gemini系列AI模型曾因生成奇怪的圖像而被嘲笑,并因過于“覺醒”而受到批評,但現(xiàn)在它們以更強大、更新的版本強勢回歸,在第三方性能基準(zhǔn)測試榜單上名列前茅,并且越來越受到開發(fā)者和企業(yè)的青睞。
谷歌推出了Gemini 2.0 Flash,這是一個多模態(tài)AI模型,支持流媒體視頻分析,可以看到并指導(dǎo)你在屏幕上的操作,隨后又推出了Gemini 2.0 Flash Thinking,與OpenAI的o1和o3推理模型展開競爭。
代理式AI席卷企業(yè)
隨著一年的推進,“代理式”AI從一個流行詞變成了頂級企業(yè)軟件供應(yīng)商發(fā)布的一系列重大產(chǎn)品公告和舉措。例如:
Salesforce的Agentforce 2.0:Salesforce幾天前推出了Agentforce 2.0,這是一個先進的AI代理程序,旨在增強其CRM和銷售產(chǎn)品以及Slack中的推理、集成和定制功能,從而顯著提升企業(yè)生產(chǎn)力工具。
SAP的Joule:SAP將其Joule聊天機器人轉(zhuǎn)變?yōu)橛砷_源大型語言模型(LLM)驅(qū)動的AI代理,推動了企業(yè)環(huán)境中的創(chuàng)新和效率。
谷歌的Project Astra:作為Gemini 2.0計劃的一部分,谷歌推出了Project Astra,這是一個AI助手,旨在通過利用谷歌的一系列服務(wù)提供實時、情境化的響應(yīng),以增強用戶生產(chǎn)力和決策能力。
我對2025年的大膽預(yù)測:AI生成的內(nèi)容將占據(jù)主導(dǎo)地位
基于這些進步,2025年有望見證AI生成的內(nèi)容在商業(yè)和消費領(lǐng)域的廣泛傳播,特別是現(xiàn)在從OpenAI到Meta、谷歌、微軟、蘋果,甚至埃隆·馬斯克的xAI,都已經(jīng)在其產(chǎn)品中內(nèi)置了AI圖像生成器。
這種擴展將簡化內(nèi)容創(chuàng)建、增強個性化,并提升各個行業(yè)的效率。
此外,我們預(yù)計大型語言模型(LLM)和由GenAI驅(qū)動的機器人將在商業(yè)和消費環(huán)境中首次大規(guī)模部署,徹底改變自動化和人機交互。