在 GPT-4o 出世后,Llama3 的風(fēng)頭被狠狠蓋過。GPT-4o 在圖像識別、語音理解上卓越的性能展現(xiàn)了它強大多模態(tài)能力。開源領(lǐng)域的領(lǐng)頭羊 Llama3 曾在幾乎所有基準(zhǔn)測試中都超越了 GPT-3.5,甚至在某些方面超越了 GPT-4。這次就要悶聲「吃癟」了嗎?
5 月 29 日,一個來自斯坦福的研究團隊發(fā)布了一個能夠「改變現(xiàn)狀」的產(chǎn)品:Llama3-V,號稱只要 500 美元(約為人民幣 3650 元),就能基于 Llama3 訓(xùn)練出一個超強的多模態(tài)模型,效果與 GPT4-V、Gemini Ultra 、 Claude Opus 多模態(tài)性能相當(dāng),但模型小 100 倍。
用這么少的成本,創(chuàng)造出了如此驚艷的成果,Llama3-V 在推特上迅速爆火,瀏覽量突破 30 萬,轉(zhuǎn)發(fā)超過 300 次,還沖上了「 HuggingFace Trending 」Top 5。
但是沒發(fā)布兩天,Llama3-V 就遭遇了重重質(zhì)疑。有人指出,Llama3-V 項目中有一大部分似乎竊取了清華大學(xué)自然語言處理實驗室與面壁智能合作開發(fā)的多模態(tài)模型 MiniCPM-Llama3-V 2.5。
MiniCPM-V 是面向圖文理解的端側(cè)多模態(tài)大模型系列。MiniCPM-Llama3-V 2.5 是該系列的新版本。其多模態(tài)綜合性能超越 GPT-4V-1106、Gemini Pro、Claude 3、Qwen-VL-Max 等商用閉源模型。OCR 能力及指令跟隨能力進一步提升,并支持超過 30 種語言的多模態(tài)交互。這樣的優(yōu)秀性能,不僅讓 MiniCPM-Llama3-V 2.5 成為受大家推崇的模型,或許也成為了 Llama3-V 的「模仿」對象。
可疑的作者答復(fù)
HuggingFace 用戶 JosephusCheung 在項目的評論區(qū)中提出問題,Llama3-V 是否在未提及的情況下使用 openbmb/MiniCPM-Llama3-V-2.5 進行了訓(xùn)練。而作者回復(fù)表明,Llama3-V 使用了 MiniCPM-Llama3-V-2.5 的預(yù)訓(xùn)練 tokenizer,并且是在它發(fā)布前就開始了這項工作。這樣的解釋明顯出現(xiàn)了時間錯位,加重了大家的懷疑。