近日,谷歌宣布其大語言模型(LLM)項目“Big Sleep”成功發(fā)現(xiàn)了一個SQLite數(shù)據(jù)庫引擎中的內(nèi)存安全漏洞,這是人工智能首次在真實軟件中發(fā)現(xiàn)可利用的內(nèi)存安全漏洞(且該漏洞無法通過傳統(tǒng)的模糊測試檢測到)。
AI首次發(fā)現(xiàn)內(nèi)存安全漏洞
谷歌的“Project Naptime”項目旨在評估LLM在進(jìn)攻性安全研究方面的能力,后來該項目演變?yōu)椤癇ig Sleep”,由谷歌Project Zero和DeepMind團(tuán)隊共同參與。Big Sleep項目致力于探索AI在發(fā)現(xiàn)軟件漏洞中的潛力,特別關(guān)注高危漏洞的檢測與利用。
在上周五的公告中,谷歌透露,Big Sleep項目的LLM代理在實驗階段成功識別出第一個真實世界中的漏洞——SQLite開源數(shù)據(jù)庫引擎中的基于棧的緩沖區(qū)溢出漏洞。該漏洞在今年10月初被發(fā)現(xiàn),SQLite開發(fā)團(tuán)隊在接到披露信息后數(shù)小時內(nèi)即完成了補(bǔ)丁修復(fù)。
這一發(fā)現(xiàn)具有重大意義,因為這是AI首次獨立檢測出可利用的內(nèi)存安全漏洞。
“青出于藍(lán)”,超越模糊測試
Big Sleep的工作流程模擬了人類的漏洞研究過程。首先,AI被要求審查SQLite代碼中的最新提交記錄,并尋找類似于已知漏洞的安全問題。作為起點,研究人員向LLM提供了一個最近修復(fù)的漏洞,以引導(dǎo)它發(fā)現(xiàn)新的漏洞。通過這一策略,Big Sleep最終找到了一個嚴(yán)重的內(nèi)存安全問題。
谷歌隨后嘗試使用傳統(tǒng)的模糊測試來檢測這一漏洞,耗費(fèi)了150個CPU小時,仍未成功發(fā)現(xiàn)問題。值得注意的是,多年來,谷歌的AFL模糊測試工具在發(fā)現(xiàn)SQLite漏洞方面非常高效,但如今似乎已達(dá)到“自然飽和點”,難以再找到新的漏洞。相比之下,Big Sleep的LLM展示了其在識別高級安全問題方面的潛力。
AI在漏洞研究中的前景與挑戰(zhàn)
谷歌在博客中指出,當(dāng)前的LLM在配備合適工具時,確實可以勝任某些漏洞研究任務(wù)。然而,Big Sleep團(tuán)隊強(qiáng)調(diào),這一成果仍屬高度實驗性,AI的發(fā)現(xiàn)能力還不具備完全替代模糊測試的可靠性。盡管如此,這一突破顯示出AI在安全研究中的前景,尤其是在目標(biāo)特定的漏洞檢測方面,AI可能逐漸成為重要工具。
AI在網(wǎng)絡(luò)安全中的應(yīng)用越來越廣泛,尤其是軟件漏洞研究。就在上周,威脅情報公司GreyNoise利用AI工具檢測到了針對常見物聯(lián)網(wǎng)攝像頭的漏洞利用企圖。與此同時,AI安全公司Protect AI也開發(fā)了一種基于LLM的靜態(tài)代碼分析器,能夠檢測并解釋復(fù)雜的多步驟漏洞,這進(jìn)一步證明了AI在漏洞檢測和分析中的獨特優(yōu)勢。
除了檢測已知漏洞,一些研究人員還在探索LLM代理如何利用已知和未知漏洞。AI不僅在發(fā)現(xiàn)安全問題上表現(xiàn)出色,還展現(xiàn)了在多步驟漏洞利用中的潛力。盡管目前這一研究仍處于初級階段,但AI技術(shù)的發(fā)展為漏洞研究提供了新思路,并推動了網(wǎng)絡(luò)安全技術(shù)的創(chuàng)新。
展望:AI與模糊測試的協(xié)同未來
谷歌和其他科技公司對LLM的研究表明,AI在漏洞檢測和防御中的應(yīng)用前景廣闊。然而,正如谷歌所強(qiáng)調(diào)的,AI并非萬能,它在一些特定場景下的表現(xiàn)可能與傳統(tǒng)模糊測試相當(dāng)甚至遜色。未來,或許AI和模糊測試的協(xié)同應(yīng)用將成為網(wǎng)絡(luò)安全研究的新趨勢,通過融合不同技術(shù)手段,提高漏洞檢測的效率和準(zhǔn)確性。