12月23日消息,據(jù)外媒報道,在為期12天的發(fā)布會上,OpenAI宣布了其新一代推理模型o3和精簡版o3-mini,專門設(shè)計用于在回答問題之前進行更深入的思考,以提高準確性。
據(jù)介紹,o3模型在ARC-AGI基準上取得了優(yōu)異的表現(xiàn),成為第一個超越這一基準的AI模型,展示了接近人類水平的問題解決能力。o3系列在ARC-AGI基準上的最低性能可以達到75.7%,加上額外的計算資源,性能可以提高到87.5%。
o3-mini模型專注于提高推理速度和降低成本,同時保持模型性能,使其特別適合編程任務。OpenAI計劃在一月底推出o3-mini,隨后不久將推出完整的o3型號。雖然o3系列機型不會直接公開發(fā)布,而且會先進行安全測試,但OpenAI已經(jīng)開始允許安全研究人員注冊o3和o3-mini的預覽訪問權(quán)限。
在編程和數(shù)學問題解決方面,o3模型顯示出了顯著的能力。在SWE-bench驗證基準上,o3模型的準確率約為71.7%,比o1模型高出20%以上。在衡量編程能力的Codeforces?Elo評分中,o3取得了2727的Elo評分,而o1評分僅為1891。此外,o3在競技數(shù)學上的準確率達到了96.7%,在GPQA?Diamond上的準確率達到了87.7%,比o1提高了近10%。
OpenAI在發(fā)布會上還介紹了一種新的安全評估方法——審議式對齊(deliberative?alignment)。這種方法通過直接教授模型安全規(guī)范,訓練模型在回答前明確回憶規(guī)范并準確地執(zhí)行推理,從而實現(xiàn)對OpenAI安全政策的高度精確遵守。
目前,OpenAI正在推進外部安全測試,并在其網(wǎng)站上開放了早期訪問應用程序。申請人必須在網(wǎng)上填寫表格并提供相關(guān)信息。選定的研究人員將被授予訪問o3和o3-mini的權(quán)限,以探索它們的能力并為安全評估做出貢獻。