中文字幕人成乱无码,成av人片一区二区三区久久,亚洲欧美日韩一区

2024 年 12 月 6 號加州時間上午 11 點，OpenAI 發(fā)布了新的 Reinforcement Finetuning 方法，用于構(gòu)造專家模型。對于特定領(lǐng)域的決策問題，比如醫(yī)療診斷、罕見病診斷等等，只需要上傳幾十到幾千條訓練案例，就可以通過微調(diào)來找到最有的決策。

數(shù)據(jù)的形式類似于 instructiong tuning 的常見形式，有多個選項以及正確選項。同一時間，OpenAI 還發(fā)布了一個強化微調(diào)研究項目，鼓勵學者專家們上傳自己領(lǐng)域的獨特數(shù)據(jù)，測試他們的強化微調(diào)能力。

1

這個結(jié)果很漂亮，用的技術(shù)正是已經(jīng)廣泛應(yīng)用于 alignment, math, coding 領(lǐng)域的方法，其前身就是 Reinforcement learning from human feedback (RLHF). RLHF 用來對齊大模型與人類偏好性數(shù)據(jù)，訓練數(shù)據(jù)的形式為（問題，回答 1，回答 2，偏好），讓用戶選擇更喜歡的回答，學習人類的偏好，訓練獎勵模型（reward model）。給定 reward model 之后，用強化學習算法 (PPO, DPO）來微調(diào)模型參數(shù)，微調(diào)后的模型更容易生成用戶喜歡的內(nèi)容。

當求解 math 和 coding 問題時，每個問題都有正確答案。這時可以用 MCTS 等 RL 方法，生成大量的不同的求解軌跡，有的正確有的錯誤，用回答正確的軌跡做 SFT，或者用（正確解法，錯誤解法）的組合來做 RLHF。更進一步，可以把軌跡生成和 RLHF 微調(diào)這兩步迭代起來，不斷調(diào)整 reference policy，迭代不斷提高正確率，如 GRPo 或 SPPO 等。

2

OpenAI 的 RFT 只需要很少數(shù)據(jù)，就能再一些專家場景中，學會醫(yī)療診斷和科學決策，這個方法本質(zhì)上還是 CoT+RL，其中 CoT 這步可以 brainstorm 增強生成多樣的不同推理路徑，然后根據(jù)答對沒有來進行打分，再繼續(xù)做 RL 微調(diào)并且迭代。CoT 可以是把一系列的科學 / 醫(yī)療常識串聯(lián)起來。這些常識來自預訓練。

難點在于如何定義什么是 RL 里的 state-transition, 也即一步的思維推理。每一步 state transition 是大模型已經(jīng)學到的科學常識，再用 RL 找到通向高分的完整鏈路。關(guān)鍵問題是如何做到 token-level 和 full-response level RL 直接找到平衡點，也即如何描述”state”。token-level 的微調(diào)效率太低、不容易泛化；full-response level 又會迷糊了推理的過程。

更 fundamental 的問題是：何找到思維鏈里面的 “state” 呢，思維的 state representation 是不是已經(jīng)在預訓練里涌現(xiàn)出來了？有了合適的 state representation，RFT 就可以 easy, stable and robust。

3

Demo 里也能看出這個技術(shù)現(xiàn)階段的局限性。罕見病排查，從醫(yī)學角度重要，但是確實已知的科學，而且是已知科學問題中最簡單的一類。罕見病的診斷往往有清晰的基因指標，和相對流程化的判別路徑。之所以能用很少的數(shù)據(jù)就學會這個診斷過程，是因為很多人類專家任務(wù)的 know-how 其實是簡單的決策樹，幾十個案例就足以囊括底層邏輯。

這類問題本質(zhì)是多項選擇題，只要選擇有限，不同選項之間區(qū)分度大就很容易掌握。

這個 demo 還規(guī)避了 RLHF 里最難搞的 reward modeling 步驟，隨便設(shè)定一個打分函數(shù)就能用，比如正確答案給 1 分，錯誤答案 0 分。

然而真正的科學問題，往往不是有固定選項的選擇題，沒有標準答案，如何定義 action，如何定義問題該怎么問，如何給新的科學概念一個定義一個名字，這才是最高級也最有挑戰(zhàn)的科學難題?？茖W的數(shù)據(jù)也往往是 noisy 的，不是簡單的多選題，沒有清晰的決策樹。

4

講完了技術(shù)的潛力，我們來討論風險。今天 OpenAI 發(fā)布 RFT 的同一時間，推出了強化微調(diào)研究項目。這個項目邀請全世界的科研人員提供他們領(lǐng)域的決策數(shù)據(jù)集，讓 OpenAI 來測試其 RFT 推理決策能力，不斷進化。

然而，看到這個項目的時候，讓人冷汗不已。

今年夏天，我參加美國科學院召開的 AI for science 安全討論會，包括諾獎獲得者 David Baker 在內(nèi)的很多研究者也在場。討論會上，每個人都要回答為什么自己正在開發(fā)的 AI for science 技術(shù)是安全的，是可控的、可追蹤的。

如果科學這顆寶石，如果都集中在了同一個非開源公司手里，那么我們造出的是新神，還是帶上了無限手套的滅霸？

作者介紹

王夢迪現(xiàn)任普林斯頓大學電子與計算機工程系終身教授，并創(chuàng)立并擔任普林斯頓大學 “AI for Accelerated Invention” 中心的首任主任。她的研究領(lǐng)域涵蓋強化學習、可控大模型、優(yōu)化學習理論以及 AI for Science 等多個方向。王夢迪曾先后在 Google DeepMind、高等研究院與 Simons 研究院擔任訪問學者，并榮獲 MIT TR35、美國國家科學基金會（NSF）事業(yè)獎、Google 學者獎等多項榮譽。2024 年 7 月，她獲頒 AACC Donald Eckman 獎，以表彰其在控制與動態(tài)系統(tǒng)、機器學習及信息論交叉領(lǐng)域所作出的杰出貢獻。