OpenAI 研究主管 Noam Brown：AI “推理” 模型的發展歷程與未來展望

OpenAI 的 AI 推理研究主管 Noam Brown 表示，如果研究人員在早些年“知道正確的方法”和算法，某些形式的“推理” AI 模型可能早在 20 年前就已經出現。

在周三舉行的 Nvidia GTC 會議上，Brown 在小組討論中提到，這一研究方向被忽視有多種原因。他在自己的研究中發現，人類在面臨困境時會花費大量時間思考，這種思考過程在 AI 中可能非常有用。

Brown 曾參與開發在卡內基梅隆大學進行的遊戲 AI 研究，包括擊敗人類精英撲克玩家的 Pluribus。當時，他參與創建的 AI 獨特之處在於其通過“推理”解決問題，而非採用更粗暴的方法。

Brown 還是 OpenAI 的 o1 模型的構建者之一，該模型採用了一種稱為測試時推理的技術，在回應查詢前會進行“思考”。測試時推理涉及對運行中的模型應用額外的計算，以驅動一種“推理”形式。一般來說，所謂的推理模型在數學和科學等領域比傳統模型更準確、更可靠。

當被問及學術界是否有望在大規模 AI 實驗室（如 OpenAI）的層面上進行實驗時，考慮到學術機構普遍缺乏計算資源，Brown 承認近年來隨著模型對計算的需求增加，這變得更加困難。但他表示，學術界可以通過探索對計算需求較少的領域（如模型架構設計）來產生影響。

Brown 指出，前沿實驗室和學術界之間存在合作機會。前沿實驗室會關注學術出版物，並認真思考，如果某項研究在更大規模上應用是否會非常有效。如果論文提出了有力的論據，實驗室將會對此進行調查。

在特朗普政府大幅削減科學資助的背景下，Brown 的言論引起了關注。包括諾貝爾獎得主 Geoffrey Hinton 在內的 AI 專家對這些削減表示批評，認為這可能會威脅到國內外的 AI 研究工作。

Brown 特別提到，AI 基準測試是學術界可以產生重大影響的領域。他表示，AI 基準測試的現狀非常糟糕，而這項工作並不需要大量的計算資源。

目前，流行的 AI 基準測試往往側重於測試深奧的知識，其得分與人們關心的任務熟練度相關性較差，這導致了對模型能力和改進的普遍困惑。