新聞 大中華

DeepSeek推DeepSeekMath-V2,自驗證數學推理模型挺進競賽金牌水準

2025/11/28 08:57

【財訊快報/陳孟朔】中媒報導,中國科企高光之一的DeepSeek週四(27日)推出新一代數學推理模型DeepSeekMath-V2,主打「可自我驗證」的數學推理框架。官方表示,該模型在國際數學奧林匹克競賽(IMO 2025)、中國數學奧林匹克(CMO 2024)上已達金牌水準,在普特南數學競賽(Putnam 2024)拿下118分(滿分120分)的成績,並已將模型程式碼與權重開源至Hugging Face與GitHub。

DeepSeekMath-V2建構在DeepSeek-V3.2-Exp-Base之上,核心是「驗證–生成」閉環架構:一個大型語言模型扮演「審稿人」擔任證明驗證器,另一個模型扮演「作者」生成證明,兩者透過強化學習互相迭代。同時引入「元驗證」機制,第二層驗證器專門檢查第一層驗證結果是否抓到真正的錯誤,藉此抑制幻覺、提升對證明缺陷的判斷精度。團隊強調,這套設計是從「只看最後答案」進化到「重視整條推理鏈」的關鍵一步。

在數據標註與訓練流程上,DeepSeekMath-V2採用多層自動化評估系統,透過多輪獨立分析、交叉檢驗與共識決策,為生成的證明打分與標註問題類型。隨著驗證器能力提升,後續訓練階段已可完全依賴自動化流程取代人工標註。官方測試顯示,自動標註結果與專家評分高度一致,使模型能在低人力成本下持續自我產生高品質訓練數據,形成「自驅動學習」的閉環生態。

在基準測試方面,DeepSeek引述結果顯示,DeepSeekMath-V2在自主構建的91個CNML級別問題上,在代數、幾何、數論、組合與不等式等各類別均優於主流模型,包括GPT-5-Thinking-High及Gemini 2.5-Pro。在IMO-ProofBench上,該模型在基礎題集的人工評估表現超過DeepMind的DeepThink,在更高難度題集上依然保持強勁競爭力。特別是在部分尚未完全解出的題目上,生成端能準確標記推理缺陷,而在完全解出的題目中又能通過64次驗證測試,顯示以大型語言模型作為驗證器,自動評估高複雜度數學證明已具可行性。

市場人士指出,DeepSeekMath-V2所展示的自驗證、自標註與自我迭代框架,對後續金融工程、密碼學、安全協議驗證、科學計算等領域的專業模型發展具參考價值。隨著更多高階推理模型開源,AI在「會算」之外,如何「算得嚴謹且可檢驗」正成為新一輪技術競賽焦點。

相關新聞