財訊快報

新聞＞大中華

DeepSeek推DeepSeekMath-V2，自驗證數學推理模型挺進競賽金牌水準

2025/11/28　08:57

【財訊快報／陳孟朔】中媒報導，中國科企高光之一的DeepSeek週四(27日)推出新一代數學推理模型DeepSeekMath-V2，主打「可自我驗證」的數學推理框架。官方表示，該模型在國際數學奧林匹克競賽(IMO 2025)、中國數學奧林匹克(CMO 2024)上已達金牌水準，在普特南數學競賽(Putnam 2024)拿下118分(滿分120分)的成績，並已將模型程式碼與權重開源至Hugging Face與GitHub。

DeepSeekMath-V2建構在DeepSeek-V3.2-Exp-Base之上，核心是「驗證–生成」閉環架構：一個大型語言模型扮演「審稿人」擔任證明驗證器，另一個模型扮演「作者」生成證明，兩者透過強化學習互相迭代。同時引入「元驗證」機制，第二層驗證器專門檢查第一層驗證結果是否抓到真正的錯誤，藉此抑制幻覺、提升對證明缺陷的判斷精度。團隊強調，這套設計是從「只看最後答案」進化到「重視整條推理鏈」的關鍵一步。

在數據標註與訓練流程上，DeepSeekMath-V2採用多層自動化評估系統，透過多輪獨立分析、交叉檢驗與共識決策，為生成的證明打分與標註問題類型。隨著驗證器能力提升，後續訓練階段已可完全依賴自動化流程取代人工標註。官方測試顯示，自動標註結果與專家評分高度一致，使模型能在低人力成本下持續自我產生高品質訓練數據，形成「自驅動學習」的閉環生態。

在基準測試方面，DeepSeek引述結果顯示，DeepSeekMath-V2在自主構建的91個CNML級別問題上，在代數、幾何、數論、組合與不等式等各類別均優於主流模型，包括GPT-5-Thinking-High及Gemini 2.5-Pro。在IMO-ProofBench上，該模型在基礎題集的人工評估表現超過DeepMind的DeepThink，在更高難度題集上依然保持強勁競爭力。特別是在部分尚未完全解出的題目上，生成端能準確標記推理缺陷，而在完全解出的題目中又能通過64次驗證測試，顯示以大型語言模型作為驗證器，自動評估高複雜度數學證明已具可行性。

市場人士指出，DeepSeekMath-V2所展示的自驗證、自標註與自我迭代框架，對後續金融工程、密碼學、安全協議驗證、科學計算等領域的專業模型發展具參考價值。隨著更多高階推理模型開源，AI在「會算」之外，如何「算得嚴謹且可檢驗」正成為新一輪技術競賽焦點。

/*選單滑動用*/ /* 要打開 $(function() { $('.marqueeBox3').removeClass('marqueeBox4'); marquee3(1); }); */

DeepSeek推DeepSeekMath-V2，自驗證數學推理模型挺進競賽金牌水準