新聞 >大中華
DeepSeek推DeepSeekMath-V2,自驗證數學推理模型挺進競賽金牌水準

【財訊快報/陳孟朔】中媒報導,中國科企高光之一的DeepSeek週四(27日)推出新一代數學推理模型DeepSeekMath-V2,主打「可自我驗證」的數學推理框架。官方表示,該模型在國際數學奧林匹克競賽(IMO 2025)、中國數學奧林匹克(CMO 2024)上已達金牌水準,在普特南數學競賽(Putnam 2024)拿下118分(滿分120分)的成績,並已將模型程式碼與權重開源至Hugging Face與GitHub。
DeepSeekMath-V2建構在DeepSeek-V3.2-Exp-Base之上,核心是「驗證–生成」閉環架構:一個大型語言模型扮演「審稿人」擔任證明驗證器,另一個模型扮演「作者」生成證明,兩者透過強化學習互相迭代。同時引入「元驗證」機制,第二層驗證器專門檢查第一層驗證結果是否抓到真正的錯誤,藉此抑制幻覺、提升對證明缺陷的判斷精度。團隊強調,這套設計是從「只看最後答案」進化到「重視整條推理鏈」的關鍵一步。
在數據標註與訓練流程上,DeepSeekMath-V2採用多層自動化評估系統,透過多輪獨立分析、交叉檢驗與共識決策,為生成的證明打分與標註問題類型。隨著驗證器能力提升,後續訓練階段已可完全依賴自動化流程取代人工標註。官方測試顯示,自動標註結果與專家評分高度一致,使模型能在低人力成本下持續自我產生高品質訓練數據,形成「自驅動學習」的閉環生態。
在基準測試方面,DeepSeek引述結果顯示,DeepSeekMath-V2在自主構建的91個CNML級別問題上,在代數、幾何、數論、組合與不等式等各類別均優於主流模型,包括GPT-5-Thinking-High及Gemini 2.5-Pro。在IMO-ProofBench上,該模型在基礎題集的人工評估表現超過DeepMind的DeepThink,在更高難度題集上依然保持強勁競爭力。特別是在部分尚未完全解出的題目上,生成端能準確標記推理缺陷,而在完全解出的題目中又能通過64次驗證測試,顯示以大型語言模型作為驗證器,自動評估高複雜度數學證明已具可行性。
市場人士指出,DeepSeekMath-V2所展示的自驗證、自標註與自我迭代框架,對後續金融工程、密碼學、安全協議驗證、科學計算等領域的專業模型發展具參考價值。隨著更多高階推理模型開源,AI在「會算」之外,如何「算得嚴謹且可檢驗」正成為新一輪技術競賽焦點。
相關新聞
-
2025/11/28 15:56
上海設立國有大宗商品貿易公司國茂控股,提升國際影響力
-
2025/11/28 12:21
中國最新一週港口鐵礦砂庫存下降0.4%,北部、長江及南部全線下滑
-
2025/11/28 11:53
中金稱,萬科商討債券展期影響可控,不致引發流動性風險
-
2025/11/28 11:29
小鵬、零跑等業績失色,中國電動車廠明年挑戰加劇,股價承壓
-
2025/11/28 11:18
中國淪為外國車商墳場
-
2025/11/28 11:15
輕鬆健康獲港交所批准,IPO申請通過
-
2025/11/28 10:28
跨月資金寬鬆,中國銀行間隔夜回購利率降至1.282%,創2023年來低點
-
2025/11/28 09:41
納芯微計畫香港上市,募資最高22億港幣,預計12/8掛牌交易
-
2025/11/28 09:33
華為、中興通訊傳贏得越南5G設備合約
-
2025/11/28 09:16
阿里巴巴推夸克AI眼鏡,進軍AI穿戴裝置市場
-
2025/11/28 08:43
中國市場監管總局召開公平競爭座談會,三星、寶馬、嬌生等外商與會
-
2025/11/28 08:35
中國貿促會12月組團訪美,參與企業涵蓋農產、電子、金融等多領域
-
2025/11/28 07:55
中國福萊新材推第三代電子皮膚,開創機械人智能觸覺
-
2025/11/28 07:54
萬科違約壓力升溫,傳求助短期貸款遭多家中資行拒絕
-
2025/11/28 07:14
中國遊戲審批加速,11月份批准178款國產及6款進口網路遊戲














