新聞 大中華

深度求索發布DeepSeek-V3.1模型,強化思考效率與Agent能力

2025/8/22 10:07

【財訊快報/陳孟朔】中媒報導,中國AI初創深度求索(DeepSeek)時隔近5個月再次升級V3基座模型,推出DeepSeek-V3.1。新版本支援「混合推理」架構,可在單一模型中同時提供「思考模式」與「非思考模式」,並宣稱具備更高的思考效率與更強的智能體(Agent)能力。

公司在微信公眾號表示,V3.1相較自家R1推理模型,Think模式能在更短時間給出答案;透過「後訓練」(Post-Training)優化,工具使用與Agent任務表現顯著提升。經「思維鏈壓縮」訓練後,V3.1-Think在輸出token數減少20%至50%的條件下,各項任務平均表現與R1-0528持平,且在多項搜尋型Agent測評中超越R1-0528。

官方App與網頁端模型已同步升級至V3.1,API亦已更新,並將上下文擴至128K,意味著能處理更長文本與更複雜任務,長程記憶能力同步增強。

訓練層面,V3.1的Base模型在V3基礎上外擴新增約840B tokens的訓練量;Base與後訓練模型均已開源。精度方面採用UE8M0 FP8 Scale參數格式,屬當前大模型訓練與推理常用的高效低精度量化技術,有助於在成本與效能間取得平衡。

相關新聞