新聞 >大中華
深度求索發布DeepSeek-V3.1模型,強化思考效率與Agent能力

【財訊快報/陳孟朔】中媒報導,中國AI初創深度求索(DeepSeek)時隔近5個月再次升級V3基座模型,推出DeepSeek-V3.1。新版本支援「混合推理」架構,可在單一模型中同時提供「思考模式」與「非思考模式」,並宣稱具備更高的思考效率與更強的智能體(Agent)能力。
公司在微信公眾號表示,V3.1相較自家R1推理模型,Think模式能在更短時間給出答案;透過「後訓練」(Post-Training)優化,工具使用與Agent任務表現顯著提升。經「思維鏈壓縮」訓練後,V3.1-Think在輸出token數減少20%至50%的條件下,各項任務平均表現與R1-0528持平,且在多項搜尋型Agent測評中超越R1-0528。
官方App與網頁端模型已同步升級至V3.1,API亦已更新,並將上下文擴至128K,意味著能處理更長文本與更複雜任務,長程記憶能力同步增強。
訓練層面,V3.1的Base模型在V3基礎上外擴新增約840B tokens的訓練量;Base與後訓練模型均已開源。精度方面採用UE8M0 FP8 Scale參數格式,屬當前大模型訓練與推理常用的高效低精度量化技術,有助於在成本與效能間取得平衡。
相關新聞
-
2025/8/22 14:35
中國藥監局稱,研發新藥數占全球約三成,醫藥產業規模居全球第二
-
2025/8/22 14:34
中國市監總局稱,融資增信措施助3萬企業獲貸款逾人民幣2千億元
-
2025/8/22 10:15
iPhone 17啟動量產,鄭州富士康求職排長龍,工資最高領逾2萬人民幣
-
2025/8/22 10:13
天太機器人獲1萬台人形機器人訂單,全球最大筆,預計2026年底交付
-
2025/8/22 10:13
泡泡瑪特本週推全新迷你版Labubu,將登速賣通全球同步發售
-
2025/8/22 09:18
禾賽科技計畫透過香港IPO融資3億美元
-
2025/8/22 08:52
中國商務部稱全球貿易仍存下行風險,當局有信心推動外貿穩量提質
-
2025/8/22 07:05
騰盛博藥發佈最新公司業務進展及2025中期業績報告