新聞 >大中華
阿里巴巴推開源Qwen3-Next模型,成本大降90%、推理效能增十倍

【財訊快報/陳孟朔】阿里巴巴(9988.HK)(美股代碼BABA)宣布開源全新架構模型Qwen3-Next-80B-A3B,被視為其「DeepSeek時刻」。該模型融合門控DeltaNet與門控注意力,總參數規模達800億,但每次僅啟動約30億,實現超高稀疏性,令訓練成本較Qwen3-32B大降90%,推理效率提升十倍,尤其在32K以上長文本處理場景中表現突出。
在性能方面,Qwen3-Next的指令微調版本可媲美阿里旗艦模型Qwen3-235B;思考模型在多項基準測試中甚至超越谷歌最新的Gemini-2.5-Flash,被視為目前最強的低能耗開源模型之一。國際社群對此架構設計讚譽有加,認為其混合注意力與DeltaNet應用顯示出顯著突破。
核心技術上,Qwen3-Next將75%的層數改用門控DeltaNet,僅保留25%標準注意力層,並透過輸出門控、旋轉位置編碼及更高維度設計,改善長序列外推能力。再加上多token預測機制,令推理過程更快且一致性更高。
在MoE(混合專家)結構上,Qwen3-Next設計512個專家,但每步推理僅固定啟動極少數專家,兼顧效率與性能。與此同時,透過改良的RMSNorm與路由器初始化策略,顯著提升大規模訓練的穩定性。
訓練數據方面,Qwen3-Next僅使用Qwen3語料庫中15T token子集,計算成本不足Qwen3-32B的1/10,卻能在效能上全面超越。測試顯示,在4K上下文下推理速度提升近七倍,32K以上場景更達十倍。
市場分析認為,Qwen3-Next標誌著中國大模型架構創新的新里程碑,不僅展現技術突破,也在成本與能效上實現領先,對AI開源社群與全球競爭格局具深遠影響。
相關新聞
-
2025/9/12 15:54
中國深化財稅體制改革方案出爐,將根據經濟形勢與需求動態推進
-
2025/9/12 13:52
泡泡瑪特子品牌popop首推足金系列,最高售價逾5.6萬元人民幣
-
2025/9/12 13:36
巨星傳奇攜手宇樹科技,「巨星狗」9/13上海旅遊節首秀
-
2025/9/12 13:30
美財長貝森特下週赴馬德里會晤何立峰,聚焦國安與經貿議題
-
2025/9/12 13:30
中國擬引導銀行提供貸款,助地方清償兆元企業欠款
-
2025/9/12 13:26
iPhone 17中國預約量暴增三倍,白色款最受追捧
-
2025/9/12 10:48
中國eVTOL產業展翅飛
-
2025/9/12 10:45
中國啟動新型儲能建設行動方案,目標帶動2500億人民幣投資
-
2025/9/12 08:34
阿里、百度採用自身研發AI晶片訓練模型,部分取代輝達