財訊快報

新聞＞大中華

阿里巴巴推開源Qwen3-Next模型，成本大降90%、推理效能增十倍

2025/9/12　13:21

【財訊快報／陳孟朔】阿里巴巴(9988.HK)(美股代碼BABA)宣布開源全新架構模型Qwen3-Next-80B-A3B，被視為其「DeepSeek時刻」。該模型融合門控DeltaNet與門控注意力，總參數規模達800億，但每次僅啟動約30億，實現超高稀疏性，令訓練成本較Qwen3-32B大降90%，推理效率提升十倍，尤其在32K以上長文本處理場景中表現突出。

在性能方面，Qwen3-Next的指令微調版本可媲美阿里旗艦模型Qwen3-235B；思考模型在多項基準測試中甚至超越谷歌最新的Gemini-2.5-Flash，被視為目前最強的低能耗開源模型之一。國際社群對此架構設計讚譽有加，認為其混合注意力與DeltaNet應用顯示出顯著突破。

核心技術上，Qwen3-Next將75%的層數改用門控DeltaNet，僅保留25%標準注意力層，並透過輸出門控、旋轉位置編碼及更高維度設計，改善長序列外推能力。再加上多token預測機制，令推理過程更快且一致性更高。

在MoE(混合專家)結構上，Qwen3-Next設計512個專家，但每步推理僅固定啟動極少數專家，兼顧效率與性能。與此同時，透過改良的RMSNorm與路由器初始化策略，顯著提升大規模訓練的穩定性。

訓練數據方面，Qwen3-Next僅使用Qwen3語料庫中15T token子集，計算成本不足Qwen3-32B的1/10，卻能在效能上全面超越。測試顯示，在4K上下文下推理速度提升近七倍，32K以上場景更達十倍。

市場分析認為，Qwen3-Next標誌著中國大模型架構創新的新里程碑，不僅展現技術突破，也在成本與能效上實現領先，對AI開源社群與全球競爭格局具深遠影響。

/*選單滑動用*/ /* 要打開 $(function() { $('.marqueeBox3').removeClass('marqueeBox4'); marquee3(1); }); */

阿里巴巴推開源Qwen3-Next模型，成本大降90%、推理效能增十倍