新聞 國際財經

DeepSeek新模型模擬人類視覺邏輯,DeepSeek-OCR 2性能超越谷歌

2026/1/28 09:25

【財訊快報/陳孟朔】DeepSeek週二(27日)正式發布DeepSeek-OCR 2模型,該模型最大的突破在於採用創新的「DeepEncoder V2」技術。與傳統視覺模型機械式「從左至右、從上至下」的掃描方式不同,新模型能根據圖像的語義含義動態重排圖像各個部分,模擬人類觀看場景時的邏輯流程與因果推理能力。此技術讓AI在處理布局複雜的文檔(如多欄網頁、複雜圖表及混合公式)時,能更準確地辨識閱讀順序並理解內容關聯。

根據DeepSeek發布的技術報告,DeepSeek-OCR 2在權威基準測試OmniDocBench v1.5中取得了91.09%的高分,較前代模型大幅提升3.73%。在實際生產環境的測試中,該模型在處理在線用戶日誌和PDF預訓練數據時的重複率分別下降2.08%和0.81%,顯示其產出的文本更加潔淨且具邏輯一致性。這項進步不僅強化精準度,也解決傳統模型在複雜排版下常見的語義斷裂問題。

在計算效率方面,DeepSeek-OCR 2將視覺Token數量嚴格控制在256至1120個之間,該上限與Google最新一代Gemini-3 Pro保持一致。這意味著該模型在提供頂尖視覺理解能力的同時,亦維持了極高的推理效率與較低的計算成本。此外,DeepEncoder V2架構初步驗證了使用語言模型(LLM)架構作為視覺編碼器的潛力,未來有望將此架構擴展至音訊等多模態數據處理,為建構原生多模態系統奠定基礎。

DeepSeek目前已將DeepSeek-OCR 2的模型代碼及預訓練權重在GitHub與HuggingFace平台開源發布。

相關新聞