財訊快報

新聞＞大中華

DeepSeek推新開源模型「DeepSeek-OCR」，以視覺作載體壓縮長文本

2025/10/21　10:21

【財訊快報／陳孟朔】中媒報導，中國大模型團隊DeepSeek再度發布開源新品——參數量約30億的光學字元識別(OCR)模型DeepSeek-OCR。官方強調，該模型的核心創新在於把長文本透過「光學二維映射」壓縮為像素，再以視覺模態讀取與還原，藉此突破傳統純文本上下文長度的限制，實現更高效的長文處理。

技術路徑上，「光學二維映射」可理解為：先把冗長文字編碼成高密度圖像(如類似排版壓縮的文字圖)，再交由具備OCR/圖像理解能力的模型一次性解碼。相較把所有字元直接丟進語言模型的「長上下文」計算，這種視覺承載方式降低token帶寬，理論上能在有限算力下處理更長內容。同時，模型兼具一定的通用圖像理解能力，對混合排版、表格與圖文頁面更友善。不過，壓縮帶來的資訊密度上升也意味著對圖像解析度、版式噪聲與字體變形的魯棒性要求更高。

應用層面，DeepSeek-OCR對多行業的「資料結構化」具有直接價值：在金融領域，年報季報與券商研報可快速轉成可查詢欄位；在醫療場景，可加速歷史病歷檔案的數位化與索引；對出版與文博機構，古籍影像的批量轉錄效率可望數倍提升。

/*選單滑動用*/ /* 要打開 $(function() { $('.marqueeBox3').removeClass('marqueeBox4'); marquee3(1); }); */

DeepSeek推新開源模型「DeepSeek-OCR」，以視覺作載體壓縮長文本