新聞 大中華

DeepSeek推新開源模型「DeepSeek-OCR」,以視覺作載體壓縮長文本

2025/10/21 10:21

【財訊快報/陳孟朔】中媒報導,中國大模型團隊DeepSeek再度發布開源新品——參數量約30億的光學字元識別(OCR)模型DeepSeek-OCR。官方強調,該模型的核心創新在於把長文本透過「光學二維映射」壓縮為像素,再以視覺模態讀取與還原,藉此突破傳統純文本上下文長度的限制,實現更高效的長文處理。

技術路徑上,「光學二維映射」可理解為:先把冗長文字編碼成高密度圖像(如類似排版壓縮的文字圖),再交由具備OCR/圖像理解能力的模型一次性解碼。相較把所有字元直接丟進語言模型的「長上下文」計算,這種視覺承載方式降低token帶寬,理論上能在有限算力下處理更長內容。同時,模型兼具一定的通用圖像理解能力,對混合排版、表格與圖文頁面更友善。不過,壓縮帶來的資訊密度上升也意味著對圖像解析度、版式噪聲與字體變形的魯棒性要求更高。

應用層面,DeepSeek-OCR對多行業的「資料結構化」具有直接價值:在金融領域,年報季報與券商研報可快速轉成可查詢欄位;在醫療場景,可加速歷史病歷檔案的數位化與索引;對出版與文博機構,古籍影像的批量轉錄效率可望數倍提升。

相關新聞