DeepSeek又整狠活:SOTA級OCR,來自光學(xué)壓縮

0 評論 1835 瀏覽 0 收藏 11 分鐘

OCR技術(shù)的演進(jìn),正在從“識別能力”走向“壓縮效率”。本文深度解析DeepSeek-OCR如何通過上下文光學(xué)壓縮實現(xiàn)SOTA級性能,以更少的視覺Token完成更精準(zhǔn)的識別任務(wù),重塑AI文檔解析的工程范式,為產(chǎn)品人和技術(shù)團(tuán)隊提供一套可部署、可擴(kuò)展的智能入口。

今天,DeepSeek開源了最新的模型:DeepSeek-OCR。

省流:模型僅3B,單張A100-40G卡每天可跑20萬頁的LLM/VLM訓(xùn)練數(shù)據(jù)。

更詳細(xì)來說:DeepSeek提出了一種新的研究——上下文光學(xué)壓縮,并通過DeepSeek-OCR模型驗證了可行性。實驗顯示,當(dāng)文本token數(shù)量不超過視覺token的10倍(壓縮比低于10×)時,模型的OCR精度可達(dá)97%;即便壓縮比提高到20×,準(zhǔn)確率仍保持約60%。

小學(xué)生的理解就是,壓得輕一點,它幾乎全認(rèn)對;壓得狠一點,也能認(rèn)得七七八八。

在專門的文檔解析評測基準(zhǔn)OmniDocBench上,DeepSeek-OCR只使用100個視覺Token就超越了GOT?OCR2.0(每頁256個Token), 并在使用不到800個視覺Token的情況下優(yōu)于MinerU2.0(平均每頁6000+個Token)。

比其他模型更省token,精度還更高。

這個模型,有著超高的實用價值。

先看示例

下面幾則示例,均來自DeepSeek技術(shù)論文里的case。

比如,這是某電子書的一頁。原圖片,是比較糊的。

模型先進(jìn)行markdown識別,把整頁文字大概識別出來。

這個過程中,必然會有字母丟失或識別不準(zhǔn)的情況。然后,模型啟動深度的語法解析過程,自動推理、糾錯。

最后,得到了一個更精準(zhǔn)的結(jié)果。

整個工作過程,長這樣。

可以識別作業(yè)題,包括幾何圖形也能識別。

帶各種數(shù)據(jù)圖表的金融研究報告,也能準(zhǔn)確識別。

也包括一些來自現(xiàn)實生活中的圖片,無論拍攝角度、字形、字體發(fā)生什么變化,都能精準(zhǔn)識別。

對于PDF文檔,DeepSeek?OCR可以處理近100種語言,支持布局和非布局OCR格式。

區(qū)別于其他OCR模型,DeepSeek?OCR還具備“深度解析”的能力。

通過二次模型調(diào)用(需要配備提示詞),可以對圖表、幾何圖形、化學(xué)公式以及現(xiàn)實中的圖片進(jìn)行深度解析、推理。

更多場景

OCR模型,可以把“死圖片”秒變“活數(shù)據(jù)”,讓機(jī)器和人都能直接“抄對作業(yè)”。

比如:

  • 紙質(zhì)檔案電子化。政府、銀行、醫(yī)院堆成山的紙質(zhì)卷宗,OCR一跑就能生成可搜索、可復(fù)制的企業(yè)知識庫,檢索1秒vs人工翻10分鐘。
  • 實時證件識別。機(jī)場、酒店、網(wǎng)吧刷身份證/護(hù)照,OCR1秒讀出姓名、號碼、有效期,自動填表+公安聯(lián)網(wǎng)核驗,排隊時間砍半。
  • 法律/知識產(chǎn)權(quán)檢索。判決書、專利說明書OCR后全所可搜,律師輸入“先履行抗辯權(quán)”秒級定位5年內(nèi)的相關(guān)案例,準(zhǔn)備材料時間從3天縮到1小時。
  • 風(fēng)控打假。合同、回執(zhí)、倉單、車牌、集裝箱號,OCR秒抽關(guān)鍵字段,與系統(tǒng)比對,發(fā)現(xiàn)偽造/篡改立刻報警,金融、港口、二手車平臺靠它堵漏洞,一年少虧幾千萬。
  • 無障礙閱讀。盲人用手機(jī)掃書,OCR把文字讀出來;視障者“聽”郵件、“聽”藥品說明書,信息差直接抹平。

企業(yè)生產(chǎn)場景中,幾乎沒有哪個場景不與OCR打交道。

優(yōu)秀OCR=省人力、降差錯、提速度、挖數(shù)據(jù),把“死圖片”變成“任何系統(tǒng)都能直接使用的活數(shù)據(jù)”,是數(shù)字化流程的第一閘口,也是AI落地的“現(xiàn)金?!眻鼍?。

怎么部署

因為是開源的,所以任何企業(yè)都可以進(jìn)行部署。

在github上,DeepSeek提供了快速部署指引。

1)安裝

前提:確保環(huán)境是cuda11.8+torch2.6.0。

1.1 克隆此倉庫并定位到 DeepSeek-OCR 文件夾。git clone https://github.com/deepseek-ai/DeepSeek-OCR.git

1.2 Condaconda create -n deepseek-ocr python=3.12.9 -yconda activate deepseek-ocr

1.3 下載 vllm-0.8.5 pip install torch==2.6.0 torchvision==0.21.0 torchaudio==2.6.0 –index-urlhttps://download.pytorch.org/whl/cu118pip install vllm-0.8.5+cu118-cp38-abi3-manylinux1_x86_64.whlpip install -r requirements.txtpip install flash-attn==2.7.3 –no-build-isolation

2)vLLM推理

前提:更改 DeepSeek-OCR-master/DeepSeek-OCR-vllm/config.py 中的 INPUT_PATH/OUTPUT_PATH 和其他設(shè)置。

2.1 mage: streaming outputpython run_dpsk_ocr_image.py

2.2 pdf: concurrency ~2500tokens/s(an A100-40G)python run_dpsk_ocr_pdf.py

2.3 batch eval for benchmarkspython run_dpsk_ocr_eval_batch.py

3)Transformers推理

Transformersfrom transformers import AutoModel, AutoTokenizerimport torchimport osos.environ[“CUDA_VISIBLE_DEVICES”] = ‘0’model_name = ‘deepseek-ai/DeepSeek-OCR’tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)model = AutoModel.from_pretrained(model_name, _attn_implementation=’flash_attention_2’, trust_remote_code=True, use_safetensors=True)model = model.eval().cuda().to(torch.bfloat16)# prompt = “nFree OCR. “prompt = “n<|grounding|>Convert the document to markdown. “image_file = ‘your_image.jpg’output_path = ‘your/output/dir’res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 640, crop_mode=True, save_results = True, test_compress = True)

或者,你也可以cd DeepSeek-OCR-master/DeepSeek-OCR-hfpython run_dpsk_ocr.py

目前,開源模型支持以下模式:

原生分辨率:

  • Tiny:512×512(64visiontokens)
  • Small:640×640(100visiontokens)
  • Base:1024×1024(256visiontokens)
  • Large:1280×1280(400visiontokens)

動態(tài)分辨率:

Gundam: n×640×640 + 1×1024×1024

4)提示詞示例:

# document: n<|grounding|>Convert the document to markdown.# other image: n<|grounding|>OCR this image.# without layouts: nFree OCR.# figures in document: nParse the figure.# general: nDescribe this image in detail.# rec: nLocate <|ref|>xxxx<|/ref|> in the image.# ‘先天下之憂而憂’

更多開源信息,可參考:

github:

https://github.com/deepseek-ai/DeepSeek-OCR

huggingface:

https://huggingface.co/deepseek-ai/DeepSeek-OCR寫在最后

目前,業(yè)界OCR普遍有兩大難題:一是精度問題,二是成本問題。

DeepSeek換了個思路,把文字“拍”成圖,讓視覺模型當(dāng)壓縮器:原來上千個文本token才能說完的話,現(xiàn)在幾十個視覺token就裝下,壓縮率直接拉到10×以上。

這套“光學(xué)壓縮”方案落地成DeepSeek-OCR,token用得最少,成績卻刷到SOTA:一頁A4論文,100個視覺token就能原樣吐回1000+文本token,精度97%。

算力直接打一折,成本跟著跳水。更絕的是,模型連權(quán)重一起開源,零門檻白嫖。

把貴的東西做成白菜價,還順手把賬本公開——這操作,很DeepSeek。

本文由人人都是產(chǎn)品經(jīng)理作者【沃垠AI】,微信公眾號:【沃垠AI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自Deepseek官網(wǎng)截圖

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!