Mistral AI推出OCR 4文件理解模型,支援自託管與自定義Schema輸出
MMetaEra
Mistral AI 宣佈推出文件智慧理解模型 Mistral OCR 4。該模型突破了傳統 OCR 僅提取扁平文字的限制,能夠輸出包含包圍框(bounding boxes)、元素分類(如標題、表格、公式、簽名等)以及詞級和頁級置信度評分的結構化文件資料。
模型支援 170 種語言,在低資源及稀有語言上表現出極強的準確性,併相容 PDF、DOC、PPT 等主流企業格式。為了滿足企業對資料隱私和主權的要求,OCR 4 支援單容器的自託管部署。
在盲測人類偏好評估中,OCR 4 較主流同類系統錄得 72% 的平均勝率,並在公開基準測試 OlmOCRBench 上取得 85.20 的最高分。早期企業使用者反饋,在金融問答等密集圖表場景中,OCR 4 的精度可媲美前沿 Agentic 解析器,而成本和延遲分別降低了 8 倍與 17 倍。
[BlockBeats]