Moondream推出VLM微調服務Lens

MMetaEra

2026年04月21日 10:51

4 月 21 日（UTC+8），Moondream 上線微調服務 Lens，解決視覺語言模型（VLM，能讀圖並用文字回答的 AI 模型）從實驗室走向生產時準確度不夠這道「最後一公里」問題。Lens 是按量付費 API，同時支援強化學習和監督微調，官方稱十幾張圖的樣本就能看到效果；訓練完成後可通過雲端呼叫，也能用自家推理引擎 Photon 本地執行。公司公開了三組對比資料。NBA 直播畫面中檢測持球球員，基礎模型經常給出大量誤檢框；用 RL 微調後 F1 從 28% 提升至 79%，誤報框從 61 降到 2，訓練耗時 54 分鐘、費用 16.89 美元。街景照片識別所在國家的任務裡，每國 25 張微調樣本讓準確率達到 71.1%，超過 GPT-5.4 的 69.8%。醫學影像方面，微調後模型對青光眼嚴重程度分級的準確度是 GPT-5.4 的 2 倍，訓練 47 分鐘、花費 15.68 美元。首個合作方是做網路遙控雲臺攝像機的廠商 PTZOptics，把 Moondream 用於追蹤特定目標（例如「穿紅衣服的人」）、畫面內容清點和異常告警。Moondream 此前釋出過推理引擎 Photon，官方數字是 H100 上 20 毫秒推理延遲。Lens 主攻準確度，Photon 主攻速度，Moondream 對 VLM 生產落地的兩個常見卡點都拿出了方案。 [動察 Beating]