Moondream推出VLM微調服務Lens
MMetaEra
4 月 21 日(UTC+8),Moondream 上線微調服務 Lens,解決視覺語言模型(VLM,能讀圖並用文字回答的 AI 模型)從實驗室走向生產時準確度不夠這道「最後一公里」問題。Lens 是按量付費 API,同時支援強化學習和監督微調,官方稱十幾張圖的樣本就能看到效果;訓練完成後可通過雲端呼叫,也能用自家推理引擎 Photon 本地執行。
公司公開了三組對比資料。NBA 直播畫面中檢測持球球員,基礎模型經常給出大量誤檢框;用 RL 微調後 F1 從 28% 提升至 79%,誤報框從 61 降到 2,訓練耗時 54 分鐘、費用 16.89 美元。街景照片識別所在國家的任務裡,每國 25 張微調樣本讓準確率達到 71.1%,超過 GPT-5.4 的 69.8%。醫學影像方面,微調後模型對青光眼嚴重程度分級的準確度是 GPT-5.4 的 2 倍,訓練 47 分鐘、花費 15.68 美元。
首個合作方是做網路遙控雲臺攝像機的廠商 PTZOptics,把 Moondream 用於追蹤特定目標(例如「穿紅衣服的人」)、畫面內容清點和異常告警。Moondream 此前釋出過推理引擎 Photon,官方數字是 H100 上 20 毫秒推理延遲。Lens 主攻準確度,Photon 主攻速度,Moondream 對 VLM 生產落地的兩個常見卡點都拿出了方案。
[動察 Beating]