視覺模型落地:AI打工,干活全自動

0 評論 1991 瀏覽 0 收藏 6 分鐘

隨著人工智能技術的不斷進步,視覺模型正在從實驗室走向實際應用,逐漸改變我們的工作和生活方式。本文將探討字節(jié)跳動最新發(fā)布的豆包1.5視覺模型如何實現視覺定位與計數功能,并通過實際案例展示其在圖像標注、庫存盤點等場景中的應用潛力。盡管目前仍存在一些挑戰(zhàn),但這一技術的進步已經為自動化工作流程帶來了新的可能性,預示著AI在更多實際場景中的廣泛應用前景。

算一下,一碟 15,這是吃了多少?

答:一共14盤,合計210

AI 是可以拿來做盤點的

方法:AI 數的,容我細細道來

字節(jié)發(fā)了新模型

今天是字節(jié)的發(fā)布會,我去了現場。

豆包 1.5 深度思考模型上線,200B MoE,20B 激活參數,R1 級別的性能。

豆包 1.5 深度思考模型上線

但很多人沒注意到是,伴隨這個模型的,還有個有非常趣的小玩意兒:Doubao-1.5-vision-pro。

還有個視覺理解模型

仔細看了文檔后,注意到有這樣一段:

  • 視覺定位能力大幅提升:支持對單目標、多目標、小目標等進行邊界框或點提示進行定位,并支持基于定位進行計數,給出坐標位置,或描述所定位內容。支持 3D 定位,可基于圖像進行深度預測、距離排序、深度比較等。可以廣泛用在各類巡檢等上商業(yè)化場景中。

這是一個小小的、但很有意義的進步:大模型可以給圖片穩(wěn)定打標記了

把圖交給它,讓它識別所有壽司盤的位置,輸出坐標。

讓模型獲取坐標

有了格式化的坐標,只需要一個腳本就可以標注了:設定線條長度 200,粗度 10,顏色亮青,文字字號 70,配了黑色陰影,保證在各種光線下都能看清。

標注好的圖片

視覺思考的落地

這事兒做完我突然意識到,

這不就是很多場景下都用得上的“圖像計數”嗎?

于是,我測了幾個別的:

街頭照片,他知道路牌在哪;

獲取路標位置

標記好的路牌

或者拿它去標注米老鼠的帽子。

眾所周知,初版米老鼠版權到了

你不用告訴它“那是個什么”,只要給出目標定義或提問方式,就能獲得結果。

小任務,不小的價值

多模態(tài)這幾年卷得飛起,但真正能落地的場景并不多:AI 寫詩、拍題解題,這些看起來很炫,但離實際太遠。

但我們也知道,每刻都有無數人在認真的應對工作:盤庫存、數元件…勞心勞力。那么,這些事情,為什么不交給 AI 呢?

在幾年前,還是 CV 當道的時候,你會說:開發(fā)個 AI,可比人力貴多了。

但現在不同了:對著你的任務,只需要一個明確的問題,就可以拿到一份標注好的信息

誠然,單以現在來看,問題也不少

  • 角度偏了、光線不均,容易漏標;
  • 目標密集時,編號會擠在一起,看不清楚;
  • 背景復雜時,有時會誤判或者漏標。

這些問題都是可以優(yōu)化的。

質變已經發(fā)生了,量變只是時間問題。

那么,希望硅基大人,日后要好好打工

本文由人人都是產品經理作者【賽博禪心】,微信公眾號:【賽博禪心】,原創(chuàng)/授權 發(fā)布于人人都是產品經理,未經許可,禁止轉載。

題圖來自Unsplash,基于 CC0 協議。

更多精彩內容,請關注人人都是產品經理微信公眾號或下載App
評論
評論請登錄
  1. 目前還沒評論,等你發(fā)揮!