言變圖的“LLM時刻”,還有AI全家桶,Google殺瘋了
在生成式AI快速崛起的浪潮中,Google以全新的產(chǎn)品矩陣和技術(shù)升級迎來屬于它的“LLM時刻”。從文本到圖像,從工具到生態(tài),AI全家桶的發(fā)布讓人們看到技術(shù)無邊的可能性。本文將帶你深入解讀這些突破背后的技術(shù)邏輯與市場策略,探討Google如何在AI競賽中拔得頭籌,并展望行業(yè)未來的新格局。
對于Google來說,作為Transformer等核心技術(shù)的發(fā)明者,在“AI 4巨頭”的討論中沒有它,是一件很尷尬的事情。
這讓其一直憋著一口氣,決心證明自己。最近Google的系列更新就頗具看點:
發(fā)布開源模型 Gemma 3,性能超越DeepSeek V3、o3mini為全球第二強開源模型,但是模型大小僅為7B。發(fā)布Gemini 2.0 Flash Experimental,動動嘴就能PS的AI文生圖產(chǎn)品。不僅如此,對指令理解也相當?shù)轿?,能連續(xù)生成一致性圖片,并評為AI生圖的GPT時刻,這幾天在X傳瘋了。Deep Research開放免費使用,背后是2.0 Flash Thinking Experimental 提升推理能力并擴展上下文窗口。還有新一代 機器人 AI 模型Gemini Robotics ,對物理世界更懂了。
國外有網(wǎng)友評價Google這次更新,是幾乎每項到了最佳:
到底有沒有這么強呢,鯨哥認為是大差不差,有驚喜,也有吹噓。
先說這次最被熱議的更新—Gemini 2.0 Flash Experimental。 原生圖像生成功能上線,說話就能PS照片的夢想實現(xiàn)。通過聊天任意編輯圖像的局部或者全部,有點類似Adobefirefly版本。
我們用英偉達CEO黃仁勛此前發(fā)布會的圖片,來試試是否可以隨意PS。
我們先要求換背景,讓黃仁勛在直播間中帶貨。這個難度不大,是不是摳圖也不好說。
“321上鏈接”,5090顯卡刀法精準,直接賣爆了,我們讓黃仁勛開心地笑起來??吹贸鰜肀砬橛行┍?,但整體還是做到了AI改變?nèi)宋锉砬椤?/p>
再要求把臉從黃仁勛換成馬斯克,這個挺順暢完成了,馬斯克的臉部還挺逼真,表情也比較自然。一個小細節(jié),攝像機上手機屏幕中的人物也跟著換成了馬斯克。
還有一個這兩天大家很愛玩的功能,就是這個合成圖片的功能,熊的視角略微有一些轉(zhuǎn)向,但是合成圖片中還原的還不錯。
很多人會質(zhì)疑這個功能有什么用,國外有小伙,利用gemini-2.0 新推出的圖片編輯 API,連夜肝了個工具,實現(xiàn)白底圖到產(chǎn)品實拍圖的批量自動化生成。
他是這樣評價這個產(chǎn)品:“效果炸裂,特別是對產(chǎn)品的特征保留的很好,相比 ComfyUI 工作流調(diào)個半死,這不強多了。”
當然它還能給線稿上色,鯨哥生成了“猿力崛起”類似的圖片。生成效果確實還沒有Midjourney強,但是能力很連貫,這是生成式AI的體現(xiàn),這是預言挑戰(zhàn)畫家的顛覆性一步。
Gemini-2.0不僅改圖能力強,還能生成連續(xù)性的圖片故事集,效果也不錯。以下是鯨哥測試的成果。
“生成一個關(guān)于爆炒羊雜教程系列圖片。對于每個場景,生成一個圖像和一段介紹文字?!盙oogle生成的教程顯示有點長,我在排版時用SVG動畫顯示了,大家點擊下方即可查看。
羊雜切碎,調(diào)好備料最關(guān)鍵是羊雜焯水
羊雜切碎,調(diào)好備料最關(guān)鍵是羊雜焯水
放油,先炒調(diào)料再加入羊雜爆炒·
放油,先炒調(diào)料再加入羊雜爆炒
放入蔬菜,炒至斷生加入勾芡,炒熟裝盤·
放入蔬菜,炒至斷生加入勾芡,炒熟裝盤
感謝Google,終于知道中午做的爆炒羊雜為啥不好吃了,原來沒有先把羊雜焯水(直男落淚)。
此前的 2 月,Google Veo 2 已通過 Freepik 發(fā)布了圖像轉(zhuǎn)視頻功能,現(xiàn)在與2.0 Flash有很好的結(jié)合了。
這個視頻是JP博主制作,用一張AI生成的美女和商品圖結(jié)合,先是生成了帶貨圖片,然后轉(zhuǎn)成了視頻,神奇的是視頻中飲料的商標都沒有變,目前在X上很火。
最后再講一個很有用的東西,應該比以上視覺工具更加落地。
是不是大家仍沒有Manus邀請碼,感覺也不用苦苦等待了。Google deep Research 現(xiàn)在可以免費使用,由 2.0 Flash Thinking模型提供支持,而且可以展示研究過程(chain of research),甚至支持鏈接你的搜索記錄對 Gemini 進行個性化設(shè)置。
這是我做的“中國視頻類科技商業(yè)博主起號及爆款”研究專題,要求生成30頁以內(nèi)的PPT報告。
還能根據(jù)這份報告繼續(xù)提問,我問了下最適合普通人學習的博主是誰,回答結(jié)果如下,額,不知道大家怎么看這個結(jié)果。
Deep Research能羅列Researching websites,這樣你可以清楚看到引用的哪些網(wǎng)站內(nèi)容,靠不靠譜。同時這也是Google deep Research 的優(yōu)勢,搜索內(nèi)容的廣度上要比OpenAI 大很多,甚至能索引 YouTube 內(nèi)容。
最重要的是,它輸入框底下有行字,“Gemini can make mistakes, so double-check it”,避免出錯進行了雙倍檢查。這就極大避免了幻覺率,確保提供的信息,一定范圍內(nèi)的準確性。
當然問題也有,就是這個產(chǎn)品不太Agent,讓生成PPT最終沒有生成,估計是因為調(diào)用不了其他工具。我體驗導出報告,調(diào)用Chrome文檔也不流暢。以后使用MCP協(xié)議估計效果會更好。
在基礎(chǔ)語言模型方面,最大的更新是發(fā)布最新開源模型 Gemma 3 。
最大僅為27B,性能超越DeepSeek V3、o3mini,為全球第二強開源模型,僅次于DeepSeek R1,但是模型小很多,達到差不多的性能。
其他幾個模型分別為 1B、4B、12B 和 27B,微型模型意味著可在手機、電腦上跑。
雖然模型小,但是各方面能力都具備。比如增強文本和視覺能力,可理解文本、圖片、短視頻。支持128K上下文窗口 ,支持函數(shù)調(diào)用,支持AI 代理開發(fā),自動執(zhí)行任務。
不僅是通用LLM模型更新,Google還在具身智能領(lǐng)域做了很大的改進。
Google DeepMind 推出基于 Gemini 2.0 研發(fā)的新一代 機器人 AI 模型Gemini Robotics 。
首先是具備泛化能力:Gemini Robotics利用Gemini 2.0的世界理解能力,機器人能夠處理未見過的新物體、新指令和新環(huán)境,甚至完成訓練中未見過的新任務。
在綜合泛化基準測試中,Gemini Robotics的性能比其他最先進的VLA模型高出一倍以上。
例如,它能完成未訓練過的任務,如扣籃一個新籃球。-
其次是交互性:它能理解日常語言指令(包括不同語言),并快速響應環(huán)境或指令的變化。例如,當物體被移動時,它能迅速重新規(guī)劃行動路徑,無需額外輸入即可繼續(xù)任務。
然后還具有靈活性與靈巧性:通過多模態(tài)推理(結(jié)合視覺、語言和動作),機器人能精確操控物體,完成多步驟任務。支持執(zhí)行需要精細動作的復雜任務,如折疊紙鶴、將零食裝進拉鏈袋或輕柔放置眼鏡。
要知道,一開始,Google在大模型這波生成式AI浪潮中確實落后了。通過這兩年的蟄伏,Google還是證明了其技術(shù)儲備,完成了一場AI逆襲。
作者丨鯨哥
本文由人人都是產(chǎn)品經(jīng)理作者【AI鯨選社】,微信公眾號:【鯨選AI】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評論,等你發(fā)揮!