AI+圖像|Ideogram:可生成包含清晰文本的圖片,a16z 領投八千萬美金 A 輪
文生圖領域已經有不少產品出現(xiàn),而Ideogram這款產品,在解決了文本與圖像結合的問題之后,又很大程度上促進了個人的表達。一起來看看本文的分享。
圖片生成模型已經得到了廣泛應用,但這項技術仍然處在早期且存在很多不足。例如生成效果難以控制且很難將正確的文本添加到圖像中。一家由前谷歌員工組成的創(chuàng)業(yè)團隊 Ideogram 推出了其最新文字生成圖像模型,旨在讓用戶創(chuàng)建包含可以清晰閱讀文本,且更加清晰逼真的圖片。
Sense 思考:
我們嘗試基于文章內容,提出更多發(fā)散性的推演和深思,歡迎交流。
AI 推動了創(chuàng)造力的普及:“幫助我們將想象從頭腦中提取出來并顯示在屏幕上的工具終于來了。”通過 Ideogram 為代表的生成式 AI 技術,創(chuàng)造力的普及正在發(fā)生。這項技術使得沒有專業(yè)訓練的普通人也能創(chuàng)作出高質量的作品,從而重新定義“藝術家”和“創(chuàng)意者”的概念。
Ideogram 在圖像的真實感、細節(jié)處理及文本渲染方面取得的進步體現(xiàn)了 AI 技術發(fā)展的快速性。在解決了文本與圖像結合問題之后,可以極大促進個人表達和創(chuàng)意產業(yè)發(fā)展。
AI Native 產品分析——Ideogram
1. 創(chuàng)立時間:2023 年 8 月
2. 產品上線時間:2023 年 9 月推出,2024 年 2 月發(fā)布最新版本
3. 創(chuàng)始人:Mohammad Norouzi
- 來自伊朗,2015 年在多倫多大學獲計算機科學博士學位,到了谷歌機器學習博士獎學金的支持
- 前 Google Brain 高級研究科學家
4. 項目簡介:
文本生成圖像 AI 模型,提供了業(yè)內領先的文本渲染技術、前所未有的逼真效果和對常提示的精準響應
5.官網:https://ideogram.ai/
在人類的每一個文化、國家,或是歷史時期,創(chuàng)造性表達一直是人類不可或缺的一部分。這種內在的特質讓我們與其他生命形式顯著不同,被視為人類的獨特標志。然而,盡管創(chuàng)造力是我們固有的一部分,一個人被稱為“創(chuàng)意者”往往指的是他們在音樂、繪畫或雕塑等領域擁有天賦或專業(yè)技能。可惜的是,并非每個人都有時間或天分深入從事創(chuàng)意工作。
幸運的是,生成式 AI 正將創(chuàng)造力帶給所有人,想象與實現(xiàn)之間的距離從未如此接近。沒有什么能取代人類的想象力和創(chuàng)造力,但幫助我們從頭腦中提取出來并顯示在屏幕上的工具終于來了。
圖片生成模型已經存在一段時間且得到了廣泛應用,但這項技術仍然處在早期且存在很多不足。例如,圖像生成通常緩慢而難以控制,分辨率較差,并且很難將正確的文本添加到圖像中。因此有無數(shù)團隊在推進這一領域的進步。
近期,一家由前谷歌員工組成的創(chuàng)業(yè)團隊 Ideogram.ai 宣布推出其最新圖像生成模型,并獲得高額融資。
一、Ideogram,讓用戶創(chuàng)建包含可清晰閱讀文本的圖像
Ideogram 成立于 2023 年 8 月,總部位于多倫多,由幾位前谷歌員工創(chuàng)建,他們曾參與開發(fā)谷歌的 Imagen 圖像生成軟件和視頻生成模型。目前 Ideogram 專注于開發(fā)人工智能圖像生成技術,旨在解決 AI 生成圖像技術的一個棘手問題:讓用戶創(chuàng)建包含可以清晰閱讀文本的圖像。
2023 年 9 月,在其軟件公開發(fā)布時,當時流行的 AI 圖像生成產品如 Midjourney、OpenAI 的 DALL-E 2 和 Stability AI 的 Stable Diffusion 在嘗試生成包含文字的圖片時常常失敗,經常顯示無意義的內容。
(9 月份從同一提示中生成的 AI 圖像,“a photograph of an adorable kitten wearing a t-shirt with the words ‘ask me about my AI startup. ’”。從左上角順時針依次是:Ideogram、OpenAI 的 DALL-E 2、Stability AI 的 Stable Diffusion 和 Midjourney)
如今,隨著技術的迅猛發(fā)展,包括 OpenAI 最新的 DALL-E 3 模型在內的一些工具也開始能夠有效地處理圖像中的文字內容。但 Ideogram 的 CEO Norouzi 認為他們最新推出的 AI 模型在處理長篇復雜文本的圖像生成方面仍具有競爭優(yōu)勢。
二、Ideogram 最新模型,幫助用戶編寫詳細的提示
Ideogram 近期推出了他們最新的文本轉圖像模型 Ideogram 1.0,Ideogram 1.0 在正確顯示文本方面有了顯著提升,同時生成的圖像更加逼真以及對可以對復雜提示詞進行精確響應。同時 Ideogram 1.0 引入了一個名為“魔法提示”的新功能,這個功能可以根據(jù)用戶的原始描述,編寫更詳細的提示,進而創(chuàng)造創(chuàng)造出更美觀且具創(chuàng)意的圖像。
從 AI 生產圖像模型推出以來,AI 在圖像中生成的文本一直存在準確性問題。在圖像中正確添加文本一直是較為困難的。Ideogram 1.0 通過其文本渲染功能解決了這個問題,它不僅允許直接向圖像添加文本,而且文本與圖像融合度極高,風格匹配,使表達更加突出。這一改進使得用戶能夠輕松創(chuàng)作個性化信息、模因、海報、T 恤設計、生日卡片、商標等。
Ideogram 1.0 模型的另一個重大進步是圖像的真實感和細節(jié)。要使 AI 生成的圖像獲得廣泛采用,在專業(yè)設計到沉浸感方面都需要照片級的真實感。同時這一模型還擅長解釋復雜的提示,如下面的示例,生成的圖像準確地反映了其提示的每個細節(jié)。
( Prompt: two men in a study room. The man on the left stands, wearing a long coat, a patterned shirt, and holding a walking stick. He has an unkempt appearance with a beard. The man on the right is seated on a chair, dressed in a formal suit, and holding a cane. Behind them, there’s a framed portrait of a man on the wall. The room has a vintage feel, with ornate curtains and a carpeted floor.)
Ideogram 1.0 模型還包括“魔法提示”功能,這是一個創(chuàng)意輔助工具,能自動增強、延伸并轉換用戶提示,從而創(chuàng)造出更精細且具有創(chuàng)造性的圖像。如果提示詞是 GenAI 時代的畫筆,那么提示魔法就像是一個增強器,自動擴展并豐富它們的語義深度。
( Prompt: vegetables orbiting the sun
Magic Prompt: A captivating and whimsical illustration of various vegetables in orbit around a bright, golden sun. The vegetables, each with their own distinct personality, are comically suspended by invisible strings, creating a sense of weightlessness. A mix of classic vegetables like carrots, potatoes, and tomatoes, as well as more exotic ones like artichokes and eggplants, fill the celestial scene. The background stars twinkle in the vast universe, adding to the fantastical, cosmic atmosphere.)
Ideogram 表示,參與測試的評估者對于 Ideogram 1.0 在提示對齊、圖像連貫性、整體偏好和文本渲染質量方面的偏好超越了 DALL·E 3 和 Midjourney V6。
三、Ideogram 獲八千萬美金融資
Ideogram 種子輪就獲得了包括 a16z 在內的多家頂尖風投與 AI 領域行業(yè)專家的投資,2024 年 2 月底,Ideogram 完成了八千萬美金的 A 輪融資,暫未透露公司估值。其 A 輪融資由 Andreessen Horowitz 領投,Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel 等參投。A16Z 的普通合伙人 Martin Casado 將加入 Ideogram 的董事會。
Ideogram 此次融資將用于招聘和滿足計算需求。由于訓練和運行前沿 AI 模型成本高昂,硅谷近來對 AI 的投資熱潮持續(xù)升溫。
Norouzi 表示,這輪資金將支持公司以數(shù)據(jù)為驅動,分析并優(yōu)化其 AI 圖像創(chuàng)建應用。目前 Ideogram 已開始提供付費訂閱服務,包括更快的圖像生成和訪問編輯工具,但用戶仍然可以繼續(xù)免費試用該產品。
參考材料:
https://www.bloomberg.com/news/articles/2024-02-28/startup-ideogram-raises-80-million-for-ai-image-generation?embedded-checkout=true
https://a16z.com/announcement/investing-in-ideogram/
https://about.ideogram.ai/1.0
編譯:Wes;編輯:Vela
來源公眾號:深思SenseAI;關注全球 AI 前沿,走進科技創(chuàng)業(yè)公司,提供產業(yè)多維深思。
本文由人人都是產品經理合作媒體 @深思SenseAI 授權發(fā)布,未經許可,禁止轉載。
題圖來自 Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務。
- 目前還沒評論,等你發(fā)揮!