欧美黄色网站一区，国产又粗又猛又爽又黄的频视，人妻五月天婷婷，国产亚洲av秘无码一区久久，无码福利片在线播放，97一区二区在线播放，国产精品久久综合久久，色花堂无码影片在线观看

搜索

APP

起點(diǎn)課堂會(huì)員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會(huì)特權(quán)

個(gè)人IP打造特權(quán)

30+門(mén)專項(xiàng)技能課

1300+專題課程

12場(chǎng)職場(chǎng)軟技能直播

12場(chǎng)求職輔導(dǎo)直播

12場(chǎng)專業(yè)技能直播

會(huì)員專屬社群

榮耀標(biāo)識(shí)

發(fā)布

注冊(cè) | 登錄

Sora“滿月”了，但不止一個(gè)AI在新生

甲子光年

2024-03-18

0 評(píng)論 1628 瀏覽 0 收藏

39 分鐘

距離Sora發(fā)布，已經(jīng)過(guò)去了一個(gè)月左右的時(shí)間，而在這一個(gè)月里，與AI相關(guān)的動(dòng)態(tài)和事件十分密集。這篇文章里，作者將這一個(gè)月來(lái)發(fā)生的重要事件按照AI算力、AI模型、AI應(yīng)用、AI融資這四個(gè)維度做了劃分，一起來(lái)看一下。

前幾天，距離Sora發(fā)布剛好一個(gè)月。這一個(gè)月時(shí)間可能是科技史上最密集的AI動(dòng)態(tài)發(fā)布月。

在AI算力層，英偉達(dá)獨(dú)孤求敗，市值突破了2.2萬(wàn)億美元，一躍成為全球市值第三大科技公司，僅次于微軟與蘋(píng)果。

但仍然有源源不斷的挑戰(zhàn)者出現(xiàn)，Groq、Cerebras都在近期發(fā)布了最新的AI芯片。他們會(huì)對(duì)英偉達(dá)構(gòu)成威脅嗎？

在AI生成視頻領(lǐng)域，Sora開(kāi)啟了AI視頻的“Midjourney時(shí)刻”，多模態(tài)模型元年開(kāi)啟，比人們預(yù)期的時(shí)刻提前了至少半年。

在大語(yǔ)言模型層，除了OpenAI沒(méi)有發(fā)布大的產(chǎn)品更新之外，它的一眾競(jìng)爭(zhēng)對(duì)手，從大廠的谷歌、蘋(píng)果，到AI獨(dú)角獸Anthropic、Mistral、Inflection，都發(fā)布了最新代的大模型。

在AI應(yīng)用層，人們期待的AI原生“super app”似乎還沒(méi)有出現(xiàn)。A16z近期剛剛公布AI應(yīng)用Top 100，ChatGPT仍然牢牢占據(jù)首位。

而且，A16z發(fā)現(xiàn)，與2023年9月發(fā)布的報(bào)告相比，榜單上超過(guò)40%的公司都是新公司。

具身智能是過(guò)去一個(gè)月最熱門(mén)的AI落地方向，英偉達(dá)成立了具身智能實(shí)驗(yàn)室，并且投資了Figure AI。Figure AI的首款人形機(jī)器人產(chǎn)品，在演示Demo中已經(jīng)可以實(shí)現(xiàn)端到端的自然語(yǔ)言交互。

今天也剛好是GPT-4發(fā)布一周年。但與去年GPT-4發(fā)布所帶來(lái)的一整年的熱度相比，人們對(duì)Sora的熱情似乎消退的更快。

一方面是因?yàn)镾ora沒(méi)有公測(cè)，一切討論都僅限于官方的幾十個(gè)視頻與沒(méi)有技術(shù)細(xì)節(jié)的技術(shù)報(bào)告，另一方面是因?yàn)榇蠹覍?duì)于AI沖擊的感受閾值在變高，變得更加理性。

大模型改變了很多，但目前為止沒(méi)有改變的更多。對(duì)待大模型的態(tài)度，人們也被分成了技術(shù)信仰派與市場(chǎng)信仰派。

沒(méi)有人能準(zhǔn)確預(yù)測(cè)行業(yè)的變化，但通過(guò)記錄與了解行業(yè)正在發(fā)生的信息，可以幫助我們更好地做出判斷。

以下是「甲子光年」匯總的Sora發(fā)布一個(gè)月以來(lái)發(fā)生的重要AI事件。

一、AI算力

1. Lambda完成3.2億美元C輪融資

2月16日，人工智能云服務(wù)提供商Lambda獲得了3.2億美元的C輪融資，用于構(gòu)建基于GPU的服務(wù)，提供由數(shù)千個(gè)英偉達(dá)加速器組成的人工智能訓(xùn)練集群。

該輪融資由多家風(fēng)險(xiǎn)投資基金領(lǐng)投，包括B Capital、SK Telecom、T. Rowe Price Associates, Inc.，以及現(xiàn)有投資者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等。

Lambda正準(zhǔn)備部署“數(shù)以萬(wàn)計(jì)”的英偉達(dá)GPU，包括目前最頂級(jí)的H100 Hopper加速器以及英偉達(dá)即將推出的G200 GPU加速器，后者的性能將是H100的兩倍。Lambda還希望部署英偉達(dá)的混合GH200 CPU/GPU超級(jí)芯片。

2. 英偉達(dá)首次公開(kāi)目前最快AI超算：搭載4608個(gè)H100GPU

2月18日，英偉達(dá)首次向外界公布了其最新的面向企業(yè)的AI超級(jí)計(jì)算機(jī)Eos，同時(shí)也是英偉達(dá)目前速度最快的AI超級(jí)計(jì)算機(jī)。

Eos共配備了4608個(gè)英偉達(dá)H100 GPU，同時(shí)還配備了1152個(gè)英特爾Xeon Platinum 8480C處理器（每個(gè)CPU有56個(gè)內(nèi)核）。Eos還采用了英偉達(dá)Mellanox Quantum-2 InfiniBand技術(shù)，數(shù)據(jù)傳輸速度高達(dá)400 Gb/s，對(duì)訓(xùn)練大型AI模型和系統(tǒng)擴(kuò)展至關(guān)重要。

英偉達(dá)公布數(shù)據(jù)顯示，在最新的全球Top500超級(jí)計(jì)算機(jī)當(dāng)中，Eos位居全球第九，其峰值性能更是達(dá)到了188.65 Peta FLOPS。

3. 三星電子在硅谷成立新團(tuán)隊(duì)，開(kāi)發(fā)通用人工智能芯片

2月20日消息，知情人士透露，三星電子已在硅谷成立新團(tuán)隊(duì)，開(kāi)發(fā)通用人工智能芯片。據(jù)悉，谷歌前開(kāi)發(fā)人員Woo Dong-hyuk將領(lǐng)導(dǎo)該團(tuán)隊(duì)。

4. Groq發(fā)布LPU，推理速度較英偉達(dá)GPU提高十倍

2月23日，Groq推出了一款全新的AI芯片LPU，宣稱做到了“地表最強(qiáng)推理”——在Groq上運(yùn)行大模型的推理速度，較英偉達(dá)GPU提高10倍，而成本只有其十分之一。

Groq的芯片采用成熟的14nm制程，搭載了230MB的SRAM來(lái)保證內(nèi)存帶寬，片上內(nèi)存帶寬達(dá)到了80TB/s。在算力層面，Gorq芯片的整型（8位）運(yùn)算速度為750TOPs，浮點(diǎn)（16位）運(yùn)算速度則為188TFLOPs。

Groq成立于2016年，由前谷歌員工Jonathan Ross創(chuàng)立。他曾發(fā)明了驅(qū)動(dòng)谷歌機(jī)器學(xué)習(xí)軟件的張量處理單元（TPU），這兩項(xiàng)技術(shù)當(dāng)時(shí)為AlphaGo提供了重要的技術(shù)支撐。

5. 字節(jié)跳動(dòng)發(fā)布萬(wàn)卡集群系統(tǒng)MegaScale論文

2月23日，字節(jié)跳動(dòng)發(fā)布萬(wàn)卡集群論文，展示了構(gòu)建和部署 MegaScale 的設(shè)計(jì)、實(shí)施和工程經(jīng)驗(yàn)，這是一個(gè)用于訓(xùn)練超過(guò)1萬(wàn)個(gè)GPU規(guī)模的大型語(yǔ)言模型生產(chǎn)系統(tǒng)。

在12288個(gè)GPU上訓(xùn)練175B LLM模型時(shí)，MegaScale實(shí)現(xiàn)了55.2%的模型FLOP利用率 (MFU)，與Megatron-LM相比，MFU提高了1.34倍。

6. 中國(guó)為人工智能初創(chuàng)企業(yè)提供14萬(wàn)至28萬(wàn)美元的“算力券”

為了支持蓬勃發(fā)展的人工智能行業(yè)，中國(guó)向初創(chuàng)企業(yè)提供“算力券”，來(lái)降低企業(yè)數(shù)據(jù)中心運(yùn)營(yíng)相關(guān)的成本。至少有17個(gè)中國(guó)城市政府承諾提供這些補(bǔ)貼，代金券價(jià)值從14萬(wàn)美元到28萬(wàn)美元不等。

7. Meta 推出2個(gè)24K GPU集群

3月13日，Meta披露了有關(guān)萬(wàn)卡集群的硬件、網(wǎng)絡(luò)、存儲(chǔ)、設(shè)計(jì)、性能和軟件的詳細(xì)信息，并聲稱到2024年底將完成350000個(gè)英偉達(dá)H100 GPU集群的構(gòu)建。屆時(shí)，其整個(gè)資源池計(jì)算能力將相當(dāng)于近600000個(gè)H100。

8. Cerebras發(fā)布了世界上最快的芯片，擁有4萬(wàn)億個(gè)晶體管

3月14日，Cerebras發(fā)布了大尺寸芯片WSE-3，包含4萬(wàn)億個(gè)晶體管，在相同的功耗和價(jià)格下，WSE-3的性能是之前記錄保持者WSE-2的兩倍。

相比H100 GPU ，WSE-3大了57倍，內(nèi)核數(shù)量增加了52倍，芯片內(nèi)存增加了800倍，內(nèi)存帶寬增加了7000倍，結(jié)構(gòu)帶寬增加了3700倍以上。這些都是芯片實(shí)現(xiàn)高性能的基礎(chǔ)。

WSE-3是專為訓(xùn)練業(yè)界最大的AI模型而打造的，基于5納米制程、將為Cerebras CS-3人工智能超級(jí)計(jì)算機(jī)提供動(dòng)力，通過(guò)90萬(wàn)個(gè)人工智能優(yōu)化的計(jì)算核心，提供每秒125 petaflops峰值A(chǔ)I性能（1 petaflops是指每秒1萬(wàn)億次浮點(diǎn)運(yùn)算）。

二、AI模型

1. 大語(yǔ)言模型

谷歌發(fā)布多模態(tài)模型Gemini 1.5 Pro，支持100萬(wàn)token上下文

2月16日，谷歌發(fā)布多模態(tài)大模型Gemini 1.5 Pro，建立在谷歌Transformer和MoE架構(gòu)的領(lǐng)先研究之上。

通過(guò)一系列機(jī)器學(xué)習(xí)創(chuàng)新，谷歌增加了Gemini 1.5 Pro的上下文窗口容量，并實(shí)現(xiàn)在生產(chǎn)中運(yùn)行高達(dá)100萬(wàn)個(gè)Token，遠(yuǎn)超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。

Gemini 1.5 Pro可以一次性處理大量信息——包括1小時(shí)的視頻、11小時(shí)的音頻、超過(guò)30000行代碼的代碼庫(kù)或超過(guò)700000個(gè)單詞。

谷歌發(fā)布開(kāi)源大模型Gemma

2月22日，谷歌推出了“開(kāi)源”大模型Gemma。Gemma采用了與Gemini相同的技術(shù)，由谷歌DeepMind與谷歌其他團(tuán)隊(duì)共同合作開(kāi)發(fā)，在拉丁文中意為 “寶石”。

Gemma包括兩種權(quán)重規(guī)模的模型：Gemma 2B 與Gemma 7B，每種規(guī)模都有預(yù)訓(xùn)練與指令微調(diào)版本。同時(shí)，谷歌還推出了一系列工具，旨在支持開(kāi)發(fā)者創(chuàng)新，促進(jìn)合作，并指導(dǎo)如何負(fù)責(zé)任地使用Gemma模型。

Mistral獲微軟投資，發(fā)布旗艦?zāi)Ｐ蚆istral Large

2月27日，Mistral AI發(fā)布Mistral Large旗艦?zāi)Ｐ?，并且推出?duì)標(biāo)ChatGPT的對(duì)話產(chǎn)品：Le Chat。

Mistral Large達(dá)到了頂級(jí)的推理能力。它可以用于復(fù)雜的多語(yǔ)言推理任務(wù)，包括文本理解、轉(zhuǎn)換和代碼生成。

據(jù)Mistral AI CEO Arthur Mensch透露，開(kāi)發(fā)這款新模型的成本不到2000萬(wàn)歐元（約合2200萬(wàn)美元）。

同時(shí)，微軟宣布與Mistral AI達(dá)成深度合作，并對(duì)其進(jìn)行了投資。未來(lái)，Mistral AI直接將模型資源放在微軟云當(dāng)中售賣(mài)，成為OpenAI之后第二家在微軟Azure云平臺(tái)上提供商業(yè)AI模型的公司。

Anthropic發(fā)布Claude 3模型，全面超越GPT-4

3月4日，Anthropic推出了最新的Claude 3大模型。

Claude 3模型家族包括三種最先進(jìn)的型號(hào)：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet和Opus分別指“俳句、十四行詩(shī)、音樂(lè)藝術(shù)大作”。

Opus和Sonnet現(xiàn)已可在claude.ai中使用，而 Claude API現(xiàn)已在159個(gè)國(guó)家/地區(qū)廣泛使用。Haiku在3月15日正式推出。

Anthropic由OpenAI前高管創(chuàng)立，投資者包括谷歌、Salesforce、亞馬遜、高通等科技巨頭，估值超過(guò)150億美元。

零一萬(wàn)物發(fā)布并開(kāi)源 Yi-9B，代碼數(shù)學(xué)綜合能力全面增強(qiáng)

3月6日，零一萬(wàn)物開(kāi)源了Yi-9B模型，是目前 Yi 系列模型中代碼和數(shù)學(xué)能力最強(qiáng)的模型。

Yi-9B的實(shí)際參數(shù)為8.8B，與Yi系列其他模型一樣，默認(rèn)上下文長(zhǎng)度是4K tokens。Yi-9B是在 Yi-6B （使用了3.1T tokens訓(xùn)練）的基礎(chǔ)上，使用了0.8T tokens進(jìn)行繼續(xù)訓(xùn)練，使用截止至2023年6月的數(shù)據(jù)。

Inflection.ai發(fā)布 Inflection-2.5，升級(jí)對(duì)話模型Pi

3月7日，Inflection.ai推出Inflection-2.5，這是升級(jí)后的內(nèi)部模型，它將原始能力與標(biāo)志性個(gè)性和獨(dú)特的同理心微調(diào)結(jié)合在一起。Inflection-2.5現(xiàn)已向所有Pi用戶開(kāi)放，可通過(guò)網(wǎng)頁(yè)、iOS、Android或桌面應(yīng)用程序使用。

Inflection-2.5接近GPT-4的性能，但僅使用了40%的計(jì)算量用于訓(xùn)練。每天有100萬(wàn)活躍用戶和每月600萬(wàn)活躍用戶與Pi交換了超過(guò)40億條消息。

Inflection.ai的大模型通過(guò)微軟Azure、CoreWeave上對(duì)用戶提供服務(wù)。

馬斯克宣布xAI本周開(kāi)源Grok

馬斯克在去年成立了大模型公司xAI，并與去年11月發(fā)布AI聊天機(jī)器人Grok。

Grok基于Grok-1大模型，開(kāi)發(fā)大約花了四個(gè)月的時(shí)間（包括2個(gè)月的訓(xùn)練），上下文長(zhǎng)度為8192，訓(xùn)練數(shù)據(jù)截至2023年第三季度。Grok可以提供生成文本、代碼、郵件、信息檢索等功能。Grok對(duì)所有X Premium+訂閱用戶開(kāi)放，每月費(fèi)用為16美元。

3月11日，馬斯克宣布本周開(kāi)源Grok。在這一帖子下面，有網(wǎng)友回復(fù)“OpenAI也應(yīng)該這么做”。馬斯克則回復(fù)該評(píng)論稱：“OpenAI是個(gè)謊言?！?/p>

蘋(píng)果發(fā)布300億參數(shù)大語(yǔ)言模型MM1

3月14日，蘋(píng)果發(fā)布了一個(gè)300億參數(shù)的多模態(tài)大模型MM1。

通過(guò)細(xì)致的消融研究，作者們發(fā)現(xiàn)，對(duì)于大規(guī)模多模態(tài)預(yù)訓(xùn)練，混合使用圖像標(biāo)題、交錯(cuò)的圖像-文本數(shù)據(jù)和純文本數(shù)據(jù)對(duì)于在多個(gè)基準(zhǔn)測(cè)試中實(shí)現(xiàn)最先進(jìn)的少次學(xué)習(xí)結(jié)果至關(guān)重要。此外，圖像編碼器、圖像分辨率和圖像標(biāo)記數(shù)量對(duì)性能有顯著影響，而視覺(jué)-語(yǔ)言連接器的設(shè)計(jì)相對(duì)不那么重要。

研究結(jié)果表明，通過(guò)擴(kuò)大模型規(guī)模，構(gòu)建的MM1模型系列在預(yù)訓(xùn)練指標(biāo)上達(dá)到了最先進(jìn)的水平，并在一系列多模態(tài)基準(zhǔn)測(cè)試中的監(jiān)督微調(diào)后取得了有競(jìng)爭(zhēng)力的性能。大規(guī)模預(yù)訓(xùn)練使得MM1具備了上下文學(xué)習(xí)、多圖像推理等吸引人的特性，能夠進(jìn)行少次鏈?zhǔn)剿季S提示。

2. 多模態(tài)模型

Meta發(fā)布非生成路線視頻模型V-JEPA

2月15日，Meta公開(kāi)發(fā)布視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu) (V-JEPA) 模型。Meta的副總裁兼首席人工智能科學(xué)家Yann LeCun表示：“V-JEPA 是朝著更深入地理解世界邁出的一步，因此機(jī)器可以實(shí)現(xiàn)更通用的推理和規(guī)劃。”

他于2022年提出了最初的聯(lián)合嵌入預(yù)測(cè)架構(gòu) (JEPA)。 “我們的目標(biāo)是建立先進(jìn)的機(jī)器智能，它可以像人類一樣學(xué)習(xí)，形成周?chē)澜绲膬?nèi)部模型，以便有效地學(xué)習(xí)、適應(yīng)和制定計(jì)劃，以完成復(fù)雜的任務(wù)?！?/p>

Stability AI發(fā)布Stable Diffusion 3，與Sora同源技術(shù)

2月22日，Stability AI在早期預(yù)覽版中發(fā)布了 Stable Diffusion 3，這是Stability AI最強(qiáng)大的文本到圖像模型，在多主題提示、圖像質(zhì)量和拼寫(xiě)能力方面的性能得到了極大提高。Stable Diffusion 3模型套件目前的參數(shù)范圍為800M 到8B。

3月5日，Stability AI公布了Stable Diffusion 3的技術(shù)論文，采用了一種新的多模態(tài)DiT（MMDiT，Multimodal Diffusion Transformer）模型架構(gòu)，對(duì)圖像與語(yǔ)言表示使用單獨(dú)的權(quán)重集。

谷歌Gemini文生圖功能緊急關(guān)閉

2月22日，谷歌宣布將暫停Gemini的人物圖像生成，努力解決與Gemini圖像生成功能相關(guān)的最新問(wèn)題；將很快重新發(fā)布改進(jìn)版本。

此前，Gemini在圖片中生成了各種性別、種族的人群，即使生成的結(jié)果與史實(shí)不符，例如以“美國(guó)開(kāi)國(guó)元?jiǎng)兹A盛頓”為主題的圖片中，出現(xiàn)了婦女和有色人種。

3月2日，50歲的谷歌聯(lián)合創(chuàng)始人謝爾蓋·布林在加州的“AGI之家”與企業(yè)家們進(jìn)行了交談，談及此事時(shí)評(píng)價(jià)道：“我們?cè)趫D像生成方面搞砸得很徹底，我認(rèn)為這主要由于沒(méi)有進(jìn)行徹底的測(cè)試。出發(fā)點(diǎn)是好的，但結(jié)果卻讓很多人感到沮喪?！?/p>

谷歌發(fā)布基礎(chǔ)世界模型Genie

2月27日，谷歌發(fā)布了生成式AI的全新范式——生成式交互環(huán)境（Genie，Generative Interactive Environments）。

Genie是一個(gè)110億參數(shù)的基礎(chǔ)世界模型，可以通過(guò)單張圖像提示生成可玩的交互式環(huán)境。GenieAI是一個(gè)利用互聯(lián)網(wǎng)視頻訓(xùn)練的基礎(chǔ)世界模型，可以從合成圖像、照片甚至素描中生成無(wú)限多的可玩（可控制動(dòng)作的）世界。它的使用范圍廣泛，可以用于從圖像或文本生成整個(gè)互動(dòng)世界，是訓(xùn)練未來(lái)通用AI代理的有利工具。

螞蟻集團(tuán)推出百靈大模型

2月28日，螞蟻集團(tuán)推出20億參數(shù)多模態(tài)遙感基礎(chǔ)模型SkySense，其論文已被世界計(jì)算機(jī)視覺(jué)頂會(huì)CVPR 2024接收。

數(shù)據(jù)顯示，SkySense在17項(xiàng)測(cè)試場(chǎng)景中指標(biāo)均超過(guò)國(guó)際同類產(chǎn)品，這也是迄今為止國(guó)際上參數(shù)規(guī)模最大、覆蓋任務(wù)最全、識(shí)別精度最高的多模態(tài)遙感基礎(chǔ)模型。SkySense可用于地貌、農(nóng)作物觀測(cè)和解譯等，有效輔助農(nóng)業(yè)生產(chǎn)和經(jīng)營(yíng)。

潞晨科技復(fù)現(xiàn)Sora并開(kāi)源

3月4日，國(guó)內(nèi)著名開(kāi)源團(tuán)隊(duì)Colossal-AI（潞晨科技旗下）根據(jù)Sora技術(shù)報(bào)告、VideoGPT、擴(kuò)散Transformers等資料，復(fù)現(xiàn)了Sora模型架構(gòu)方案并將其開(kāi)源——Open-Sora。

值得一提的是，Colossal-AI還將復(fù)現(xiàn)成本降低了46%，同時(shí)將模型訓(xùn)練輸入序列長(zhǎng)度擴(kuò)充至819K patches。目前，Open-Sora在Github超過(guò)1200顆星。

Midjourney封禁StabilityAI：惡意爬取數(shù)據(jù)，致服務(wù)器癱瘓24小時(shí)

3月7日，Midjourney封禁Stability AI引發(fā)了一場(chǎng)關(guān)于數(shù)據(jù)安全和道德責(zé)任的爭(zhēng)議。事件起因于Stability AI的數(shù)據(jù)收集工程師對(duì)Midjourney服務(wù)器發(fā)起了惡意攻擊，導(dǎo)致其服務(wù)中斷24小時(shí)。盡管Stability AI CEO Emad聲稱公司并未授權(quán)此行為，但Midjourney決定暫時(shí)封禁其員工使用其軟件。

華為諾亞發(fā)布0.6B文生圖模型PixArt-Σ，可直出4K圖像

3月10日，華為諾亞方舟實(shí)驗(yàn)室聯(lián)合多個(gè)研究機(jī)構(gòu)共同開(kāi)發(fā)的項(xiàng)目，推出了一款名為PixArt-Σ的擴(kuò)散變換器模型（DiT）。

PixArt-Σ 的進(jìn)步有兩個(gè)方面。一是高質(zhì)量訓(xùn)練數(shù)據(jù)，引入了更高質(zhì)量的圖像數(shù)據(jù)，配合更精確和詳細(xì)的圖像標(biāo)題；二是高效的token壓縮：在DiT框架內(nèi)提出了一個(gè)新的注意力模塊，能夠壓縮鍵和值，顯著提高效率，從而支持超高分辨率圖像的生成。

這些改進(jìn)使得PixArt-Σ在模型大小（0.6B參數(shù)）上遠(yuǎn)小于現(xiàn)有的文本到圖像擴(kuò)散模型，如SDXL（2.6B參數(shù)）和SD Cascade（5.1B參數(shù)），同時(shí)在圖像質(zhì)量和用戶提示遵循能力上都有了顯著提升。此外，PixArt-Σ生成4K圖像的能力，為電影和游戲等行業(yè)的高質(zhì)量視覺(jué)內(nèi)容制作提供了強(qiáng)大支持。

Pika推出自動(dòng)生成音效功能Sound Effects

3月11日，Pika 發(fā)布了全新的功能Sound Effects，實(shí)現(xiàn)了視頻和音效的無(wú)縫生成。用戶可以通過(guò)簡(jiǎn)單的操作，通過(guò)描述prompt或讓 AI 自動(dòng)生成音效，為視頻增添更多氛圍。

Sound Effects的操作十分簡(jiǎn)單，用戶只需一個(gè) prompt或簡(jiǎn)單的描述就能生成音效，使視頻更加生動(dòng)。通過(guò)選擇不同的音效，用戶可以為視頻增添各種聲音，從車(chē)?guó)Q聲到煙花聲，音效都與視頻畫(huà)面高度匹配。此外，用戶還可以在生成視頻后，針對(duì)單個(gè)視頻添加音效，提升視頻質(zhì)量和趣味性。

Midjourney發(fā)布角色一致性新功能

3月12日，Midjourney推出了一項(xiàng)新功能，使得在生成多張圖片時(shí)，能夠保持同一人物的一致性。通過(guò)使用“-cref”（角色參考）標(biāo)簽，可以保留輸入圖片中的角色特征，使得在不同場(chǎng)景中的臉部特征、體型和服裝保持一致。

此外，Midjourney還提供了“-cw”標(biāo)簽，用戶可以通過(guò)這個(gè)標(biāo)簽來(lái)調(diào)整與指定圖片的相似程度，從而微調(diào)角色的樣貌。

騰訊聯(lián)合清華、港科大推出圖生視頻大模型“Follow Your Click”

3月15日，騰訊和清華大學(xué)、香港科技大學(xué)聯(lián)合推出全新圖生視頻模型“Follow-Your-Click“，基于輸入模型的圖片，只需點(diǎn)擊對(duì)應(yīng)區(qū)域，加上少量提示詞，就可以讓圖片中原本靜態(tài)的區(qū)域動(dòng)起來(lái)，一鍵轉(zhuǎn)換成視頻。

據(jù)了解，本聯(lián)合項(xiàng)目組中的騰訊混元大模型團(tuán)隊(duì)，正在持續(xù)研究和探索多模態(tài)技術(shù)，擁有行業(yè)領(lǐng)先的視頻生成能力。此前，騰訊混元大模型作為技術(shù)合作伙伴，支持《人民日?qǐng)?bào)》打造原創(chuàng)視頻《江山如此多嬌》，生成中國(guó)大美河山的精美視頻片段，展示出了較強(qiáng)的內(nèi)容理解、邏輯推理和畫(huà)面生成能力。

3. 生物模型

前Google DeepMind科學(xué)家聯(lián)手創(chuàng)建Biooptimus，構(gòu)建首個(gè)通用生物學(xué)大模型

2月20日，總部位于巴黎的Biooptimus在獲得3500萬(wàn)美元的種子輪融資，其使命是建立第一個(gè)用于生物學(xué)的通用人工智能基礎(chǔ)模型。這一新的開(kāi)放科學(xué)模型將把不同規(guī)模的生物學(xué)與生成人工智能連接起來(lái)——從分子到細(xì)胞、組織和整個(gè)生物體。

Bioptimus聯(lián)合了一個(gè)由Google DeepMind alumni和Owkin科學(xué)家組成的團(tuán)隊(duì)，其中AI生物技術(shù)初創(chuàng)公司Owkin本身就是一家法國(guó)獨(dú)角獸，他們將利用AWS計(jì)算和Owkin的數(shù)據(jù)生成功能，并訪問(wèn)來(lái)自全球領(lǐng)先學(xué)術(shù)醫(yī)院的多模態(tài)患者數(shù)據(jù)。

三、AI應(yīng)用

1. 具身智能

英偉達(dá)成立具身智能實(shí)驗(yàn)室GEAR

2月24日，英偉達(dá)宣布成立通用具身智能體研究實(shí)驗(yàn)室GEAR，標(biāo)志著英偉達(dá)正式入局具身智能領(lǐng)域的研究，加速人工智能具身化進(jìn)程。

機(jī)英偉達(dá)GEAR實(shí)驗(yàn)室的聯(lián)合創(chuàng)始人Jim Fan博士在X平臺(tái)上表示：“我們相信，在未來(lái)，每一臺(tái)移動(dòng)的機(jī)器都將是自主的，機(jī)器人和模擬智能體將像iPhone一樣無(wú)處不在。我們正在構(gòu)建基礎(chǔ)智能體：一個(gè)具有通用能力的AI，可以在許多虛擬和現(xiàn)實(shí)的世界中學(xué)習(xí)如何熟練地行動(dòng)。2024年將是屬于機(jī)器人、游戲AI和模擬的一年。”

Jim Fan還補(bǔ)充道：“我們有足夠的資金一次性解決機(jī)器人基礎(chǔ)模型、游戲基礎(chǔ)模型和生成式模擬。我們團(tuán)隊(duì)可能是全球最有錢(qián)的具身智能實(shí)驗(yàn)室。”

特斯拉人形機(jī)器人更新，步態(tài)達(dá)到最快

2月25日，特斯拉人形機(jī)器人Optimus發(fā)布更新，達(dá)到了有史以來(lái)最快的步態(tài)，速度約為 0.6m/s，比去年12月速度提升了30%以上。

Optimus改善了前庭系統(tǒng)、足部軌跡和地面接觸邏輯，升級(jí)了運(yùn)動(dòng)規(guī)劃器，并減少了機(jī)器人的循環(huán)延遲。Optimus整體上更加穩(wěn)定、更加自信——即使在轉(zhuǎn)彎時(shí)也是如此。此外，還添加了輕微的軀干和手臂擺動(dòng)。

Figure AI宣布獲得6.75億美元融資，估值達(dá)到26億美元

2月29日，具身智能公司Figure宣布獲得6.75億美元融資，估值達(dá)到26億美元。投資方包括微軟、OpenAI創(chuàng)業(yè)基金、英偉達(dá)、杰夫·貝索斯（通過(guò)Bezos Expeditions）、Parkway Venture Capital、英特爾、Align Ventures。

Figure AI還與OpenAI簽署了合作協(xié)議，為人形機(jī)器人開(kāi)發(fā)下一代人工智能模型。Figure將利用Microsoft Azure進(jìn)行人工智能基礎(chǔ)設(shè)施、培訓(xùn)和存儲(chǔ)。

3月13日，F(xiàn)igure AI的第一款產(chǎn)品Figure 01發(fā)布Demo視頻，能夠?qū)崿F(xiàn)端到端的機(jī)器人指令操作。其中，OpenAI模型提供高級(jí)視覺(jué)和語(yǔ)言智能，圖形神經(jīng)網(wǎng)絡(luò)提供快速、低級(jí)、靈巧的機(jī)器人動(dòng)作。

伯克利團(tuán)隊(duì)發(fā)布具身智能論文，用訓(xùn)練GPT的方法訓(xùn)練人形機(jī)器人

3月3日，伯克利團(tuán)隊(duì)發(fā)布論文，名為《Humanoid Locomotion as Next Token Prediction》，論文的核心思想，就是把OpenAI訓(xùn)練ChatGPT時(shí)所用到的“預(yù)測(cè)下一個(gè)token”的思路，用在人形機(jī)器人的運(yùn)動(dòng)控制中。

該模型是一個(gè)通過(guò)自回歸預(yù)測(cè)訓(xùn)練的causal transformer（因果轉(zhuǎn)換器）。

該模型即使只在27小時(shí)的行走數(shù)據(jù)上訓(xùn)練，也能轉(zhuǎn)移到現(xiàn)實(shí)世界，并且能夠泛化到訓(xùn)練期間未見(jiàn)過(guò)的命令，比如向后行走。這些發(fā)現(xiàn)為通過(guò)生成模型學(xué)習(xí)具有挑戰(zhàn)性的現(xiàn)實(shí)世界控制任務(wù)提供了一個(gè)有希望的路徑。

谷歌發(fā)布具身智能機(jī)器人RT-H

3月4日，谷歌DeepMind團(tuán)隊(duì)發(fā)布論文，發(fā)布了最新版的 RT 機(jī)器人——RT-H，它能通過(guò)將復(fù)雜任務(wù)分解成簡(jiǎn)單的語(yǔ)言指令，再將這些指令轉(zhuǎn)化為機(jī)器人行動(dòng)，來(lái)提高任務(wù)執(zhí)行的準(zhǔn)確性和學(xué)習(xí)效率。

舉例來(lái)說(shuō)，給定一項(xiàng)任務(wù)，如「蓋上開(kāi)心果罐的蓋子」和場(chǎng)景圖像，RT-H會(huì)利用視覺(jué)語(yǔ)言模型（VLM）預(yù)測(cè)語(yǔ)言動(dòng)作（motion），如「向前移動(dòng)手臂」和「向右旋轉(zhuǎn)手臂」，然后根據(jù)這些語(yǔ)言動(dòng)作，預(yù)測(cè)機(jī)器人的行動(dòng)（action）。

這個(gè)行動(dòng)層級(jí)（action hierarchy）對(duì)于提高機(jī)器人完成任務(wù)的準(zhǔn)確性和學(xué)習(xí)效率非常有幫助，使得RT-H在一系列機(jī)器人任務(wù)中的表現(xiàn)都優(yōu)于RT-2。

2. AI+應(yīng)用

Perplexity接近敲定新融資，估值或翻番至10億美元

3月5日消息，知情人士透露，旨在挑戰(zhàn)谷歌網(wǎng)絡(luò)搜索主導(dǎo)地位的AI初創(chuàng)公司Perplexity即將敲定一筆新的融資交易，公司估值有望達(dá)到近10億美元，較幾個(gè)月前的最新融資估值大約翻番。

Perplexity利用先進(jìn)的AI模型為搜索查詢提供直接答案，而不是提供網(wǎng)站鏈接列表，這也是谷歌正在研究的。知情人士稱，Perplexity最近的年收入超過(guò)1000萬(wàn)美元。根據(jù)數(shù)據(jù)服務(wù)公司Similarweb的初步估計(jì)，該公司移動(dòng)和桌面應(yīng)用程序的訪問(wèn)量在2月增長(zhǎng)8.6%，達(dá)到約5000萬(wàn)用戶。

兩個(gè)月前，Perplexity剛剛宣布已籌集到7400萬(wàn)美元資金，得到亞馬遜前CEO貝索斯和風(fēng)險(xiǎn)投資公司Institutional Venture Partners的支持。這筆交易對(duì)這家初創(chuàng)公司的估值為5.2億美元。

華人團(tuán)隊(duì)打造第一個(gè)AI軟件工程師Devin

3月13日，Cognition AI在X上推出了全球首個(gè)AI軟件工程師Devin。

Devin是一個(gè)自主代理（Autonomous Agent），掌握全棧技能，能自主學(xué)習(xí)不熟悉的技術(shù)，端到端地構(gòu)建和部署應(yīng)用程序，自己改bug，甚至還能訓(xùn)練和微調(diào)自己的AI模型。

在SWE-bench基準(zhǔn)測(cè)試中，它無(wú)需人類幫助，可解決13.86%的問(wèn)題。相比之下，GPT-4只能處理1.74%的問(wèn)題，且都需要人類提示告知處理哪些文件。據(jù)介紹，Devin已經(jīng)成功通過(guò)一家AI公司的面試，并在Upwork上完成了實(shí)際工作。

此前，CognitionAI已經(jīng)獲得了彼得·蒂爾的Founders Fund基金領(lǐng)投的2100萬(wàn)美元A輪融資。另外根據(jù)彭博社記者報(bào)道，前Twitter高管Elad Gil也參與了對(duì)Cognition AI的投資。

DeepMind發(fā)布3D通用智能體SIMA

3月13日，Google DeepMind發(fā)布了適用于3D虛擬環(huán)境的通用智能體（A generalist AI agent for 3D virtual environments），名字命名為“SIMA”。

SIMA是一個(gè)針對(duì)游戲和3D虛擬環(huán)境的通用智能體。這標(biāo)志著首次有一個(gè)智能體能夠證明它可以遵循自然語(yǔ)言指令，在大量游戲世界中執(zhí)行廣泛任務(wù)，類似于人類的游玩方式。

SIMA僅依賴于3D環(huán)境提供的圖像和用戶給出的自然語(yǔ)言指令。通過(guò)鼠標(biāo)和鍵盤(pán)的輸出，它在600項(xiàng)技能上進(jìn)行評(píng)估，這些技能涵蓋了導(dǎo)航和對(duì)象交互等領(lǐng)域——例如“向左轉(zhuǎn)”或“砍倒樹(shù)”。

A16z發(fā)布消費(fèi)級(jí)AI應(yīng)用Top 100

3月13日，A16z發(fā)布了最新的全球AI產(chǎn)品的 Top100 榜單，分為網(wǎng)絡(luò)產(chǎn)品與移動(dòng)產(chǎn)品。16z發(fā)現(xiàn)，與2023年9月發(fā)布的報(bào)告相比，榜單上超過(guò)40%的公司都是新公司。

四、AI融資

1. 傳月之暗面獲得8億美元融資

據(jù)知情人士對(duì)外透露，月之暗面近期獲得了8億美元新融資，其中阿里投資了7.9億美元，礪思資本投資1000萬(wàn)美元。

小紅書(shū)、美團(tuán)原計(jì)劃戰(zhàn)略投資，但阿里將月之暗面估值提高了50%，并且重倉(cāng)持股40%，所以后者主動(dòng)退出了。

本輪融資后，月之暗面估值已達(dá)約23億美元，為國(guó)內(nèi)大模型領(lǐng)域的頭部企業(yè)之一。

2. 宇樹(shù)科技完成近10億元B2輪融資

2月23日，智能機(jī)器人公司宇樹(shù)科技Unitree宣布完成近10億元B2輪融資，本輪投資方包括美團(tuán)、金石投資、源碼，老股東深創(chuàng)投、中網(wǎng)投、容億、敦鴻和米達(dá)鈞石跟投。宇樹(shù)科技Unitree表示，資金將主要用于產(chǎn)品研發(fā)，業(yè)務(wù)拓展以及團(tuán)隊(duì)搭建等方面。

宇樹(shù)科技創(chuàng)立于2016年8月。宇樹(shù)科技創(chuàng)始人王興興2013年開(kāi)始碩士在讀期間，通過(guò)改造無(wú)人機(jī)使用的盤(pán)式無(wú)刷電機(jī)，并針對(duì)其自研了小尺寸電機(jī)驅(qū)動(dòng)器，并基于此，自研整機(jī)機(jī)械結(jié)構(gòu)和控制算法等等，獨(dú)自設(shè)計(jì)開(kāi)發(fā)了他的第一款產(chǎn)品——XDog。不同于當(dāng)時(shí)波士頓動(dòng)力機(jī)器人的高成本液壓驅(qū)動(dòng)技術(shù)路線，XDog采用了高性能純電驅(qū)動(dòng)，開(kāi)創(chuàng)了全球低成本高性能足式機(jī)器人技術(shù)方案的先河。

3. 香港大模型公司W(wǎng)eituAI完成天使輪融資，估值一億美元

2月25日，多模態(tài)大模型初創(chuàng)公司香港Weitu AI 公司完成了天使輪融資，估值一億美金。天使輪投資人為擁有全球數(shù)億月活的互聯(lián)網(wǎng)科技公司和著名天使投資人。

據(jù)了解，該公司目前剛剛成立，超過(guò)半數(shù)成員來(lái)自北美名校畢業(yè)并擁有海外大廠的工作經(jīng)驗(yàn)。同時(shí)，目前的團(tuán)隊(duì)成員中也包括了數(shù)位長(zhǎng)期活躍在人工智能多模態(tài)領(lǐng)域的研究專家，以及去年初曾率隊(duì)研發(fā)國(guó)內(nèi)首批中文大語(yǔ)言模型代表之一的技術(shù)負(fù)責(zé)人。

4. 多模態(tài)大模型企業(yè)聯(lián)匯科技宣布完成新一輪數(shù)億元戰(zhàn)略融資

3月1日，杭州聯(lián)匯科技股份有限公司（以下簡(jiǎn)稱 “聯(lián)匯科技”）宣布完成新一輪數(shù)億元戰(zhàn)略融資，投資方由中國(guó)移動(dòng)產(chǎn)業(yè)鏈發(fā)展基金中移和創(chuàng)投資、前海方舟（前海母基金管理機(jī)構(gòu)）旗下中原前海基金和齊魯前?；鸬榷嗉翌^部國(guó)資與市場(chǎng)化機(jī)構(gòu)組成。

據(jù)悉，本輪融資將主要用于多模態(tài)大模型及自主智能體的技術(shù)研發(fā)、產(chǎn)品創(chuàng)新及市場(chǎng)拓展，擴(kuò)大其在運(yùn)營(yíng)商、能源電力、媒體等國(guó)家基礎(chǔ)行業(yè)與重點(diǎn)細(xì)分市場(chǎng)的領(lǐng)先優(yōu)勢(shì)。

5. 新旦智能完成了千萬(wàn)級(jí)別的天使輪融資

3月4日，總部位于深圳的AI初創(chuàng)公司新旦智能完成了千萬(wàn)級(jí)別的天使輪融資，由全球化人工智能企業(yè)APUS與AI行業(yè)資深投資人周弘揚(yáng)聯(lián)合投資。

相比國(guó)內(nèi)其他大模型公司，新旦智能略顯年輕，但創(chuàng)始團(tuán)隊(duì)陣容卻頗為豪華：這是一支由清華、伯克利、騰訊、Meta等頂尖學(xué)術(shù)與工程界精英組成的團(tuán)隊(duì)，成員包括全球頂尖的開(kāi)源AI社區(qū)知名開(kāi)發(fā)者、資深騰訊云架構(gòu)師等。

6. 傳阿里領(lǐng)投Minimax新一輪融資

3月5日，《科創(chuàng)板日?qǐng)?bào)》報(bào)道稱通用大模型初創(chuàng)項(xiàng)目MiniMax正在進(jìn)行新一輪大規(guī)模融資，阿里為其中的核心領(lǐng)投方。

7. 五源資本投資了一家華人AI視頻團(tuán)隊(duì)

3月6日，兩位Deepmind的校友Yishu Miao和Ziyu Wang公開(kāi)發(fā)布了他們的視頻生成工具Haiper，其底層有自己的AI模型。

Haiper在由Octopus Ventures領(lǐng)投、5Y Capital參與的種子輪融資中籌集了1380萬(wàn)美元。在此之前，像Geoffrey Hinton和Nando de Freitas這樣的天使投資者幫助該公司在2022年4月籌集了540萬(wàn)美元的前種子輪融資。

8. 愛(ài)詩(shī)科技完成億級(jí)人民幣A1輪融資，發(fā)布視頻大模型

3月11日，愛(ài)詩(shī)科技完成億級(jí)人民幣A1輪融資，本輪融資由國(guó)內(nèi)一線投資機(jī)構(gòu)達(dá)晨財(cái)智領(lǐng)投，光源資本擔(dān)任獨(dú)家財(cái)務(wù)顧問(wèn)。

愛(ài)詩(shī)科技創(chuàng)立于2023年4月，專注解決AI視頻大模型及應(yīng)用，海外版產(chǎn)品PixVerse于2024年1月正式上線，目前已是全球用戶量最大的國(guó)產(chǎn)AI視頻生成產(chǎn)品，并搭建了穩(wěn)定的創(chuàng)作者生態(tài)，目前已處于全球視頻生成產(chǎn)品第一梯隊(duì)，國(guó)內(nèi)版（愛(ài)詩(shī)視頻大模型）也于今日上線內(nèi)測(cè)。本輪融資將用于人才建設(shè)和資源儲(chǔ)備，進(jìn)一步鞏固愛(ài)詩(shī)科技產(chǎn)品技術(shù)護(hù)城河。

9. 多模態(tài)大模型創(chuàng)企生數(shù)科技完成新一輪數(shù)億元融資

3月12日，生數(shù)科技宣布完成新一輪數(shù)億元融資，由啟明創(chuàng)投領(lǐng)投，達(dá)泰資本、鴻福厚德、智譜AI、老股東BV百度風(fēng)投和卓源亞洲繼續(xù)跟投，華興資本擔(dān)任獨(dú)家財(cái)務(wù)顧問(wèn)。據(jù)生數(shù)科技介紹，本輪融資將主要用于多模態(tài)基礎(chǔ)大模型的迭代研發(fā)、應(yīng)用產(chǎn)品創(chuàng)新及市場(chǎng)拓展。

生數(shù)科技成立于2023年3月，致力于圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。公司核心團(tuán)隊(duì)來(lái)自清華大學(xué)人工智能研究院，此外還包括來(lái)自北京大學(xué)和阿里巴巴、騰訊、字節(jié)跳動(dòng)等科技公司的多位技術(shù)人才。

作者：趙健

原文標(biāo)題：Sora“滿月”了，但不止一個(gè)AI在新生｜甲子光年

來(lái)源公眾號(hào)：甲子光年（ID：jazzyear），立足中國(guó)科技創(chuàng)新前沿陣地，動(dòng)態(tài)跟蹤頭部科技企業(yè)發(fā)展和傳統(tǒng)產(chǎn)業(yè)技術(shù)升級(jí)案例。

本文由人人都是產(chǎn)品經(jīng)理合作媒體 @甲子光年授權(quán)發(fā)布，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來(lái)自Unsplash，基于CC0協(xié)議

該文觀點(diǎn)僅代表作者本人，人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容，請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App