國(guó)產(chǎn)多模態(tài)大模型開源!無條件免費(fèi)商用,性能超Claude 3 Sonnet
現(xiàn)在國(guó)內(nèi)的大模型發(fā)展日新月異,比如正文提到的元象發(fā)布的這款開源大模型,各個(gè)方面的表現(xiàn)都很不錯(cuò)。
又一個(gè)國(guó)產(chǎn)多模態(tài)大模型開源!
XVERSE-V,來自元象,還是同樣的無條件免費(fèi)商用。
此前元象曾率先發(fā)布國(guó)內(nèi)規(guī)模最大的開源大模型,如今開源家族系列又多了一個(gè)。
最新的多模態(tài)大模型支持任意寬高比圖像輸入,在主流評(píng)測(cè)中保持著效果領(lǐng)先——
- 在多項(xiàng)權(quán)威多模態(tài)評(píng)測(cè)中,XVERSE-V超過零一萬物Yi-VL-34B、面壁智能OmniLMM-12B及深度求索DeepSeek-VL-7B等開源模型。
- 在綜合能力測(cè)評(píng)MMBench中超過了谷歌GeminiProVision、阿里Qwen-VL-Plus和Claude-3V Sonnet等知名閉源模型。
支持任意長(zhǎng)寬比圖像輸入
傳統(tǒng)的多模態(tài)模型的圖像表示只有整體,XVERSE-V 采用了融合整體和局部的策略,支持輸入任意寬高比的圖像。
兼顧全局的概覽信息和局部的細(xì)節(jié)信息,能夠識(shí)別和分析圖像中的細(xì)微特征,看的更清楚,理解的更準(zhǔn)確
這樣的處理方式使模型可以應(yīng)用于廣泛的領(lǐng)域,包括全景圖識(shí)別、衛(wèi)星圖像、古文物掃描分析等。
△示例- 高清全景圖識(shí)別
△示例-圖片細(xì)節(jié)文字識(shí)別
除了基本能力表現(xiàn)不錯(cuò),也能輕松應(yīng)對(duì)各種不同的實(shí)際應(yīng)用場(chǎng)景,比如圖表、文獻(xiàn)、代碼轉(zhuǎn)化、視障真實(shí)場(chǎng)景等。
圖表理解
不論是復(fù)雜圖文結(jié)合的信息圖理解,還是單一圖表的分析與計(jì)算,模型都能夠自如應(yīng)對(duì)。
自動(dòng)駕駛
代碼撰寫
還有視障真實(shí)場(chǎng)景
在真實(shí)視障場(chǎng)景測(cè)試集VizWiz中,XVERSE-V的表現(xiàn)超過了InternVL-Chat-V1.5、DeepSeek-VL-7B等幾乎所有主流的開源多模態(tài)大模型。該測(cè)試集包含了來自真實(shí)視障用戶提出的超過31000個(gè)視覺問答,能準(zhǔn)確反映用戶的真實(shí)需求與瑣碎細(xì)小的問題,幫助視障人群克服他們?nèi)粘U鎸?shí)的視覺挑戰(zhàn)。
本文由人人都是產(chǎn)品經(jīng)理作者【量子位】,微信公眾號(hào):【量子位】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!