免费看一级黄片久久久，美国av网站在线观看，亚洲无码午夜视频，伊人久久大香线蕉综合直播，亚洲av国模私拍无码，国产区精品一区二区不卡中文，国产精品久久久久免费Av，日本特级婬片免费

APP

起點課堂會員權(quán)益

職業(yè)體系課特權(quán)

線下行業(yè)大會特權(quán)

個人IP打造特權(quán)

30+門專項技能課

1300+專題課程

12場職場軟技能直播

12場求職輔導(dǎo)直播

12場專業(yè)技能直播

會員專屬社群

榮耀標(biāo)識

{{ userInfo.member ? '查看權(quán)益' : '開通會員' }}

發(fā)布

注冊 | 登錄

58行代碼把Llama 3擴展到100萬上下文，任何微調(diào)版都適用

量子位

2024-05-06

0 評論 834 瀏覽 2 收藏

6 分鐘

開源之王Llama 3原本只有8k的上下文窗口，在開源社區(qū)技術(shù)大佬的努力下，僅需58行代碼，自動擴展到1048k（一百萬）上下文。怎么實現(xiàn)的？請看作者的分享。

堂堂開源之王Llama 3，原版上下文窗口居然只有……8k，讓到嘴邊的一句“真香”又咽回去了。?

在32k起步，100k尋常的今天，這是故意要給開源社區(qū)留做貢獻(xiàn)的空間嗎？

開源社區(qū)當(dāng)然不會放過這個機會：

現(xiàn)在只需58行代碼，任何Llama 3 70b的微調(diào)版本都能自動擴展到1048k（一百萬）上下文。

背后是一個LoRA，從擴展好上下文的Llama 3 70B Instruct微調(diào)版本中提取出來，文件只有800mb。

接下來使用Mergekit，就可以與其他同架構(gòu)模型一起運行或直接合并到模型中。

所使用的1048k上下文微調(diào)版本，剛剛在流行的大海撈針測試中達(dá)到全綠（100%準(zhǔn)確率）的成績。

不得不說，開源的進(jìn)步速度是指數(shù)級的。

1048k上下文LoRA怎么煉成的

首先1048k上下文版Llama 3微調(diào)模型來自Gradient AI，一個企業(yè)AI解決方案初創(chuàng)公司。

而對應(yīng)的LoRA來自開發(fā)者Eric Hartford，通過比較微調(diào)模型與原版的差異，提取出參數(shù)的變化。

他先制作了524k上下文版，隨后又更新了1048k版本。

首先，Gradient團隊先在原版Llama 3 70B Instruct的基礎(chǔ)上繼續(xù)訓(xùn)練，得到Llama-3-70B-Instruct-Gradient-1048k。

具體方法如下：

調(diào)整位置編碼：用NTK-aware插值初始化RoPE theta的最佳調(diào)度，進(jìn)行優(yōu)化，防止擴展長度后丟失高頻信息
漸進(jìn)式訓(xùn)練：使用UC伯克利Pieter Abbeel團隊提出的Blockwise RingAttention方法擴展模型的上下文長度

值得注意的是，團隊通過自定義網(wǎng)絡(luò)拓?fù)湓赗ing Attention之上分層并行化，更好地利用大型GPU集群來應(yīng)對設(shè)備之間傳遞許多KV blocks帶來的網(wǎng)絡(luò)瓶頸。

最終使模型的訓(xùn)練速度提高了33倍。

長文本檢索性能評估中，只在最難的版本中，當(dāng)“針”藏在文本中間部分時容易出錯。

有了擴展好上下文的微調(diào)模型之后，使用開源工具M(jìn)ergekit比較微調(diào)模型和基礎(chǔ)模型，提取參數(shù)的差異成為LoRA。

同樣使用Mergekit，就可以把提取好的LoRA合并到其他同架構(gòu)模型中了。

合并代碼也由Eric Hartford開源在GitHub上，只有58行。

目前尚不清楚這種LoRA合并是否適用于在中文上微調(diào)的Llama 3。

不過可以看到，中文開發(fā)者社區(qū)已經(jīng)關(guān)注到了這一進(jìn)展。

524k版本LoRA：

https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k版本LoRA：

https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

合并代碼：

https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

參考鏈接：

[1]https://twitter.com/erhartford/status/1786887884211138784

本文由人人都是產(chǎn)品經(jīng)理作者【量子位】，微信公眾號：【量子位】，原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理，未經(jīng)許可，禁止轉(zhuǎn)載。

題圖來自Unsplash，基于 CC0 協(xié)議。

更多精彩內(nèi)容，請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App

量子位

追蹤人工智能新趨勢，關(guān)注科技行業(yè)新突破

71篇作品 186665總閱讀量

《羅剎海市》給產(chǎn)品設(shè)計的啟示

08-095739 瀏覽

《羅剎海市》給產(chǎn)品設(shè)計的啟示

京東第四次掀起“價格戰(zhàn)”，商家樂意“參戰(zhàn)”嗎？

03-132537 瀏覽

京東第四次掀起“價格戰(zhàn)”，商家樂意“參戰(zhàn)”嗎？

喜茶與FENDI聯(lián)名款朋友圈刷屏，爆火靠的是“高級感”？

05-185992 瀏覽

喜茶與FENDI聯(lián)名款朋友圈刷屏，爆火靠的是“高級感”？

滴滴、T3出行、曹操出行“猛攻”無人駕駛網(wǎng)約車

05-302944 瀏覽

滴滴、T3出行、曹操出行“猛攻”無人駕駛網(wǎng)約車

智能電視會員年費近千元，消費套路“疊疊高”

02-132679 瀏覽

智能電視會員年費近千元，消費套路“疊疊高”

評論

目前還沒評論，等你發(fā)揮！

方案設(shè)計 | 電商背后的交易系統(tǒng)是如何設(shè)計的？

11-062613 瀏覽
從產(chǎn)品經(jīng)理的角度，為淘寶做積分商城的設(shè)計

12-154897 瀏覽
頭部企業(yè)AI大模型應(yīng)用收集分析

10-193297 瀏覽

2021亚洲中文字幕在线第99,日韩一级无码国产精品,日韩精品无码一级毛片免费丿,免费在线观看毛片黄片亚太影院柯西贝尔-游戏赚网