AIGC初學(xué)者:Stable Diffusion高效實(shí)操指南

0 評(píng)論 3967 瀏覽 25 收藏 21 分鐘

Stable Diffusion是一款生成高質(zhì)量圖像的工具,生成的圖像還很逼真。本文作者對(duì)這款軟件的使用方法及功能進(jìn)行了詳細(xì)地介紹,希望能幫助到你的工作。

Stable Diffusion是一個(gè)文本到圖像的潛在擴(kuò)散模型,這個(gè)數(shù)據(jù)庫擁有從互聯(lián)網(wǎng)上抓取的 58 億「圖像-文本」數(shù)據(jù),它可以生成包括人臉在內(nèi)的任何圖像,這些圖像可以是逼真的,如相機(jī)拍攝的圖像,也可以是藝術(shù)風(fēng)格,就像由專業(yè)藝術(shù)家制作一樣。

它有兩個(gè)優(yōu)勢(shì):

  1. 開源:許多愛好者已經(jīng)創(chuàng)建了免費(fèi)的工具和模型
  2. 專為低功耗計(jì)算機(jī)設(shè)計(jì):運(yùn)行免費(fèi)或便宜

因?yàn)橛虚_源的預(yù)訓(xùn)練模型,所以我們可以在自己部署機(jī)器上運(yùn)行它。

一、界面部分

可以在頂部切換大模型checkpoint(可以在https://huggingface.co/下載嘗試)

  • Inkpunk-Diffusion-v2(偏賽博朋克 關(guān)鍵詞是nvinkpunk)
  • openjourney-v2/mdjrny-v4(中規(guī)中矩)
  • Protogen_V2.2/deliberate_v2.safetensors (偏人像寫實(shí))
  • woolitize768(偏超現(xiàn)實(shí))
  • chilloutmix_NiPrunedFp16Fix.safetensors(偏繪畫)
  • anything-v3-fp16-pruned(偏動(dòng)漫)

1. Prompt 和 Negative prompt

Prompt內(nèi)輸入的東西就是你所構(gòu)思的場(chǎng)景,Negative prompt 內(nèi)輸入的就是你不希望在圖中包含的。兩個(gè)輸入口只能輸入英文半角,詞語之間使用半角逗號(hào)隔開;一般越靠前權(quán)重越高(還是得多試)。

Negative Prompt(僅供參考):

cloned face, ugly, cross-eye,3d,render,realistic,((disfigured)), ((bad art)), ((extra limbs)),blurry, (((duplicate))), ((mutilated)),extra fingers, mutated hands, ((poorly drawn hands)), ((ugly)), ((bad anatomy)), (((bad proportions))), extra limbs, gross proportions, (malformed limbs), ((missing arms)), (((extra arms))),(fused fingers), (too many fingers), (((long neck))), tiling, (((nsfw))), (badhands)

(nsfw),EasyNegative,.badhandv4,ng_deepnegative_v1_75t,(worst quality:2),(lowquality:2),(normal quality:2),lowres,((monochrome)),((grayscale)),bad anatomy,DeepNegative,skin spots,acnes,skin blemishes,(fat:1.2),facing away,looking away,tilted head,lowres,bad anatomy,bad hands,missing fingers,extra digit,fewer digits,bad feet,poorly drawn hands,poorly drawn face,mutation,deformed,extra fingers,extra limbs,extra arms,extra legs,malformed limbs,fused fingers,too many fingers,long neck,cross-eyed,mutated hands,polar lowres,bad body,bad proportions,gross proportions,missing arms,missing legs,extra digit,extra arms,extra leg,extra foot,teethcroppe,signature,watermark,username,blurry,cropped,jpeg artifacts,text,error,Lower body exposureads, multiple people, group of people, fingers

結(jié)構(gòu)建議:內(nèi)容描述+風(fēng)格描述+屬性描述

內(nèi)容描述:主題內(nèi)容

風(fēng)格描述:藝術(shù)家/畫筆/攝影風(fēng)格等 (可以參考以下個(gè)人比較常用的鏈接)

屬性描述:比如Midjourney或者人像相關(guān)的lora模型(可以參考網(wǎng)站

eg:字符分隔多個(gè)提示,則有四種可能的組合(始終保留提示的第一部分)

小Tips:

生成高質(zhì)量圖像的快捷方式是反復(fù)嘗試調(diào)節(jié)現(xiàn)有描述。靈感收集可以從C站或者M(jìn)idjourney熱圖,選擇您喜歡的圖像,然后學(xué)習(xí)不同作者的描述特點(diǎn)/方法論。

在尋找靈感收集人像Prompt時(shí)需可以注意Lora模型以及對(duì)應(yīng)的Base Model,lora權(quán)重一般0.6-0.8(冒號(hào)后邊)。

eg:<dalcefo, realistic, chromatic aberration, cinematic light, finely detailed face)>, portrait, Best quality, masterpiece, full body, brilliant colors, a girl, strapless white dress, sky, complex background, flying, white butterfly wings, long black hair, looking down, looking into the camera, lake, reflection, flying birds, delicate face, <lora:dalcefoNocopyV2_dalcefoNocopyV2:1>

Emoji、顏文字 Emoji (??????????????) 表情符號(hào)也是可以使用并且非常準(zhǔn)確的。因?yàn)?Emoji 只有一個(gè)字符,所以在語義準(zhǔn)確度上表現(xiàn)良好。關(guān)于 emoji 的確切含義,可以參考Emoji List, v15.0 (unicode.org),同時(shí) Emoji 在構(gòu)圖上有影響。

關(guān)于c站lora下載導(dǎo)入SD

可以在C站下載插件:

https://civitai.com/images/359273?modelVersionId=31558&prioritizedUserIds=169238&period=AllTime&sort=Most+Reactions&limit=20

找到對(duì)應(yīng)需求的lora鏈接

鏈接復(fù)制到Civitai這個(gè)tab中URL,點(diǎn)擊獲取

各個(gè)選項(xiàng)獲取信息之后,填寫下載的位置,目前/是根目錄

點(diǎn)擊下載即可,后續(xù)在生成按鈕下方的紅色選項(xiàng)卡選擇已下載的lora

2. 權(quán)重調(diào)節(jié)

(best quality:1.3) 可以對(duì)關(guān)鍵詞設(shè)置權(quán)重,一般權(quán)重設(shè)置在0.5~2之間。

eg:(8k, best quality, masterpiece:1.2),(best quality:1.0), (ultra highres:1.0),extremely luminous bright design, pastel colors, (ink:1.3), autumn lights, High Detail, Sharp focus, dramatic, photorealistic painting art by midjourney and greg rutkowski

使用括號(hào)人工修改提示詞的權(quán)重,方法如下(請(qǐng)注意,權(quán)重值最好不要超過 1.5):

  • (word) – 將權(quán)重提高 1.1 倍
  • ((word)) – 將權(quán)重提高 1.21 倍(= 1.1 * 1.1)
  • [word] – 將權(quán)重降低至原先的 90.91%
  • (word:1.5) – 將權(quán)重提高 1.5 倍
  • (word:0.25) – 將權(quán)重減少為原先的 25%
  • (word) – 在提示詞中使用字面意義上的 () 字符

( n ) = ( n : 1.1 ) (( n )) = ( n : 1.21 ) ((( n ))) = ( n : 1.331 ) (((( n )))) = ( n : 1.4641 ) ((((( n )))) = ( n : 1.61051 ) (((((( n )))))) = ( n : 1.771561 )

3. 采樣方式

  • Euler a:速度快的采樣方式,隨著采樣步數(shù)增加并不會(huì)增加細(xì)節(jié)(*常用)
  • DPM++ SDE:人像效果OK(*常用)
  • DPM++2S a Karras 和 DPM++ SDE Karras等:相對(duì)于Euler a來說,同等分辨率下細(xì)節(jié)會(huì)更多,但是速度更慢

4. 采樣步數(shù)

保持在20~30之間,較低圖片展示不完整,較高細(xì)節(jié)偏差大(類似銳化)。

5. 生成數(shù)量(批量生成)

Batch count:每批生成幾張圖片

Batch size:顯卡一共生成幾批圖片

生成的圖片數(shù)量=批次*數(shù)量(越多速度越慢,建議加一個(gè)Grid功能多圖進(jìn)行拼圖)

6. 寬高比例(展示畫面內(nèi)容大?。?/h3>

方圖512*512,傾向于出臉和半身像

高圖512*768,傾向于出站著和坐著的全身像

寬圖768*512,傾向于出斜構(gòu)圖的半躺像

7. CFG(提示詞相關(guān)性)

CFG越小細(xì)節(jié)越少,CFG越高自由度越多(更飛);通常7-12,更豐富可以12-20,寫實(shí)(也可以是用ControlNet時(shí)越接近原圖)可以4-7,通過0.5為步微調(diào)。

image2image中Denoising strength是添加噪點(diǎn)的強(qiáng)度。也是類似噪點(diǎn)強(qiáng)度越高,AI的創(chuàng)作空間就越大,出圖也就和原圖越不相似。一般來講閾值是 0.7 左右,超過 0.7 和原圖基本上無關(guān),0.3 以下就是稍微改一些。實(shí)際執(zhí)行中,具體的執(zhí)行步驟為 Denoising strength * Sampling Steps。

8. Seed(效果參數(shù))

隨機(jī)寫一個(gè)參數(shù)(*-1是隨機(jī)效果)可以再次使用該參數(shù)生成效果進(jìn)行微調(diào),也就是同一個(gè)Seed生成的圖一般是一致的。

二、ControlNet 的使用

可以搭配服用,比如controlnet0用某張圖的風(fēng)格style, congrolnet1要處理的圖(比如人像),這樣生成的圖既保持1的人像,又使用0的風(fēng)格樣式。

1. 小Tips:

controlnet預(yù)處理的圖的mask分辨率和輸出圖的分辨率對(duì)不上,mask就會(huì)留邊。

eg:風(fēng)格預(yù)設(shè):clip_vision 對(duì)應(yīng)模型:t2iadapter_style_sd14v1 [202e85cc]

所選的 ControlNet 模型必須與預(yù)處理器一致。如圖,對(duì)于hed應(yīng)該選擇control_hed-fp16 [13fee50b] 作為模型。None使用輸入圖像作為控制圖。

Enable記得勾選應(yīng)用。

2. Preprocessor&Model

帶 hed 一般用于人臉

帶softedge-hedsafe相較于hed質(zhì)量更高更清晰。

最高結(jié)果質(zhì)量:SoftEdge_HED > SoftEdge_PIDI > SoftEdge_HED_safe > SoftEdge_PIDI_safe

考慮到權(quán)衡,我們建議默認(rèn)使用 SoftEdge_PIDI。在大多數(shù)情況下,它運(yùn)行良好。

帶Openpose一般用于姿勢(shì)。

帶有 Canny一般用于偏毛發(fā)細(xì)節(jié)。

帶 M-LSD一般用于建筑。

帶 Scribble、fake_Scribble一般用于涂鴉。

帶 Depth一般用于輪廓比如人物(常用)。

帶 Normal一般用于物體細(xì)節(jié),它是法線貼圖圖像,會(huì)一定程度上保留物體內(nèi)部的細(xì)節(jié),比如襯衫褶皺。

帶Lineart一般用于粗略的線條。

帶Shuffle一般用于重新組織圖像,隨機(jī)洗牌圖像來穩(wěn)定擴(kuò)散重構(gòu)圖像。

帶Tile一般用于修復(fù)模糊圖像/補(bǔ)充細(xì)節(jié)。

3. outpainting

在SD繪圖中16:9和9:16比例生成的效果圖出現(xiàn)多頭,解決方法是:

第一步先1:1比例生成,第二步是outpainting功能實(shí)現(xiàn)擴(kuò)展。

preprocessor: inpaint_only+lama

model: control_v11p_sd15_inpaint_fp16 [be8bc0ed]

resize mode: Resize and Fill

4. inpainting

在controlnet區(qū)域放上需要進(jìn)行局部調(diào)整的圖片,點(diǎn)擊inapint預(yù)設(shè),在需要調(diào)整的圖片上進(jìn)行涂抹,并在描述區(qū)域?qū)懮夏愕念A(yù)期效果。

左:有缺陷的原始圖像。右:面部和手臂通過修復(fù)固定

5. 對(duì)比了不同產(chǎn)品Inpaint功能

Firefly-Generative fill、Imagine-Inpainting和ModelScope-Inpaint相比,前兩者對(duì)頭發(fā)和人物消除的處理更自然。試了一下Stable Diffusion對(duì)于衣服替換以及人物消除處理上,文本和圖像的實(shí)現(xiàn)不理想。

Firefly-Generative fill地址:

https://firefly.adobe.com/generate/inpaint

Imagine-Inpainting地址:

https://play.google.com/store/apps/details?id=com.vyroai.aiart

ModelScope-Inpaint地址:

https://modelscope.cn/models/damo/cv_stable-diffusion-v2_image-inpainting_base/summary

6. Weight(230719)

Control Weight:相對(duì)于提示給予控制圖的強(qiáng)調(diào)程度。它類似于提示中的關(guān)鍵字權(quán)重,但適用于控制圖。對(duì)于二維碼、文字相關(guān)建議數(shù)值調(diào)整為0.4-0.65。這里數(shù)值越大,圖案就會(huì)越明顯,但相對(duì)的,文字和圖片的融合度也會(huì)越差。可以自己多試,比較復(fù)雜的文字為了出效果可以調(diào)高點(diǎn),簡(jiǎn)單的圖案可以調(diào)低點(diǎn)。

Ending Control Step這個(gè)參數(shù)建議0.6-0.75,代表著ControlNet什么時(shí)候停止介入,**數(shù)值越大后面留給模型處理融合的時(shí)間就越少,文字融合度就會(huì)變差,**數(shù)值越小模型介入過早就會(huì)破壞已有的結(jié)構(gòu)導(dǎo)致看不清文字。也得多嘗試,跟你圖案的復(fù)雜程度也有關(guān)系。

*文字光效或者將二維碼合成在衣服上的圖最近火遍即刻,看了歸藏老師的文章,效果圖主要是ControlNet的應(yīng)用,具體可以見微信公眾號(hào)。

https://mp.weixin.qq.com/s/rvpU4XhToldoec_bABeXJw

7. Resize Mode

在t2t的controlnet模塊/i2i模塊,有幾個(gè)選項(xiàng)可以調(diào)整圖像大?。?/p>

  • Just resize 只需調(diào)整大小 – 只需將源圖像調(diào)整為目標(biāo)分辨率,導(dǎo)致寬高比不正確
  • Crop and resize (*常用)裁剪和調(diào)整大小 – 調(diào)整源圖像保留縱橫比的大小,以便整個(gè)目標(biāo)分辨率被它占據(jù),并裁剪突出的部分
  • Resize and fill 調(diào)整大小和填充 – 調(diào)整源圖像保留縱橫比的大小,使其完全適合目標(biāo)分辨率,并按源圖像中的行/列填充空白區(qū)域

8. Preview another result

查看預(yù)處理結(jié)果:

三、script小技巧操作

1. Script-X/Y/Z plot(選擇自己想要對(duì)比的變量)

點(diǎn)擊checkpoint-再點(diǎn)擊右側(cè)黃色書本選擇想要對(duì)比的大模型

對(duì)比lora權(quán)重可以選擇Prompt S/R(search/replace)比如我要切換不同同個(gè)風(fēng)格的不同lora

eg:1girl, smile, brown hair, hair ornament, upper body, flower, looking back, hair flower, from behind, lips, illustration Tranquil beach waves and palm trees, Margo Selby, knitted tapestry,(sks),masterpiece, best quality, highly detailed, 8k lora:KnittedPattern-000008:0.68

Prompt S/R – 000008,000009,000010,000011

四、通過Chatgpt提高工作效率

可以這么問:

use Deliberate_deliberate_v2 model, create some prompt to make awesome anime style image

五、最后

很喜歡王建碩老師說的「不要把研究AI新聞當(dāng)成研究AI」,如果有時(shí)間可以從最簡(jiǎn)單的prompt開始學(xué)起,真正在業(yè)務(wù)中去實(shí)踐,比如效果圖光線太暗、背景太花等,這是「需求驅(qū)動(dòng)」的意義,最終需要磨很多次才能有好的呈現(xiàn)。

畢竟AI對(duì)不同詞語理解能力是不同的,最重要的是好奇心和持續(xù)的練習(xí)。

原作者: Joma Tech;原文來自視頻:A recap of ChatGPT | tech news - by Joma Tech

本文由 @吳恬煊 翻譯發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)。

更多精彩內(nèi)容,請(qǐng)關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號(hào)或下載App
評(píng)論
評(píng)論請(qǐng)登錄
  1. 目前還沒評(píng)論,等你發(fā)揮!