编辑“︁Stable Diffusion”︁（章节）

== 技術架構 ==
[[File:Stable Diffusion architecture.png|thumb|upright=1.3|Stable Diffusion使用的潛在擴散結構圖。]]
[[File:X-Y plot of algorithmically-generated AI art of European-style castle in Japan demonstrating DDIM diffusion steps.png|thumb|300px|擴散模型所用的去噪過程。]]
Stable Diffusion是一種[[擴散模型]]（diffusion model）的變體，叫做「潛在擴散模型」（latent diffusion model; LDM）。擴散模型是在2015年推出的，其目的是消除對訓練圖像的連續應用[[高斯噪聲]]，可以將其視為一系列去噪[[自編碼器]]。Stable Diffusion由3個部分組成：[[变分自编码器]]（VAE）、[[U-Net]]和一個文本編碼器。與其學習去噪圖像數據（在「像素空間」中），而是訓練VAE將圖像轉換為低維[[潜空间 (机器学习)|潜在空间]]。添加和去除高斯噪聲的過程被應用於這個潛在表示，然後將最終的去噪輸出解碼到像素空間中。在前向擴散過程中，高斯噪聲被迭代地應用於壓縮的潜在表徵。每個去噪步驟都由一個包含[[殘差神經網絡|ResNet]]骨干的U-Net架構完成，通過從前向擴散往反方向去噪而獲得潜在表徵。最後，VAE解碼器通過將表徵轉換回像素空間來生成輸出圖像。研究人員指出，降低訓練和生成的計算要求是LDM的一個優勢。{{r|stable-diffusion-launch|paper}}

去噪步驟可以以文本串、圖像或一些其他數據為條件。調節數據的編碼通過[[注意力機制|交叉注意機制]]（cross-attention mechanism）暴露給去噪U-Net的架構。為了對文本進行調節，一個預訓練的固定CLIP ViT-L/14文本編碼器被用來將提示詞轉化為嵌入空間。{{r|paper}}<ref name="stable-diffusion-github"/>