编辑“︁
Stable Diffusion
”︁(章节)
跳转到导航
跳转到搜索
警告:
您没有登录。如果您进行任何编辑,您的IP地址会公开展示。如果您
登录
或
创建账号
,您的编辑会以您的用户名署名,此外还有其他益处。
反垃圾检查。
不要
加入这个!
== 技術架構 == [[File:Stable Diffusion architecture.png|thumb|upright=1.3|Stable Diffusion使用的潛在擴散結構圖。]] [[File:X-Y plot of algorithmically-generated AI art of European-style castle in Japan demonstrating DDIM diffusion steps.png|thumb|300px|擴散模型所用的去噪過程。]] Stable Diffusion是一種[[擴散模型]](diffusion model)的變體,叫做「潛在擴散模型」(latent diffusion model; LDM)。擴散模型是在2015年推出的,其目的是消除對訓練圖像的連續應用[[高斯噪聲]],可以將其視為一系列去噪[[自編碼器]]。Stable Diffusion由3個部分組成:[[变分自编码器]](VAE)、[[U-Net]]和一個文本編碼器。與其學習去噪圖像數據(在「像素空間」中),而是訓練VAE將圖像轉換為低維[[潜空间 (机器学习)|潜在空间]]。添加和去除高斯噪聲的過程被應用於這個潛在表示,然後將最終的去噪輸出解碼到像素空間中。在前向擴散過程中,高斯噪聲被迭代地應用於壓縮的潜在表徵。每個去噪步驟都由一個包含[[殘差神經網絡|ResNet]]骨干的U-Net架構完成,通過從前向擴散往反方向去噪而獲得潜在表徵。最後,VAE解碼器通過將表徵轉換回像素空間來生成輸出圖像。研究人員指出,降低訓練和生成的計算要求是LDM的一個優勢。{{r|stable-diffusion-launch|paper}} 去噪步驟可以以文本串、圖像或一些其他數據為條件。調節數據的編碼通過[[注意力機制|交叉注意機制]](cross-attention mechanism)暴露給去噪U-Net的架構。為了對文本進行調節,一個預訓練的固定CLIP ViT-L/14文本編碼器被用來將提示詞轉化為嵌入空間。{{r|paper}}<ref name="stable-diffusion-github"/>
摘要:
请注意,所有对Local Chinese Wikipedia的贡献均可能会被其他贡献者编辑、修改或删除。如果您不希望您的文字作品被随意编辑,请不要在此提交。
您同时也向我们承诺,您提交的内容为您自己所创作,或是复制自公共领域或类似自由来源(详情请见
Project:著作权
)。
未经许可,请勿提交受著作权保护的作品!
取消
编辑帮助
(在新窗口中打开)
导航菜单
个人工具
未登录
讨论
贡献
创建账号
登录
命名空间
页面
讨论
大陆简体
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
编辑
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
工具
链入页面
相关更改
特殊页面
页面信息