Stable Diffusion 是 Stability AI 訓練出來的 model,跟之前提到的 DALL-E 最大的差異就是產生出的圖的限制少很多:
Unlike competing models like DALL-E, Stable Diffusion is open source and does not artificially limit the images it produces, though the license prohibits certain harmful use cases.
這也造就了這兩個禮拜整個 Stable Diffusion 的各種應用急速成長。
用 Simon Willison 的「Stable Diffusion is a really big deal」這篇來當作總覽還不錯。
除了授權使用上的限制以外,在技術上的限制也比較少 (有很大一部分會歸功於社群的各種 porting),包括了:
- 在 Apple M1 上也可以跑的版本:「Run Stable Diffusion on your M1 Mac’s GPU」,以及
- 在顯示卡 VRAM 不足 10GB 的機器上也可以跑的版本:「Running Stable Diffusion on your GPU with less than 10Gb of VRAM on Windows」(雖然這篇是講 Windows,但同樣的方法也可以跑在 Linux 上面),以及
- 沒有顯卡,純 CPU 的版本「stable_diffusion.openvino」可以跑 (雖然會慢很多)。
除了先前大家已經熟悉的 txt2img 功能以外,Stable Diffusion 另外提供了 img2img 的能力,也就是先給一張圖,然後再給對應的句子要求 Stable Diffusion 去改這張圖,所以就會有像是把這張圖:
加上「A distant futuristic city full of tall buildings inside a huge transparent glass dome, In the middle of a barren desert full of large dunes, Sun rays, Artstation, Dark sky full of stars with a shiny sun, Massive scale, Fog, Highly detailed, Cinematic, Colorful」的句子後,提供了這張圖:
以及這張圖:
這樣可玩性又多了不少...