Denna artikel presenterar diffusionsmodeller som en kraftfull generativ modellklass och visar att de kan producera bilder av hög kvalitet. Metoden fungerar genom att gradvis lägga till brus till data och sedan lära modellen att reversera denna process. Arbetet lade den teoretiska grunden för alla moderna bildgenereringsmodeller inklusive DALL-E 2, Stable Diffusion, Midjourney och FLUX. Diffusionsmodeller har sedan dess blivit den dominerande tekniken för bildgenerering och utforskas för video, ljud och 3D-generering.
Publicerad
2020-06-19
Publicerad i
NeurIPS 2020
Citeringar
15000