Introduction of Generative AI

生成方式

各个击破 Autoregressive (AR) model:一次生成一个元素,每一个字(像素)都要等前面的字(像素)生成,常用于文字。生成质量好。
一次到位 Non-autoregressive (NAR) model:一次生成所有元素,只要有足够的并行运算能力,可以很快,因而在影像生成中更常用。生成质量差。

复合方法:
先各个击破再一次到位

一次到位->N次到位

常见的图像生成模型

Raster order:一个pixel一个pixel地生成图片。如OpenAI的影像版GPT,它将图片拉成序列,用GPT的模型来完成图像生成。

输入不仅是文字,还有一个从特定的分布中随机取出的向量。

Variational Auto-encoder (VAE)

Encoder-Decoder,Encoder接受图片输入,生成指定分布的向量编码,Encoder接受向量输入,还原出图片。

Flow-based Generative Model

Encoder接受图片输入,生成指定分布的向量编码。该模型特殊的点在于,Encoder被设计成一个具有“反函数”的架构,因此,将Encoder“反过来”就是Decoder,要达到这个目的,首先要保证输出向量与输入向量的维度一致。

Diffusion Model

图片一直加噪音,然后一直降噪,降噪后的图片就是最终结果。

Denoise:接受带噪音的图片和标志除噪阶段数值,产生噪音,再把生成的噪音从输入图片中减去。Noise Predictor的训练。

Text-to-Image:将文字信息加入Denoise模块。

训练:在之前的基础上加入文字信息。

1

Fig. 1. VAE,Flow-based,Diffusion

Generative Adversarial Network (GAN)

只有Decoder(Generator),Decoder接受原图片输入生成新图片,再用Discriminator来比较新图片和原图片。

把正态分布的向量和图片对应起来。

Text-to-Image

Text Encoder + Generation Model + Decoder,分开训练再组合。

e.g. Stable Diffusion,DALL-E series,Imagen...

Text Encoder对结果的影响很大,一般越大效果越好,而Generation Model的影响则没那么大。