GPT

ChatGPT

ChatGPT,全称Chat Generative Pre-trained Transformer,是一个文本生成模型,即用于续写用户的提问、要求的模型。ChatGPT会拥有记忆性是因为最终输入到模型中的文本还包含了过去的对话信息。ChatGPT在部署后不联网,它生成的回答都是基于用户提问的续写,而不是对网络资料的复制粘贴。

文本生成模型实际上就是语言模型。虽然ChatGPT的名字带“Transformer”,但它实际上只用了Transformer的解码器,因为它的任务是文本生成,而不需要理解文本的意思。

ChatGPT预训练与监督学习

预训练(Pre-train),又称自监督学习(Self-supervised Learning)。通过预训练得到的模型一般被称为基石模型(Foundation Model)。自监督学习区别于监督学习的地方在于,自监督学习的Key-value Pair是通过程序自生成的,它可以没有逻辑,可以不符合实际情况。

网络上的所有资料都可以作为自监督学习的训练集。通过程序自动划分文本、生成键值对(Key-value Pair)后,这些键值对就可以作为训练样本来训练语言模型。GPT1-GPT3都用这种方式训练,但这样训练的结果是GPT给出的答案不可控。

若将用网络资料训练的GPT3作为一个预训练模型,再用人类提供的资料做监督学习、微调(Finetune),便得到了GPT3.5,也就是ChatGPT。

1

Fig. 1. Pre-train and supervised learning

GPT具有很强的泛化能力。只要在预训练时采用不同语言的文本,GPT就能具有处理这些不同语言文本的能力。

2

Fig. 2. Multilingual pre-train

ChatGPT强化学习

经过预训练、监督学习后的GPT又会经过一定的强化学习训练。

3

Fig. 3. Reinforcement learning

鉴于ChatGPT本质上是一个文本生成(续写)模型,用户向ChatGPT所提的问题对ChatGPT的回答质量有很大的影响。因此,要学会催眠ChatGPT,即使用正确的Prompting。

参考