BERT

BERT自监督学习

类似于GPT,BERT也是一个预训练(自监督学习)的模型,它使用的训练样本是没有标签的文本,这些文本的一部分作为Key,另一部分作为Value。

BERT自监督学习的方式是“填字游戏练习”。由于BERT只是Transformer的编码器,它的输出序列与输入序列的长度是一模一样的,故在自监督学习的过程中,BERT会通过掩码或者替换遮盖住输入序列的一些信息,再通过最后的输出重新找出这些被遮盖的信息。换句话说,BERT以挖去了一些单词的序列作为Key,而以原序列作为Value。

1

Fig. 1. BERT pre-train

还有其他预训练BERT的方法,如Next Sentence Prediction(被证明没什么用)、Sentence Order Prediction等。

BERT微调

预训练后的BERT嫁接上其他模块并微调后,可以被用于完成各种各样的下游任务(Downstream Tasks)。下游任务的训练属于监督学习。

文本情感分类(Text Sentiment Analysis)

文本情感分类是一个用于判断语句感情色彩的分类问题。使用BERT+softmax分类器能够很轻易地完成这个任务。具体来说,输入模型的是待分析文本,它以特殊的字符[CLS]开头,最后的分类也只对[CLS]经过BERT后的编码结果进行:

2

Fig. 2. Text sentiment analysis

词性标注(Pos Tagging)

词性标注,即给句子中的每个单词标注词性,也是一个能用BERT完成的下游任务。该任务下,模型的输入是待标注文本,输出是所有待标注文本单词编码结果的softmax:

3

Fig. 3. Pos tagging

自然语言推理(Natural Language Inference)

顾名思义,自然语言推理就是让机器推理两个句子间的关系。该任务下,模型的输入是两个待分析文本,文本间用特殊字符[SEP]隔开,最后的分类只对[CLS]经过BERT后的编码结果进行:

4

Fig. 4. Natural language inference

参考