ChatGPT原理与架构:大模型的预训练、迁移和中间件编程_程戈_AZW3_MOBI_EPUB_PDF_电子书(无页码)_程戈
内容节选
第4章 无监督多任务与零样本学习 论文名为“Language models are few-shot learners”。 多任务学习(Multi-Task Learning,MTL)是一种机器学习方法,旨在同时学习多个相关任务,并通过共享表示来提高模型的泛化性能。OpenAI在GPT-2论文 中引入了无监督多任务学习与零样本学习(Zero-Shot Learning)的概念。 零样本学习可以看作无监督多任务学习的一种特例,其中模型无须使用任务相关的标注信息,而是依赖已学习的语言模型来完成各种任务。零样本学习的优势在于,它消除了针对特定任务进行模型微调的需求,从而降低了模型应用的成本。此外,零样本学习也有助于模型泛化到未见过的任务。本章将详细介绍GPT-2模型中的Transformer架构的变化,以及无监督多任务与零样本学习的概念。 4.1 编码器与解码器 2018年10月,OpenAI发布了GPT,大约半年后,Google推出了BERT。典型的Transformer模型由编码器和解码器组成,两者都由多个Transformer层堆叠而成。如图4.1所示,BERT基于Transformer的编码器架构,而GPT则基于Transformer的解码器架构。 图4.1 Transformer的编码器与解码器架构 BERT模型采用双向上下文表示,在预测一个词时,会同时考虑该词前后的上下文信息。BERT在训练过程中使用了掩码语言模型(Masked Language Model,MLM)的策略,通过随机掩盖输入句子中的部分词汇,让模型在预测这些词汇时考虑整个句子的上下文。这使得BERT能够更有效地捕捉到双向上下文信息,从而在各种NLP任务中取得显著的效果。 在BERT取得显著成功后,OpenAI推出了GPT-2。作为GPT的升级版,GPT-2仍然采用与GPT类似的单向(从左到右)的Transformer模型进行无监督预训练。 BERT采用了基于Transformer的双向编码器结构,通过在训练中使用自注意力机制(见图4.2左图),能够捕捉到文本中的双向上下文信息。这使得BERT在需要理解句子结构和上下文关系的任务上表现优异,如问答系统、命名实体识别和关系抽取等任务。 图4.2 自注意力与掩码自注意力的区别 (图片来源:http://jalammar.github.io/illustrated-gpt2/) 相比之下,GPT-2采用了基于Transformer的单向解码器结构,采用掩码自注意力机制(见图4.2右图),主要通过在训练中使用单向语言建模任务来学习文本的上下文信息。虽然这种方法在捕捉双向上下文能力上可能不如BERT,但GPT-2在许多NLP任务上表现出色,如文本摘要、机器翻译和对话生成等任务。 由于这两种模型在架构和训练方法上的差异,它们在不同任务上的性能差距可能较大。尽管如此,GPT-2和BERT都被证明是非常强大的自然语言处理模型,在各自擅长的任务领域都取得了显著的效果。 4.2 GPT-2的模型架构 GPT-2作为GPT系列的后续版本,继续采用了Transformer模型的解码器架构。然而,它在训练数据集的规模上大幅超过了GPT-1。GPT-2在OpenAI团队收集的一个名为WebText的40GB大型数据集上进行训练。GPT-2在训练过程中采用了不同规模的模型,包括117MB(小)、345MB(中)、762 MB(大)和1542MB(超大)参数量4种规模,如图4.3所示。GPT-2最小的模型由12层解码器构成,需要500MB的存储空间来存储其参数。相比之下,最大的GPT-2模型由48层解码器构成,其参数量约是最小模型的13倍,需要6.5GB的存储空间。相对于GPT-1,GPT-2的模型架构有了显著的改变,如图4.4所示。 ▲图4.3 GPT-2的4种不同大小模型 ▲图4.4 Transformer的解码器架构 4.2.1 层归一化 层归一化(Layer Normalization)是一种在神经网络层之间添加归一化操作的策略。在GPT-2中,层归一化主要应用于Transformer层。与GPT-1不同的是,每个Transformer层的输入和输出都添加了层归一化层,以实现输入和输出的归一化。这种策略有助于缓解梯度消失和梯度爆炸的问题,从而提高模型的训练稳定性和收敛速度。 具体来说,梯度消失和梯度爆炸是神经网络训练过程中常见的问题,尤其在深度神经网络中,由于梯度需要通过多层传播,这些问题尤为严重。层归一化通过在每个Transformer层的输入和输出处添加层归一化层来实现,这种归一化方法能够将输入数据的均值和方差分别标准化为0和1,从而使得数据在不同的尺度上保持一致。 首先,归一化操作可以缩放和移动输入数据,使其均值为0,方差为......
- 信息
- 前言
- 第1章 人工智能的新里程碑——ChatGPT
- 第2章 深入理解Transformer模型
- 第3章 生成式预训练
- 第4章 无监督多任务与零样本学习
- 第5章 稀疏注意力与基于内容的学习
- 第6章 大语言模型的预训练策略
- 第7章 近端策略优化算法
- 第8章 人类反馈强化学习
- 第9章 大语言模型的低算力领域迁移
- 第10章 中间件编程
- 第11章 大语言模型的未来之路