ChatGPT原理与架构:大模型的预训练、迁移和中间件编程_程戈_AZW3_MOBI_EPUB_PDF_电子书(无页码)_程戈

内容节选

第4章 无监督多任务与零样本学习 论文名为“Language models are few-shot learners”。 多任务学习(Multi-Task Learning,MTL)是一种机器学习方法,旨在同时学习多个相关任务,并通过共享表示来提高模型的泛化性能。OpenAI在GPT-2论文 中引入了无监督多任务学习与零样本学习(Zero-Shot Learning)的概念。 零样本学习可以看作无监督多任务学习的一种特例,其中模型无须使用任务相关的标注信息,而是依赖已学习的语言模型来完成各种任务。零样本学习的优势在于,它消除了针对特定任务进行模型微调的需求,从而降低了模型应用的成本。此外,零样本学习也有助于模型泛化到未见过的任务。本章将详细介绍GPT-2模型中的Transformer架构的变化,以及无监督多任务与零样本学习的概念。 4.1 编码器与解码器 2018年10月,OpenAI发布了GPT,大约半年后,Google推出了BERT。典型的Transformer模型由编码器和解码器组成,两者都由多个Transformer层堆叠而成。如图4.1所示,BERT基于Transformer的编码器架构,而GPT则基于Transformer的解码器架构。 图4.1 Transformer的编码器与解码器架构 BERT模型采用双向上下文表示,在预测一个词时,会同时考虑该词前后的上下文信息。BERT在训练过程中使用了掩码语言模型(Masked Language Model,MLM)的策略,通过随机掩盖输入句子中的部分词汇,让模型在预测这些词汇时考虑整个句子的上下文。这使得BERT能够更有效地捕捉到双向上下文信息,从而在各种NLP任务中取得显著的效果。 在BERT取得显著成功后,OpenAI推出了GPT-2。作为GPT的升级版,GPT-2仍然采用与GPT类似的单向(从左到右)的Transformer模型进行无监督预训练。 BERT采用了基于Transformer的双向编码器结构,通过在训练中使用自注意力机制(见图4.2左图),能够捕捉到文本中的双向上下文信息。这使得BERT在需要理解句子结构和上下文关系的任务上表现优异,如问答系统、命名实体识别和关系抽取等任务。 图4.2 自注意力与掩码自注意力的区别 (图片来源:http://jalammar.github.io/illustrated-gpt2/) 相比之下,GPT-2采用了基于Transformer的单向解码器结构,采用掩码自注意力机制(见图4.2右图),主要通过在训练中使用单向语言建模任务来学习文本的上下文信息。虽然这种方法在捕捉双向上下文能力上可能不如BERT,但GPT-2在许多NLP任务上表现出色,如文本摘要、机器翻译和对话生成等任务。 由于这两种模型在架构和训练方法上的差异,它们在不同任务上的性能差距可能较大。尽管如此,GPT-2和BERT都被证明是非常强大的自然语言处理模型,在各自擅长的任务领域都取得了显著的效果。 4.2 GPT-2的模型架构 GPT-2作为GPT系列的后续版本,继续采用了Transformer模型的解码器架构。然而,它在训练数据集的规模上大幅超过了GPT-1。GPT-2在OpenAI团队收集的一个名为WebText的40GB大型数据集上进行训练。GPT-2在训练过程中采用了不同规模的模型,包括117MB(小)、345MB(中)、762 MB(大)和1542MB(超大)参数量4种规模,如图4.3所示。GPT-2最小的模型由12层解码器构成,需要500MB的存储空间来存储其参数。相比之下,最大的GPT-2模型由48层解码器构成,其参数量约是最小模型的13倍,需要6.5GB的存储空间。相对于GPT-1,GPT-2的模型架构有了显著的改变,如图4.4所示。 ▲图4.3 GPT-2的4种不同大小模型 ▲图4.4 Transformer的解码器架构 4.2.1 层归一化 层归一化(Layer Normalization)是一种在神经网络层之间添加归一化操作的策略。在GPT-2中,层归一化主要应用于Transformer层。与GPT-1不同的是,每个Transformer层的输入和输出都添加了层归一化层,以实现输入和输出的归一化。这种策略有助于缓解梯度消失和梯度爆炸的问题,从而提高模型的训练稳定性和收敛速度。 具体来说,梯度消失和梯度爆炸是神经网络训练过程中常见的问题,尤其在深度神经网络中,由于梯度需要通过多层传播,这些问题尤为严重。层归一化通过在每个Transformer层的输入和输出处添加层归一化层来实现,这种归一化方法能够将输入数据的均值和方差分别标准化为0和1,从而使得数据在不同的尺度上保持一致。 首先,归一化操作可以缩放和移动输入数据,使其均值为0,方差为......

  1. 信息
  2. 前言
  3. 第1章 人工智能的新里程碑——ChatGPT
  4. 第2章 深入理解Transformer模型
  5. 第3章 生成式预训练
  6. 第4章 无监督多任务与零样本学习
  7. 第5章 稀疏注意力与基于内容的学习
  8. 第6章 大语言模型的预训练策略
  9. 第7章 近端策略优化算法
  10. 第8章 人类反馈强化学习
  11. 第9章 大语言模型的低算力领域迁移
  12. 第10章 中间件编程
  13. 第11章 大语言模型的未来之路