AL123 人文社科会员免费专区文学 2025-07-14

AIGC原理与实践：零基础学大语言模型、扩散模型和多模态模型_吴茂贵_AZW3_MOBI_EPUB_PDF_电子书（无页码）_吴茂贵

内容节选

7.1注意力机制简介注意力机制的基本思想是，将输入序列中的每个元素（如词、像素等）与模型的当前状态进行比较，为每个输入元素分配一个权重值。这些权重值表示输入元素对当前状态的重要程度。然后，根据这些权重值，模型可以聚焦于最重要的元素，并对其进行进一步处理。注意力机制的主要作用是让神经网络关注输入序列中最相关的部分，从而提高模型的性能。它可以解决长序列问题、输入和输出长度不同的问题，同时也能提升模型的泛化能力和鲁棒性。在机器翻译、文本摘要、对话、语音识别、图像分类等任务中，注意力机制已经被广泛应用。其主要应用有以下两种主要形式：（1）注意力汇聚注意力汇聚（Attention Mechanism）是在深度学习中常用的一种注意力机制。在自然语言处理和计算机视觉等任务中，注意力汇聚允许模型根据输入的不同部分赋予不同的权重或重要性。例如，在机器翻译任务中，模型可以根据输入句子中的每个词的重要程度来选择性地关注，并在翻译输出时给予适当的注意。（2）自注意力自注意力（Self-Attention）是注意力机制的一种特殊形式，广泛应用于序列数据，如文本序列或时间序列。它允许序列中的每个元素（例如单词或时间步）都能与其他元素相互交互，以计算它们之间的相关性。这使得模型能够捕捉序列中长距离的依赖关系，从而更好地理解序列的结构和上下文。自注意力在Transformer模型中被引入，并在自然语言处理领域取得了巨大成功。它将输入序列中的每个元素视为查询（Query）、键（Key）和值（Value），通过计算它们之间的相关性，得到最终的表示。这种表示能够更好地捕捉序列中的语义关系，有助于完成各种任务，如机器翻译、文本生成和语言理解等。 7.1.1 两种常见的注意力机制根据注意力范围的不同，人们又把注意力分为软注意力和硬注意力。（1）软注意力软注意力（Soft Attention）是比较常见的注意力方式，对所有key求权重概率，每个key都有一个对应的权重，是一种全局的计算方式（又称Global Attention）。这种方式比较理性，它参考了所有key的内容，再进行加权，但是计算量可能会比较大。（2）硬注意力硬注意力（Hard Attention）直接精准定位到某个键而忽略其他键，相当于这个键的概率是1，其余键的概率全部是0。因此，这种对齐方式要求很高，要求一步到位，但实际情况往往包含其他状态，如果没有正确对齐，将会带来很大的影响。 7.1.2 来自生活的注意力注意力是我们与环境交互的一种天生的能力，环境中的信息丰富多彩，我们不可能对映入眼帘的所有事物都持有一样的关注度或注意力，而是一般只将注意力引向感兴趣的一小部分信息，这种能力就是注意力。我们按照对外界的反应将注意力分为非自主性提示和自主性提示。非自主性提示是基于环境中物体的状态、颜色、位置、易见性等，不由自主地引起我们的注意。如图7-1中的这些活动的小动物，最初可能会自动引起小朋友的注意。但过一段时间之后，他可能重点注意他喜欢的小汽车玩具上。此时，小朋友选择小汽车玩具是受到了认知和意识的控制，因此基于兴趣或自主性提示的吸引力更大，也更持久。图7-1 注意力被自主关注到小汽车玩具上 7.1.3 注意力机制的本质在注意力机制的背景下，我们将自主性提示称为查询（Query）。对于给定任何查询，注意力机制通过集中注意力选择感官输入，这些感官输入被称为值（Value）。每个值都与其对应的非自主提示的一个键（Key）成对，如图7-2所示。通过集中注意力，为给定的查询（自主性提示）与键（非自主性提示）进行交互，从而引导选择偏向值（感官输入）。图7-2 注意力机制通过集中注意力将查询和键结合在一起可以把图7-2所示的注意力框架进一步抽象成图7-3，这样更容易理解注意力机制的本质。在自然语言处理应用中，把注意力机制看作输出（Target）句子中某个单词和输入（Source）句子中每个单词的相关性是非常有道理的。目标句子生成的每个单词对应输入句子中的单词的概率分布可以理解为输入句子单词和这个目标句子生成单词的对齐概率，这在机器翻译语境下是非常直观的：在传统的统计机器翻译过程中，一般会专门有一个短语对齐的步骤，而注意力机制的作用与此相同，可用图7-3进行直观表述。图7-3 注意力机制的本质在图7-3中，Source由一系列数据对构成，对于给定Target中的某个元素Query，通过计算Query和各个Key的相似性或相关性，得到每个Key对应Value的权重系数，然后对Value进行加权求和，即得到了最终的注意力值。所以本质上注意力机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。可以将上述思想改写为......