AL123 人文社科会员免费专区文学 2025-09-23

法律人工智能导论_姜伟主编；江溯；邹劭坤副主编_AZW3_MOBI_EPUB_PDF_电子书（无页码）_姜伟主编；江溯；邹劭坤副主编

内容节选

第一节文本表示和文本相似自然语言处理( NLP)领域中文本表示通常是NLP 的第一步，也是各类任务的基石。文本表示的过程是将文本的内容向量化的过程，通俗来讲就是让计算机以数字化的形式表示人类自然语言的过程。经过表示后的文本可以很容易地利用各种度量方式来度量文本之间的相似度，这个过程就是文本的相似性度量。在法律人工智能领域，各类法律文本的数字化表示涉及文本表示，案件相似度对比则与文本相似相关。本节围绕文本表示和文本相似进行阐述与介绍，两者可以被认为是上下游的关系。一、字词的表示在自然语言处理领域中，组成文本的基本单位是字与词，字词的表示可以被视为文本表示的基础。广义上的文本表示包含字词表示，我们这里讨论的文本指的是句子以及篇章的形式。文本中词汇的表示可以分为离散表示和分布式表示两种形式。 (一)离散表示文本经过分词工具的处理后会生成词汇的序列，把所有的词汇放在一起并去重后就组成当前语料库的词表，其中语料库可以理解为是需要处理的文本的集合。离散表示中最经典的就是独热编码( One-Hot)表示方法。该方法会针对每个词汇生成一个词表大小的全0向量，仅在该词出现的下标位置，值置为1。例如：词表( Vocab)={人民法院，依法，独立，行使，审判权} 词汇“审判权”的One-Hot表示为：[0, 0, 0, 0, 1] 词汇“人民法院”的One-Hot表示为：[1, 0, 0, 0, 0] One-Hot表示方法的优点在于：简单、有效。但是缺点也较为明显：词汇与词汇之间存在语义鸿沟(词汇之间存在语义鸿沟是由于在One-Hot表示方法中，每两个词汇之间无论语义是否相近，其相似度均相等，因此，无法准确度量词汇之间的相似性) 。并且，当语料中的词汇数量大幅增加时，向量的维度也会增加，因此这种表示方法会带来大量的空间浪费与高稀疏性。 (二)分布表示由于离散表示方法所带来的问题，研究人员开始考虑是否可以利用低维空间来表示高维空间的数据，并且利用“类似”二进制的思想可以在较小的空间中表示多个数(如4位二进制码可以表示16个数) 。如果每位数值都是浮点型的，则数据表示的范围可以从2n上升到∞。Tomas Mikolov, et al, Efficient Estimation of Word Representations in Vector Space, https://arxiv. org/abs/1301. 3781(2013), last access: Jun. 28, 2020.Yoshua Bengio et al, A Neural Probabilistic Language Model, Journal of Machine Learning Research, Vol. 3:6, p. 1137-1155 (2003).Matthew E. Peters, et al, Deep contextualized word representations, https://arxiv. org/abs/1802. 05365(2018), last access: Jun. 28, 2020.Jacob Devlin, et al, Bert: Pre-training of Deep Bidirectional Transformers for Language Un-derstanding, https://arxiv. org/pdf/1810. 04805. pdf(2018), last access: Jun. 28, 2020. Word2Vec 就是 NLP 领域较为经典的分布式表示方法。这个方法是2013年Google受到神经语言模型NNLM 的启发而提出的词向量模型，在NLP领域拥有里程碑式的意义。后期的ELMo、 BERT、 GPT的诞生都受到词向量的影响。 Word2Vec旨在解决One-Hot表示方法的语义鸿沟以及稀疏性的缺陷，提出了词向量的训练方式，即利用上下文来表示词汇的含义。这样训练得到的词向量就能够含有语义的特征。相较于One-Hot,Word2Vec具有以下四点优势： (1)词向量的维度可以人为设定。 (2)不需要标注数据即可训练。 (3)词向量之间可以利用适当的度量方式进行相似度计算。 (4)训练得到的词向量，语义相似的词汇在空间上也相近，并且具有较好的推理能力。在利用Word2Vec方法表示词汇之后，先前离散词表示的例子可能会变成如下情况：词表( Vocab)={人民法院，依法，独立，行使，审判权} 词汇“审判权”的词向量表示为：[ 0. 546, 1. 253, 0. 142, 0. 954, 2. 035, ... ] 词汇“人民法院”的词向量表示为：[ 3. 012,......