法律人工智能导论_姜伟 主编;江溯;邹劭坤 副主编_AZW3_MOBI_EPUB_PDF_电子书(无页码)_姜伟 主编;江溯;邹劭坤 副主编
内容节选
第一节 文本表示和文本相似 自然语言处理( NLP)领域中文本表示通常是NLP 的第一步,也是各类任务的基石。文本表示的过程是将文本的内容向量化的过程,通俗来讲就是让计算机以数字化的形式表示人类自然语言的过程。经过表示后的文本可以很容易地利用各种度量方式来度量文本之间的相似度,这个过程就是文本的相似性度量。在法律人工智能领域,各类法律文本的数字化表示涉及文本表示,案件相似度对比则与文本相似相关。本节围绕文本表示和文本相似进行阐述与介绍,两者可以被认为是上下游的关系。 一、字词的表示 在自然语言处理领域中,组成文本的基本单位是字与词,字词的表示可以被视为文本表示的基础。广义上的文本表示包含字词表示,我们这里讨论的文本指的是句子以及篇章的形式。文本中词汇的表示可以分为离散表示和分布式表示两种形式。 (一)离散表示 文本经过分词工具的处理后会生成词汇的序列,把所有的词汇放在一起并去重后就组成当前语料库的词表,其中语料库可以理解为是需要处理的文本的集合。离散表示中最经典的就是独热编码( One-Hot)表示方法。该方法会针对每个词汇生成一个词表大小的全0向量,仅在该词出现的下标位置,值置为1。例如: 词表( Vocab)={人民法院,依法,独立,行使,审判权} 词汇“审判权”的One-Hot表示为:[0, 0, 0, 0, 1] 词汇“人民法院”的One-Hot表示为:[1, 0, 0, 0, 0] One-Hot表示方法的优点在于:简单、有效。但是缺点也较为明显:词汇与词汇之间存在语义鸿沟(词汇之间存在语义鸿沟是由于在One-Hot表示方法中,每两个词汇之间无论语义是否相近,其相似度均相等,因此,无法准确度量词汇之间的相似性) 。并且,当语料中的词汇数量大幅增加时,向量的维度也会增加,因此这种表示方法会带来大量的空间浪费与高稀疏性。 (二)分布表示 由于离散表示方法所带来的问题,研究人员开始考虑是否可以利用低维空间来表示高维空间的数据,并且利用“类似”二进制的思想可以在较小的空间中表示多个数(如4位二进制码可以表示16个数) 。如果每位数值都是浮点型的,则数据表示的范围可以从2n上升到∞。Tomas Mikolov, et al, Efficient Estimation of Word Representations in Vector Space, https://arxiv. org/abs/1301. 3781(2013), last access: Jun. 28, 2020.Yoshua Bengio et al, A Neural Probabilistic Language Model, Journal of Machine Learning Research, Vol. 3:6, p. 1137-1155 (2003).Matthew E. Peters, et al, Deep contextualized word representations, https://arxiv. org/abs/1802. 05365(2018), last access: Jun. 28, 2020.Jacob Devlin, et al, Bert: Pre-training of Deep Bidirectional Transformers for Language Un-derstanding, https://arxiv. org/pdf/1810. 04805. pdf(2018), last access: Jun. 28, 2020. Word2Vec 就是 NLP 领域较为经典的分布式表示方法。这个方法是2013年Google受到神经语言模型NNLM 的启发而提出的词向量模型,在NLP领域拥有里程碑式的意义。后期的ELMo、 BERT、 GPT的诞生都受到词向量的影响。 Word2Vec旨在解决One-Hot表示方法的语义鸿沟以及稀疏性的缺陷,提出了词向量的训练方式,即利用上下文来表示词汇的含义。这样训练得到的词向量就能够含有语义的特征。相较于One-Hot,Word2Vec具有以下四点优势: (1)词向量的维度可以人为设定。 (2)不需要标注数据即可训练。 (3)词向量之间可以利用适当的度量方式进行相似度计算。 (4)训练得到的词向量,语义相似的词汇在空间上也相近,并且具有较好的推理能力。 在利用Word2Vec方法表示词汇之后,先前离散词表示的例子可能会变成如下情况: 词表( Vocab)={人民法院,依法,独立,行使,审判权} 词汇“审判权”的词向量表示为:[ 0. 546, 1. 253, 0. 142, 0. 954, 2. 035, ... ] 词汇“人民法院”的词向量表示为:[ 3. 012,......
- 信息
- 绪论
- 第一节 人工智能与法律
- 第二节 法律人工智能发展历程
- 第三节 各国对待法律人工智能的态度
- 第四节 法律人工智能的发展趋势
- 第一编 外国的法律人工智能
- 第一章 英美法系的法律人工智能
- 第一节 美国的法律人工智能
- 第二节 英国的法律人工智能
- 第三节 加拿大的法律人工智能
- 第四节 澳大利亚的法律人工智能
- 第二章 欧盟的法律人工智能
- 第一节 欧盟电子司法战略(2019—2023年)
- 第二节 德国的法律人工智能
- 第三节 法国的法律人工智能
- 第四节 芬兰的法律人工智能
- 第三章 亚洲国家的法律人工智能
- 第一节 日本的法律人工智能
- 第二节 韩国的法律人工智能
- 第三节 新加坡的法律人工智能
- 第四节 印度的法律人工智能
- 第四章 其他金砖国家的法律人工智能
- 第一节 俄罗斯的法律人工智能
- 第二节 巴西的法律人工智能
- 第三节 南非的法律人工智能
- 小结
- 第二编 中国的法律人工智能
- 第五章 智慧立法
- 第一节 智慧立法的必要性
- 第二节 智慧立法的发展历程与趋势
- 第三节 智慧立法发展应用的主要障碍
- 第四节 对智慧立法未来发展的展望
- 第五节 智慧立法典型案例
- 第六章 智慧警务
- 第一节 智慧警务概述
- 第二节 智慧警务的应用场景
- 第三节 智慧警务的未来展望
- 第七章 智慧法院
- 第一节 智慧法院的历史进程
- 第二节 智慧法院典型应用场景
- 第三节 智慧法院的未来展望
- 第八章 智慧检务
- 第一节 智慧检务的历史进程
- 第二节 智慧检务的应用场景
- 第三节 智慧检务的未来展望
- 第九章 智慧律师
- 第一节 概述
- 第二节 国外智慧律师发展情况
- 第三节 我国智慧律师的发展现状
- 第四节 智慧律师在律师业务中的实际应用
- 第五节 智慧律师的未来发展
- 第十章 法律科技
- 第一节 法律科技的概述
- 第二节 法律科技在中国的发展阶段
- 第三节 法律科技的应用场景
- 第四节 法律科技对中国法律市场的影响
- 第五节 总结与展望
- 第三编 法律人工智能的原理
- 第十一章 中文语言的法律人工智能原理
- 第一节 文本表示和文本相似
- 第二节 信息抽取
- 第三节 文本分类
- 第四节 知识图谱
- 第五节 阅读理解
- 第六节 搜索与推荐
- 第十二章 英文语言的法律人工智能原理
- 第一节 法律人工智能技术导论
- 第二节 法律论证建构模型
- 第三节 法律信息检索系统
- 第四节 论证结构与信息采集的结合:认知计算
- 第十三章 法律人工智能的应用场景
- 第一节 法律检索
- 第二节 法律问答
- 第三节 法律推理
- 第四节 文本生成
- 第五节 案件和主体画像
- 第六节 证据分析指引
- 第七节 情节判定
- 第八节 裁判尺度分析
- 第九节 案件可视化
- 第十四章 法律人工智能的技术“瓶颈”
- 第一节 人工智能的发展“瓶颈”
- 第二节 法律人工智能的技术“瓶颈”
- 第三节 新方向的探索
- 第四编 法律人工智能的影响
- 第十五章 对法律职业的影响
- 第一节 法律职业会消失吗
- 第二节 法律职业的忧虑与争议:真正的问题是什么?
- 第三节 技术的力量:作为冗余的法律职业?
- 第四节 法律的未来:法律消逝而代码永存?
- 第五节 认真对待法律职业
- 结语
- 第十六章 对司法程序的影响
- 第一节 数字技术应用与智能司法:控制犯罪之维
- 第二节 科技的司法应用需要解决的法律技术性问题
- 第三节 数字技术应用与智能司法:对正当程序的影响
- 第四节 数字技术应用下隐私权和信息安全的保障
- 结论
- 第十七章 对法学研究的影响
- 第一节 对法学研究对象的影响
- 第二节 对法学研究方法的影响
- 第三节 对法学研究主体素质养成的影响
- 结语
- 第十八章 法律人工智能的未来
- 第一节 AI法官的现状如何
- 第二节 AI法官的应用障碍
- 第三节 AI法官的发展
- 结语
- 附录一: 人工智能法学研究综述
- 第一节 人工智能法学研究的概况
- 第二节 人工智能的刑事法律问题
- 第三节 人工智能的民事法律问题
- 第四节 人工智能的立法建议
- 第五节 法律人工智能的相关问题
- 第六节 自动驾驶汽车的相关法律问题
- 结语
- 附录二: 欧盟各国司法数字化水平分析报告