NLP典型任务:词性标注、命名实体识别、共指消解、句法分析 [1] 面向不同NLP任务,人们制定不同的待预测的语义结构空间:文本分类是最简单的情形,即预定义的类别体系,最常见的如情感分类是postive、neutral、negative三类;中文分词是词边界的标记;词性标注是句子中每个词的词性标签(如名词、动词、形容词、副词、连词、介词等);命名实体识别是标记哪些词(或多词)是实体名及其实体类型(如人名、地名、机构名等);共指消解是标记哪些词在做指代以及指代的是前面出现的哪个概念或实体;句法分析则是将句子背后的句法树结构或依存结构预测出来。 02自然语言理解的关键是语义表示 不过,以上NLP任务都只是在不断“逼近”对文本的理解,是对文本语义的局部表示。要实现对文本的完整理解,需要建立更完备的语义结构表示空间,这种更完备的语义表示经常成为上述NLP任务进行结构预测的依据。 在统计学习时代,一般采用符号表示(Symbol-based Representation)方案,即每个词都看做互相独立的符号。 例如,词袋模型(Bag-of-Words,BOW)是最常用的文本表示方案,忽略文本中词的出现顺序信息,广泛用于文本分类、信息检索等任务。N-Gram也是基于符号表示的语言模型,与BOW模型相比,将句子中词的出现顺序考虑了进来,曾在机器翻译、文本生成、信息检索等任务中广泛使用。 到深度学习时代,一般采用分布式表示(Distributed Representation或Embeddings)方案,每个语言单元(包括但不限于字、词、短语、句子、文档)都用一个低维稠密向量来表示它们的语义信息。分布式表示是深度学习和神经网络的关键技术。分布式表示方案是受到了人脑神经机制的启发,基本思想是[2]: Each entity is represented by a pattern of activity distributed over many computing elements , and each computing element is involved in representing many different entities. 很大程度上,这种表示方案与索绪尔对语言符号的任意性和结构主义的观点不谋而合。从计算角度来看,NLP很多应用任务就是在判定两个语言单元间的语义相似度,如信息检索是在短语(查询词)和文档之间,文档摘要是在句子和文档之间,分布式表示也为在不同语言单元之间计算语义相似度提供了统一的语义表示基础。 由于忽略了对词语内部语义或词序信息的考量,基于符号表示的词袋模型或N-Gram失之粗略,也受到数据稀疏问题的影响;基于分布式表示的深度学习虽然极大提升NLP性能,却更多只能作为NLP内部表示,可解释性不够。实际上,也有很多学者提出Semantic Parsing任务,探索各类对文本语义更完整的表示和建模方案,仍未得到令人满意的结果。 总之,自然语言理解任务的本质是结构预测,关键则是对语言单元的语义表示能力。那么,自然语言理解为什么难呢,这需要我们先看一下,自然语言都有哪些特点。 03自然语言有哪些特点 自然语言是人类在认识世界和改造世界的过程中产生的,归根到底是自然界的产物,因此被称为自然语言。自然语言本身受到人脑语言能力的支配,伴随着人类社会而演化,作为人类使用的最庞杂的符号系统,有很多特点。 创新性 作为人类信息交流的工具,自然语言需要具有强大的创新活力,随时引入对最新概念、表述和意义的表达能力。这方面最常见的就是新词以及旧词新意的出现。 例如,有个笑话就是母女二人对“潮”和“晒”产生的不同理解,女儿本意是让母亲帮忙在太阳下晒发潮的被子;而母亲却理解为在朋友圈“晒”女儿的被子让大家看是不是很“潮”。可见,这位母亲大人本人还是很“潮”的,熟练掌握了两个词的的最新意思。 潮和晒 人类语言的创新活力伴随着互联网发展和在线交流的日益密切而更加明显。北京大学邵燕君等学者主编的《破壁书》应该是近年这方面的集大成之作,有兴趣的读者可以读下。我理解,这个书名“破壁书”,也算化用《三体》“破壁人”的一个新词。
解码二次元新词的《破壁书》 新词和旧词新意等都扩展了人类语言的表意空间,也扩展了自然语言理解进行结构预测的语义空间。而这种扩展,带有较强的随意性,缺少严格的描述信息或足够的数据支持,从而为自然语言理解带来挑战。 递归性 以语言学巨擘乔姆斯基为代表的学者认为,递归性(recursion)是人类语言的最重要的特性[4],这也是乔姆斯基提出转换生成文法的内在动机。虽然,递归性是否为人脑先天具备的语言能力有很多争论,至少从汉语英语两大语言来看,语言表现出的递归性特点不言而喻。 例如最近中美之间出现的这则有意思的表述,就集中反映了语言递归性:S1=”美国干涉中国内政“是一个拥有完整主谓宾结构的句子,被作为另外一个句子S2=”中国 抗议 x的法案“中”法案“的定语x;而S2又被作为了S3=”美国 抗议 y 是在干涉内政“中”抗议“的宾语y。
三餐二楼欢迎新老师生前来就餐 再如”无线电法国别研究“,虽然从句意上有”无线电 法国 别研究“这种理解的可能性,但作为一本专著的书名,只可能是”无线电法 国别 研究“这种理解。 无线电法国别研究 只是对于计算机而言,如何有效理解语言所处的开放复杂语境,从而实现对语言语义的准确理解,仍是挑战性难题。这既与尚未建立有效的结构语义表示空间有关,也与计算机还不能像人那样进行跨模态的高效学习和理解有关。如何有效识别语言理解所需的语境信息,并建立跨模态多通道的建模,依然任重道远。 05 小结 这里总结了我对自然语言理解到底难在哪儿的看法。自然语言理解作为人工智能的核心问题,正引起越来越多研究者的兴趣,在各类任务上努力探索,自然语言处理最重要的国际学术年会ACL 2020共有3000多篇投稿,受关注程度可见一斑。 自然语言理解大致有不同的层次,我总结研究路径可以大致为:字斟句酌,实现句级消歧和精准理解;瞻前顾后,初步实现文本内的复杂语境建模,建立篇章或对话理解;博学多识,引入更多外部知识,实现跨模态更复杂语境的理解;善解人意,考虑语言的社会性和主观性因素,实现更有”人性“的自然语言理解;冥思苦想,将语言作为思想工具,实现从语言理解到语言使用的跨越,实现创作和规划的能力。 语言是人类文明的象征,是人类智能的集中体现,因此得到非常多学科从不同角度的思考和关注,如语言学中对句法、语义等问题建立的理论,心理语言学对人类语言习得的探讨,语言哲学对语言与世界关系的探讨,认知语言学对隐喻和范畴等问题的探讨,神经语言学对人脑的语言功能的研究,汉语言学界对于汉语流水句、”王冕七岁上死了父亲“等语言现象的研究,等等。这些,都对人类语言不同侧面的特点进行了卓有成效的考察。 自然语言理解的目标是让计算机掌握人类语言能力,需要充分了解和融合这些对人类语言的已有探索成果,以逼近人类语言的本质,才能更好地设计结构化语义表示空间,实现多模态复杂语境的理解,像人那样智能地理解和使用语言。希望有朝一日,计算机也能读懂#NLP太难了#、#自然语言理解太难了#两个话题标签下的那些话。 重磅推荐 本文作者是清华大学计算机系副教授、博导刘知远老师,如果你想和老师“近距离”沟通交流,欢迎来参加学堂在线和刘知远老师共同策划、刘知远老师亲授的《自然语言处理训练营》! 点击图片,了解详情 训练营不仅包含丰富的录播课程,还有多次直播课程,除此之外,课程还包含6大实训案例,覆盖NLP主流应用!学完通过考核,还可获得由主讲老师签名的证书! 最终考核成绩如果达到90分,就可获得全额奖学金;成绩达到60分,可获得半额奖学金!超值! 距离开课已不到10天!感兴趣的同学快来吧! 现在加入,还有拼团特惠,可立减800元!👏 详情请扫码添加学堂CC进行咨询。 学堂CC 参考文献:[1] Julia Hirschberg and Christopher D. Manning. Advances in Natural Language Processing. Science, 2015.[2] Hinton, Geoffrey E., James L. McClelland, and David E. Rumelhart. Distributed Representations. Pittsburgh, PA: Carnegie-Mellon University, 1984.[3] 索绪尔[瑞士]. 普通语言学教程. 北京: 商务印书馆, 1980.[4] Marc D. Hauser, Noam Chomsky, and W. Tecumseh Fitch. The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?. Science, 2002: 1569-1579.[5] James W. Pennebaker. The Secret Life of Pronouns: What Our Words Say About Us. NY: Bloomsbury, 2011.[6] Cristian Danescu-Niculescu-Mizil, Lillian Lee, Bo Pang, Jon Kleinberg. Echoes of power: Language effects and power differences in social interaction. WWW, 2012.[7] Aylin Caliskan, Joanna J. Bryson, and Arvind Narayanan. Semantics Derived Automatically from Language Corpora Contain Human-like Biases. Science, 2017.[8] 乔治.莱考夫[美]. 别想那只大象. 浙江人民出版社, 2013.