自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

作者:李泽南

在 11 月 7 日举行的微软 21 世纪计算大会上,来自哈尔滨工业大学的刘挺教授向我们介绍了中文信息处理技术的前沿进展。演讲过后,机器之心对刘教授进行了专访,他与我们聊到了哈工大近期在 AI 上的研究,国内外 NLP 技术的发展,以及哈工大人工智能研究院的愿景。

刘挺对于国内年轻学者的研究提出了建议,也对目前顶会论文「注水」的现象发表了看法。他还表示,明年哈工大很有可能就会开始招收人工智能专业的本科生了。

刘挺教授是国内自然语言处理(NLP)领域的领军人物,任哈尔滨工业大学人工智能研究院副院长、计算机学院社会计算与信息检索研究中心主任。刘挺是国家「万人计划」科技创新领军人才,教育部人工智能科技创新专家组成员,主要研究方向为人工智能、自然语言处理和社会计算。其所带领的哈工大社会计算与信息检索研究中心(HIT-SCIR)是目前国内顶尖的 NLP 研究机构之一。

自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

刘挺教授

以下采访内容进行了部分整理。

有关哈工大 SCIR

机器之心:作为国内顶尖的 AI 实验室,哈工大社会计算与信息检索研究中心(HIT-SCIR)近期有哪些新研究?

刘挺:我们最近进行了一些有趣的研究。首先是提出了事理图谱,常规知识图谱的每一个节点可以是名词(实体或概念),但在很多时候,我们需要去了解一些事件之间的关系,我们称之为事理。 

现在我们说的深度学习缺少可解释性,事理分析可以帮助我们解释推断的原因。这是我们最近研究的一个重点,也得到了大家的认可。但目前事理分析的方向还有存在很多挑战,我们欢迎更多的业界的同仁和我们一道继续讨论这个方向。

第二个研究有关语义理解。哈工大的句法分析技术在 2018 年的 CoNLL 国际句法分析评测中,针对 57 种语言取得世界第一的成绩,超过了斯坦福、IBM 等大学和公司。尽管如此,用同样的算法在中文和在英文上做句法分析,中文比英文差 8 个百分点左右。我觉得其中的一个核心原因就是中文天然缺少形态、时态的变化。

我们提出的「语义依存分析」方法「一步跨越了两步半」,它很像句法分析:句子分析结果也是依存树,但是词间关系已经不是主谓宾状定补等语法关系,而是施事、受事、工具,时间、地点等语义关系。通过一步到位的方法,我们现在能够得到的结果,在语义分析阶段和英文就比较接近了。我很看好这项研究未来的发展,在它做完之后,语义依存树的表示是可以直接帮助回答问题了。

在 SCIR 实验室中还有很多研究,覆盖了底层的句法、语义分析,应用层面的人机对话、情感分析、知识图谱等多方面的工作。

机器之心:您曾经说过,哈工大 SCIR 的研究工作并不面向纯理论,同时也不完全面向应用,如何在这样的指导思想下寻求突破性研究?

刘挺:哈工大是一所典型的工科大学,我们一直致力于理论与实践的结合。SCIR 实验室致力于通过和工业界的合作去了解真实问题,同时结合领域内最先进的技术进展寻求新的突破。我们希望站在比企业再超前 3 到 5 年,甚至 5 到 10 年的位置上,通过原理的创新以及纯净的方法,把技术指标向前推进一步。

通过和企业的合作,我们发现了很多真实场景下非常有趣的问题。关注国际上深度学习、机器学习等方向理论上的最前沿的突破;同时也关注国家的重大需求、企业的重大需求,然后把两者对接,在此基础上进行创新,这是我们主要的工作思路。

机器之心:自然语言处理领域(NLP)与数据的结合非常紧密,这需要与科技公司,以及传统公司展开合作。哈工大是如何与工业界展开合作的?

刘挺:自然语言处理和数据是紧密结合的,尤其是机器和用户互动产生的数据,但这些是高校等科研机构所缺乏的。其实某种意义上来讲,正是因为公司拥有大量数据、巨大的算力,才使得它们在某些方面处于领先地位,这意味着我们需要和企业进行合作。

和企业的合作除了数据的获取之外,还可以了解很多非常有价值的真实应用。我们和腾讯有着长达 12 年的深度合作,和科大讯飞也有 4 年的合作关系。我们还和很多公司开展了项目合作,如华为、阿里、小米、搜狗等。

NLP 的未来方向

机器之心:微软副总裁沈向洋博士说过「人工智能未来的突破在于自然语言理解」。在您看来,目前 NLP 领域中研究人员面临的最大挑战是什么?

刘挺:十年前,自然语言处理在计算机学科中是有些边缘化的,因为它是一个交叉学科,介于工科和文科之间。但今天 NLP 已变成了大家关注的焦点——我们认为自然语言处理是人工智能皇冠上的明珠,在这其中有技术发展阶段的原因。我们可以把人工智能分类为运算智能:比如下棋的人工智能;感知智能:如人脸识别和语音识别。而人脸识别的画面中,还有事物之间的关系,识别这些需要理解更深层次的概念,这些是认知层面的问题。感知智能发展到一定阶段的时候,大家就会很自然地把目光投射到认知智能,思考如何处理人类的抽象表达,这其中包括生活中的对话、企业内部的大量知识,它们是用文字表达的。

因此,自然语言处理正变得非常重要,同时自然语言处理还面临着文本领域迁移、文本推理等很多挑战。

自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

刘挺教授等人提出的,目前自然语言处理领域所面临的挑战。

自然语言处理的问题,嵌入到了不同行业的各个问题当中。这就是为什么很多大型互联网公司的云计算的平台可能是由一个部门提供的,但是自然语言处理却是由很多部门都在做——因为无法为不同的行业提供通用的 NLP 技术。

自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

我最近总结了自然语言处理由浅入深的四个层面:形式、语义、推理和语用,以及它们之间的关系,从上表中可以看到现在每个问题被人们研究的程度,最近的进展包括分布式语义表示的广泛采用(以 word embedding 为代表),以及知识图谱的作用。自然语言处理现在正处在从语义到推理的过渡阶段。

机器之心:听觉、视觉结合的多模态是否会是 NLP 未来很有前途的研究方向?哈工大 SCIR 是否已有这方面的研究了?

刘挺:我们在多模态方面的研究刚刚开展,我们正在研究在文本生成方向上,根据图片和视频去生成文字。

随着技术的发展,SCIR 未来会跨界地进行一些领域融合的研究。我们认为不同的模态应该会有共同的指向,比如一段视频、新闻图片周围带有文字说明,或语音识别后的文本。我们应该试图通过这些内容去理解人物的情感,理解人物之间的关系。目前人们对于跨媒体的研究仍然不太够,一个原因是大家都觉得在自己的媒体上已经做得挺好,而且可做的事还很多,但我们要认识到:人学习的过程是一个多媒体环境,机器需要模拟人从多媒体环境中学习的过程。

对年轻学者的建议

机器之心:刘教授有哪些对年轻科研人员的建议?博士生应该如何开展 NLP 方面的研究?

刘挺:现在,哈工大和国内顶尖高校的学生在 AI 顶会上能够发表很多论文,也获得了一些 Best Paper。但以我的观察,研究生们在选题立意方面还有提升的空间。年轻人有时候比较急,这也可以理解:为了博士毕业,必须发几篇文章。所以他们往往会选择一个当前比较流行的,但可能不一定那么有价值的问题,论文发出来就毕业了。他们毕业之后,下一个阶段能否沉下心来,做更具价值的研究呢?但是他又面临职称晋升。所以,我们现在的问题在于技术的跟踪能力非常强,会快速地达到世界一流的水平,但原创性、引领性还不够。我希望那些有志向的研究生在选题立意方面,要有更大的志向,选择更有价值更有挑战性的题目,不要太急,要有决心做出一点新东西来。

我们可以看看自然语言处理发展到今天,到底有什么东西是中国人提出来,被世界广泛应用的。我们有一些中文语言知识资源,比如《北大综合语言知识库》和《知网》,但是从算法层面,还缺乏很有影响力的突破性成果。国家提出到 2030 年我们要在国际上引领人工智能的发展,在未来十多年,我们的年轻人在老师的带领下,应该立更大的志向,而毕业这种特别紧迫的目标,需要适当的协调、平衡一下。

机器之心:随着 AI 的火热,人工智能顶会的论文数量也越来越多,但人们发现很多被接收的论文无法经受代码复现的推敲,您如何看待这样的现象?

刘挺:一旦论文的导向过重的时候,竞争会很激烈——当你的论文发不出来,可能影响博士毕业,影响到评职称的时候,就会有人急功近利一些。其实科学本来是允许失败的,需要鼓励探索精神,但现状是如果你的指标无法超过 Baseline 或者 state-of-the-art,论文就不容易发表,于是大家就有可能会在一些细节上做一些工程化的东西,去提高技术指标。

但论文中往往略去工程细节,而且很可能那些细节就是针对这个数据是有效的,换到另外的数据集上就无效了。这种工作发表之后,大家如果去参考、复现又达不到效果,就是浪费精力。

我们需要以更科学、更严谨的态度来对待研究,应该追求真正的原理突破:深度学习刚刚火起来的时候,在 ImageNet 上取得的进步是非常显着的。

如果是通过各种调参、工程化和论证提高一点点水平,其实往往没有多少的原理上的进步。我们应该去追求更大的挑战。

但另一方面,对于年轻的研究者而言,并不是每个人都能推动原理上的巨大进步,几个百分点的进步也不很不容易。那么那些微小的改进到底有没有价值?

我的回答是有价值。在科学的大厦里,微小的改进就像一粒粒沙,聚沙成搭,别人读了这篇论文会得到一点启发,这也是有价值的。但如果有大量的工程的细节进去,好像把指标提高了,实际上并不具有可推广性,这个就没有太大的价值了,代码无法复现的就没有价值,应该摒弃这种做法。

机器之心:国内研究机构正活跃在各大机器学习会议上。就您而言,目前国内大学和北美的一些名校相比,还有哪些需要学习、借鉴的地方?

刘挺:现在我们通过统计数字可以看到,以论文的数量来看,国内的论文有很多,我们排在非常靠前的位置。但论文的引用的数量还是不多,国际学术影响力还需要进一步提高。这是由两方面原因造成的。我觉得首先我们最大的差距还是原创精神不够,所以原创性的成果不够。

但是还有一个次要的因素,因为国外多年来在学术上的领先,所以即使中国人和美国人同时做出结果,外国人一般会倾向于引用美国人的。

我觉得国内做科研的机制导致学者们的短期压力过大:毕业的压力、评职称的压力,评上了教授之后还需要去竞争的一些头衔的压力。此外,拿各种项目的压力也比较大,各个学校的考评压力也是比较大的。

北美的教授看起来可以有更多的时间,按照自己的兴趣进行研究。我觉得我们从机制上还无法保证学者能够静下心来。所以我们在一些研究上还没有处于引领的地位。

另外,国内学术界和企业界的双向流动通道还不够畅通。像李飞飞从斯坦福离职加盟谷歌,再回到斯坦福,这在中国的企业和大学里是不容易出现的。在中国的一些互联网企业、AI 企业里也聘用了很多学者,但这些学者基本上都是来自海外高校。

国内学界与业界的通道是单向的,进入工业界后,你过了三年五载,你想再回去,高校未必有你合适的位置。这一方面从机制上也需要改进。 

哈工大人工智能研究院

机器之心:最近国内外很多大学纷纷成立人工智能学院,哈工大也在今年 5 月成立了人工智能研究院,这一机构目前有哪些正在进行的任务?

刘挺:在人工智能领域,现在有的学校成立学院,有的学校成立研究院。为了适应国家发展的潮流,除了科研以外,这些机构还要培养人才,我觉得这非常重要。哈工大搞人工智能的团队很多,有一个第三方的统计显示:哈工大培养的人工智能人才是中国最多的。

为了顺应国家新一代人工智能发展规划,哈工大的人工智能研究院在今年 5 月成立。人工智能研究院的工作分为四个层次、七个方向。

自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

  • 第一个层次是基础理论,包括机器学习、脑科学。

  • 第二层是核心技术,最主要的就是自然语言处理技术,和机器感知与模式识别。

  • 第三层是系统层面。哈工大在机器人领域实力特别强,有国家重点实验室,在这方面我们呼应新一代人工智能规划,设置了混合增强智能、自主智能这两方面。

  • 最后是第四层应用,有关智能金融、智能制造等方面。

我们希望哈工大人工智能研究院能在一段时间之后取得令人骄傲的成绩。

机器之心:哈工大未来也会像其他一些学校那样,招收一些人工智能专业的学生吗?

刘挺:哈工大已经由计算机学院向教育部提交了申请人工智能本科专业的申请。我国人工智能的人才培养现在其实有两个番号,一个叫智能科学与技术(如北大),有几十所大学是用这个番号的。

也有不少名校想叫人工智能这个名字,这个又申报了一批,这两个名称在未来或许会同时存在。包括哈工大的各家高校,从明年起很可能就会开始本科的人工智能专业招生,相关专业应该很快就会获批。 

在中国,本科叫专业,硕士博士阶段叫学科。现在国家已经在计算机方面有计算机科学与技术、软件工程和网络空间安全三个一级学科了。我们还希望能够尽快推动人工智能一级学科的建立。

现在,哈工大在硕士招生时已开始了调整。我们专门设置了一个人工智能方向的培养方案,以供今年 9 月份新入学计算机学科的同学们自行选择。将来在他们毕业的时候,校方会证明他们是人工智能方向培养的学生。他们的培养的方案体系和一般的计算机的或者软件工程会有所差别。目前,这个方向的报名非常踊跃。 自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

原文始发于微信公众号(汉语堂):自然语言处理迎来黄金时代 | 专访哈工大刘挺教授

About the Author: DH