论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

论坛简介

由《农业图书情报》编辑部主办的2019全国图书情报青年学术论坛于1月7号在冰城哈尔滨胜利落下帷幕。此次论坛云集了来自北京大学、清华大学、中国科学院、南京大学、武汉大学、复旦大学,北京理工大学、黑龙江大学、中国农业科学院、中国科学技术信息研究所、中国医学科学院等50余家科研院所图书情报领域的专家学者。

2019年论坛主题“新兴技术、前沿追踪与最佳实践”,共22场学术报告。(专家报告请关注公众号的后续报道)。

专家简介

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

肖仰华,复旦大学计算机学院教授、博士生导师、复旦大学知识工场实验室创始人、上海市互联网大数据工程技术中心副主任、多家规模企业包括阿里、滴滴等高级顾问与首席科学家、知识图谱前沿技术系列课程发起人。国际顶级学术会议与期刊(包括SIGMOD、VLDB、ICDE、IJCAI、AAAI、TKDE等)发表论文百余篇,授权近20项知识图谱专利。领导构建了知识库云服务平台(知识工场平台kw.fudan.edu.cn),发布了一系列知识图谱,以API形式为数百家应用单位服务近10亿次。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

大数据时代的知识工程与知识管理

01

知识工程与知识管理

02

互联网应用催生大数据时代知识工程

03

大数据时代的机遇—自动知识获取

04

知识图谱引领知识工程复兴

05

大数据时代知识工程带来的改变

报告内容

01

知识工程与知识管理

1.1 知识管理

情报信息包括知识管理相关领域做的一件事情就是把人类历史上我们各行各业所产生的知识有效的管理并运用起来。实际上知识管理从它诞生之日起,就暗含着要去使用很多先进的技术,要去跟很多技术相融合。比如说KM(Knowledge Management知识管理),本身就是要求使用知识工程(Knowledge engineering KE)的很多技术,而知识工程在人工智能里面是非常重要的,是让机器能够利用人类和专家的知识来解决实际问题为主要目标的学科分支。我们看这两个学科基本的脉络和架构,我们会发现这两个学科之间的交叉是非常的显著。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

 

1.2 知识工程

知识工程最早的发展,就是思考能不能让机器具备像人一样的思考能力。很多科学家提出了自己的思路,最早期的一类思路叫做符号主义,我们今天在大数据时代又重提符号主义,那么它最核心的思想是什么呢?认为智能的本质就是符号的操作和运算,其提倡者是Newell和Simon。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

这个观点后来又被阐述为:AI系统的本质就是知识+推理。例如,我问3乘4等于多少,你将毫不犹豫的回答我12。如果是更复杂的算术,你就会拿一张纸一点点去写,去算,而算的过程就是符号操作的过程。所以AI系统本质就是要么你记住直接拿来用,要么推理。把知识融合在机器中,让机器能够利用我们人类知识、专家知识解决问题,这就是知识工程的内容。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

1.3 传统的知识工程面临的困难

在上世纪七八十年代知识工程最盛行的时候,它的确解决了很多的问题,但是这些问题都有一个很鲜明的特点,他们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功。事实上目前整个人工智能大部分的成功都有着这样一个非常苛刻的条件。换句话说,如果我们的应用场景是开放性的,很多传统的人工智能手段要应对这样的场景仍然是捉襟见肘,但是开放性应用恰恰是我们这个时代最重要的特点。那么传统知识工程为什么有这么苛刻的条件呢?因为它是一种典型的自上而下的做法,是一种严重依赖专家干预的做法。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

传统的知识工程需要领域专家先把领域的知识给表达出来,再由知识工程师把领域专家表达的知识形式化,在整个系统建好之后,还需要有用户的反馈,所以传统的专家系统和知识工程非常依赖人工参与。正因为它十分依赖人工的参与,所以建出来的知识库往往规模有限,而建出来的知识在质量上往往也会存疑。

传统的知识工程面临着两个主要的困难:

第一,知识获取困难。

我们在实际应用当中,你会发现很多知识是难于表达的,因为它是一种隐性知识,过程知识。

还有很多领域的知识形式化的表达是非常困难的。比如说我们要表达一个几何体,你写着很多很多规则而后面的规则也许就会覆盖前面的规则,而且有很多规则会不一致。

第二,知识应用困难。

我们很多的应用,尤其是很多开放性的应用很容易超出预先设定的知识边界,这是遇到的第一大困难。

还有很多应用需要常识的支撑,而整个人工智能最怕的恰恰就是常识。为什么?因为常识它难以定义、难以表达、难以表征。目前在国际上对于到底常识是不是能够符号化表征是存在争议的。

第三,很难处理异常情况。实际应用当中会有很多异常。比如大部分的鸟是能够飞的,但是鸵鸟就不能飞,企鹅也不能飞。所以传统知识工程你会发现到了2000年就开始衰落了。

02

互联网应用催生大数据时代知识工程

2.1 大规模开放性应用

互联网是一种典型的大规模开放性应用,实际上它的应用要求推理都很简单,我们永远不知道用户下一个搜索关键字是什么?我们做了那么多图书的系统,检索的系统,有多少人在用?学生首先想到的到谷歌上搜,很少想到图书馆上去搜,用户可能创造了很多新的搜索关键词你都不理解。我们必须要建立能够理解这些开放性应用的一些新的词库。

2.2 精度要求不高

搜索引擎从来不需要保证每个搜索的理解和检索都是正确的。

2.3 应用/推理简单

大部分搜索理解与回答只需要实现简单的推理,举个例子现在的谷歌或者百度搜索,能够回答你姚明身高是多少你就很开心了,即使有一些复杂推理也是少数的。

03

大数据时代的机遇—大规模自动知识获取

这个背景下,2012年谷歌推出了自己的知识表述方法,叫做知识图谱。知识图谱的诞生某种程度上宣告了我们的知识工程进入了全新的阶段。我们称之为叫做大数据时代的知识工程阶段。大数据时代的到来不仅仅是催生了新型的知识表述,其实知识图谱的出现并不是偶然的,是有必然性的。大数据时代同时也给知识图谱技术的发展奠定了丰富的土壤。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

首先来讲大数据时代的一系列技术的发展。在大数据时代我们有什么?我们有前所未有的海量的数据,我们还有前所未有的算力,还有层出不穷各种各样的模型,这些都取得了飞速的进展和进步。

现在深度学习领域的新模型几乎以天为周期在产生,所以在这种支撑下使得传统知识工程的一个瓶颈性问题——知识获取,靠人去做知识获取的这个问题得以解决。使得我们可以实现自动化的大规模的知识获取,这是一个重大机遇,也是大数据知识工程给我们带来的最大福利。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

它跟传统的知识获取不一样,以前是自上而下,从人的视角怎么去获取知识,而现在完全是自下而上的。我们从数据里面去挖掘知识、抽取知识。在很多图书情报领域我们有很多数据的,还有一些用户的数据,这些数据就是宝库,能不能从这些数据自动挖掘出很多的知识,这个就非常关键。

实际上对于整个知识图谱发展,你可以去看在2011年、2012年发生了什么?其实发生的事情就是从数据里面抽知识,从Web语料当中抽知识,后来又在电商平台用购物篮,用搜索日志在搜知识,都可以挖掘出来非常多的知识。有人在搜“红色连衣裙”,那就意味着“红色”肯定是可以用来修饰连衣裙的,它是连衣裙的一个属性。还有购物篮里面你会发现很多人,把猫粮等等一起买,这些物品都是对应着养猫必备的场景。大数据时代还给我们提供了一些众包技术,高质量UGC,可以给我们提供很多的样本,提供非常高质量事实的来源。 

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

总的来说大数据的时代到来,使得整个传统知识工程里面的知识库技术突破了长久以来制约发展的规模和质量瓶颈,知识图谱可以说是这一技术发展具有代表性的产业。知识工程在知识图谱技术引领下进入了全新阶段,叫做大数据时代知识工程阶段,大数据知识这个词是BigKE,它将会显著提升机器认知智能水平,大数据知识工程对我们人工智能最根本的意义是什么?是提升机器的认知智能水平。我们整个人工智能可以说感知智能这个阶段的历史使命基本完成,下一波最重要的技术实现是让机器实现认知。

04

知识图谱引领知识工程复兴

既然是一个语义网络就包含各种各样的语义关系,其实知识图谱发展到今天已经不单单是语义网络受到了关注,很多实际应用当中已经在开始考虑很多其他的表示,我们已经不单单是NoKG,像传统的一些规则,对我们同样意义重大。比如说像决策数等等,这些东西我们在很多数据上去挖掘,我们想把用户消费的心理过程重建,这些都是领域知识,是非常重要的知识。可以说在大数据的赋能下,我们整个知识工程面临全新的机会,因为我们已经从小数据时代过渡到大数据时代。

大数据知识工程时代,为什么知识图谱受到了这么多的关注呢?

第一,机器要想认知语言、理解语言,需要知识图谱。它里面富含那么多的实体和概念之间的语义关系,实际上可以用作背景知识来支撑机器理解自然语言,知识图谱就是其中非常重要的背景知识。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

目前很多研究论文都在把知识塞到很多NLU阅读模型后面,阅读理解、问答等等。比如说我说刘德华,大部分同学都知道我说的是影星的刘德华,因为你有这个背景知识,否则机器怎么理解刘德华开演唱会这句话呢?所以NLU跟知识的融合将会是普遍的一个趋势,它也是我们一直梦寐以求想做到的一件事情,这是自然语言理解走的必经路径。而我们当年整个人工智能处在什么阶段呢?叫做人机混合的智能阶段。

第二,就是智能不管发展到哪一天,我们都希望机器是为人服务的。既然机器是给我们服务的,我们人是要求有解释的,你不可能给我答案不给我过程。比如说司法机器人,不能说宣判你有罪,但是不告诉你为什么?很多问题都是要解释的,司法、医疗等等。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

知识图谱里面包含什么呢?包含概念、属性和关系,这些实际上是天然可以用来做解释的。知识图谱对于机器学习能力的提升也是非常重要的,虽然我们现在很多人在看机器学习,在用机器学习的模型和方法解决问题,但是实际上整个机器学习事实上是很笨的,它对于小样本、开放性学习、建造性学习、经济学习都有很多问题。我们小时候学东西,你父母说这是猫和狗,他教了几次你就会了,但是谷歌要教机器几千万次,人要教10次的话估计你父母就要不耐烦了。实际上人是很经济有效的在学习,一两个样本就够了,为什么呢?因为人是有知识的,而且能够利用知识,你区分是猫和狗之前你有动物的知识,在你脑子里面形成了这些知识。整个机器学习的机遇就是利用知识去赋能这些机器学习来降低机器学习对于样本的依赖,利用知识来指导样本的生成等等,来增强机器学习的能力。所以机器学习或许下一次机会就是跟符号知识的深度融合

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

知识图谱不单单是说能够从理论上解决这些问题,对于一系列实际应用也非常有用。比如说对于搜索,所有人都希望做到语义搜索,这必须要用知识图谱来支撑。将来就是要做到想搜什么都能够搜到。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

所有的推荐都更主动。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

还有就是问答,智能问答,很多机器人的问答,这些其实背后都是有知识图谱来做支撑的。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

再就是智能解释。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

05

大数据时代知识工程带来的改变

整个BigEK为知识管理带来了全新的机遇,现在看一看大数据时代知识工程到底能够给我们的图书情报领域,给知识管理领域,给信息管理领域带来什么机遇。

5.1 提升知识的自动化获取程度

当前我们虽然还是处于人机混合阶段,但是70%~80%的工作都可以做到全流程自动化的知识获取。我们在复旦的知识工程平台可以做到全天候知识的获取和抓取,每天都有很多从互联网抓到的新知识到我们库里面,整个过程是无人干预的。

5.2 全面提升知识编辑效率—辞书出版

全面提升知识边界的效率,还有一些需要词条自动化链接,可以做到自动的编撰,一个新的词条出来了,自动帮你生成一句话的摘要来解释这句话的词条。

5.3 革新出版阅读形式—图书出版

革新出版阅读形式——深度阅读。把书里可能用到所有的知识点全部自动的从互联网获取并整理好,然后你只要看到这本书,轻轻点击它的知识点就都出来了。深度阅读关键技术已经成熟,这有可能对阅读传统形成颠覆。

5.4全面提升科技情报服务内涵—图书情报

实际上如果能够把一个领域,比如说现在做的机器学习,我们能够把计算机或者是人工智能学习的知识图谱构建出来,实际上这件事情将会非常有用。现在这个技术基本上是成熟的,可以做到全自动。只要给篇文献,就可以把这个学科整个的词汇全自动的建好。建好之后有什么用呢?第一,从事图书情报本身管理工作的人力将大大解放,图书的自动归类可以执行。第二,通过把知识图谱跟实体链接、关系抽取等等这些术语关联自动建好,你才能知道具体的谁在做这些相关工作。

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

5.5 实现细粒度知识表示与获取

实现细粒度知识表示与获取。比如说法律、政策、规定,有的时候是条款级别的,有的时候是结果级别的,能不能做细粒度的切割和表示。

5.6 提升知识访问的敏捷性

第一,体现在搜索上,基本上是可以做到搜得到,搜得准。在很多大企业都在在落地和实践,像华为有全世界最大的文档资源库。

第二,问答式的知识获取,以后想要什么知识不要再搜关键字,只是给机器提一个问题就好了。知识问答,现在这个技术目前基本上成熟了。我们现在可以做到各种各样的问法都能够理解,各种各样的推理都能够做。

5.7 促进知识的传播与分享

论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

我们常遇到的问题是到底把这个文献推给谁,到底哪个专家能够解决这个问题,需要建立在什么样的前提下,都建立在对这个人的知识技能精准的画像,做技能的画像,精准的推荐。 

5.8 提升知识的可视化效果

很多的知识点之间是有关联的,这就是知识体系的一个概念。我们把这些体系以一种图形化的,友好的方式呈现给我们的用户,相信这种知识点的关联会有更多人愿意用,所以知识的形式也是非常重要的。

06

总结

大数据时代,知识工程给图书情报、知识管理领域带来了前所未有的机遇与挑战。我本人非常激动,现在整个图书情报领域面临着非常大的机遇,把技术的整合与应用做好,可以预见整个知识管理、图书情报领域的第二个春天很快就会到来。

本文为录音整理,经本人确认授权后发表

转载请联系编辑部并注明来源

原文始发于微信公众号(农业图书情报):论坛报告|肖仰华教授:大数据时代的知识工程与知识管理

About the Author: DH