语音播报
简单问题需要复杂处理
汪昆先描摹了机器人参加高考的情境:在读文字、听听力、识图的过程中,机器人首先要把人类的语言、图形“映射”为计算机能够处理的形式语言,再进行分析、理解和处理,最后以人类能够理解的方式呈现答案。
“这个过程会涉及语音识别、自然语言处理、自动问答和自然语言生成等诸多环节。”汪昆说。假如,我们给机器人出道题——姚明的身高是多少?对于这句话,机器人首先并不清楚哪几个字是一个词,它就要先做中文分词,然后进行具体命名实体识别,把这个句子里关键的人物、地点等信息识别出来,接着进行句法和语义分析,最终理解问题后,再在相应的知识库去搜索答案,然后以人类的方式给出回答。
机器人知识库的形成可以通过人工总结,也可以通过在互联网大数据库中自动挖掘。“相比之下,人工总结的方法成本较大,可靠性比较有保证。而网络数据量大、时效性强,但有时受网络资源本身的限制,有可能会产生一些误差甚至错误。”汪昆说。
“推理”让机器人“头大”
姚明身高的问题可能还相对简单,如果换成“姚明老婆的身高是多少”,机器人的“大脑”可就得多转几圈了。“因为这涉及知识推理。”汪昆解释说。机器人要把“姚明老婆”的表述准确转化为“叶莉”,再到有关叶莉的知识库里去搜寻答案。如果一个表达涉及多层的语义转化和推理,对机器人来说就比较难了。
目前,“机器人高考”的每一个技术层面都有需要进一步攻克的难点。比如,自然语言处理目前在中文分词和实体识别上的准确率是95%以上,而对于更难的句法和语义分析,仍有待提高。对于比较复杂的知识推理,机器人处理起来会觉得很“头大”。
汪昆介绍说,相比中文,英文更容易被机器人理解。一方面由于英文的相关技术研发起步早、发展快,另一方面因为英文本身语言上的特点,便于机器人进行判断。
据了解,目前我国在机器人自然语言处理及机器翻译上的技术水平已经达到国际领先,跟欧洲的技术水平不相上下,而跟该领域的强国——美国相比,差距也在逐渐缩小。但是,无论是哪一个国家,要实现机器人的自然语言处理水平跟人类一样,还有很远的路要走。
多国竞技“高考”机器人
可见,以目前机器人的“智力”来说,要在高考中拿满分,成为真“学霸”还是很难的。“现在如果让机器人参加高考,可能英语的分数会相对高些,因为比起语文、数学等,推理的难度相对小一点。”汪昆说。我国目前也有一批科研团队在专门研究“高考机器人”,目的就是通过“高考”这个应用场景以点带面,不断攻关难题,带来相关技术的突破,拓展机器人应用。
实际上,其他国家也在“高考”机器人方面展开了竞技。日本国立信息学研究所等机构在2011年启动“东Robo君”人工智能开发项目,目的是让机器人“东Robo君”在2021年前通过东京大学入学考试。尽管它近几年的考试成绩跟东京大学的分数线还相差较远,但每一年都会有进步。IBM的机器人Watson曾在知识答题节目中击败两位人类选手,如今还在不断进行金融服务、零售、医疗等方面的深度学习,创造力不断提升,甚至能自己设计菜谱。
汪昆对我国未来自然语言处理技术的发展很有信心。他认为,做针对中文的机器人自然语言处理研究,我国科研人员更有优势。“这是母语,而且现在我国一大批互联网公司兴起,互联网+氛围浓厚,很多创新创业都会涉及自然语言处理的相关技术。由于国家支持,很多公司愿意投入,这样就会有更多的人才进入这个领域,很多学生也愿意从事相关方面的学习和技能培训,一个良性发展的创新圈已经形成。”
(原载于《经济日报》 2015-06-18 15版)
© 1996 - 澳门赌场 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 澳门赌场 版权所有 京ICP备05002857号-1 京公网安备110402500047号 网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话: 86 10 68597114(总机) 86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn
© 1996 - 澳门赌场 版权所有
京ICP备05002857号-1
京公网安备110402500047号
网站标识码bm48000002
地址:北京市西城区三里河路52号 邮编:100864
电话:86 10 68597114(总机)
86 10 68597289(总值班室)
编辑部邮箱:casweb@cashq.ac.cn