0 引言
随着人工智能技术的飞速发展,传统搜索引擎已不能满足用户需求,自动问答系统逐渐成为信息检索领域的研究热点,并具有广泛应用前景[1]。自动问答系统指允许用户以自然语言的形式描述问句,并将简洁答案返回给用户的一种信息检索系统[2]。
近年来,自动问答系统相关的研究和应用十分广泛。2011年,IBM公司的深度问答系统首次将自然语言处理与深度学习结合起来,使得众多机构和企业纷纷效仿。2013年3月,京东上线京东JIMI 客服机器人,提供客户常规咨询服务;2016年10月,百度推出百度医疗大脑,实现健康在线咨询[3]。但目前关于中文自动问答系统的研究多是围绕特指问句,其开放性的回答方式不适用于是非问句的二值答案。例如,对JIMI提问:“京东自营满88包邮对吗?”,JIMI的答案是京东自营商品包邮的详细说明,而非是非问句要求的“对”或“不对”的二值答案。中文是非问答系统的设计与实现,能够弥补目前中文自动问答仅能作答特指问句的不足,帮助用户快速获取简洁的答案,对自动问答系统的研究和应用有着极其重要的意义。
本文利用Lucene设计并实现一种中文是非问答系统,主要工作包括:(1)引入句法成分权重和命名实体权重,改进TextRank算法[4-5],提出一种问句核心词提取方法;(2)针对MySQL、Neo4j和本地新闻文件中的多源数据,提出一种多源数据融合索引创建方法,减少索引创建耗时;(3)查询索引并对索引结果判决,获得是非问句的二值答案。
本文详细内容请下载:http://www.chinaaet.com/resource/share/2000003183
作者信息:
罗东霞,卿粼波,吴晓红
(四川大学 电子信息学院,四川 成都610065)
凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。