0 引言
文本相似度度量是指将文本看成一组词的集合体,分析每个词在文本中出现的次数以及在整个文本集合中出现次数,进而利用这些词频信息将文本建模为一个向量,并利用向量间的余弦距离等计算文本之间的相似度[1-2]。
文本相似度度量被广泛应用于许多领域,例如:信息检索领域[3-4]、文本分类[5-8]、文本摘要的自动生成[9-10]、文本的查重检测[11-12]。本文关注的是在电力行业的科技项目查重中应用文本相似度度量。
现有的TF-IDF[13-15]方法主要将文本建模为词频向量,再使用余弦相似度来计算两个文本间的相似度。但是对于多数文本而言,这种采用词频向量模型的方法需要将文本表示为词项数目与文本数目大致相当的矩阵,矩阵中的行列向量都有着非常高的维度并且是极度稀疏的,从而最终导致非常低效的计算[1,16]。此外,这种方法也忽略了文本的的结构特征。
针对上述问题,本文提出一种既考虑了文本的结构特征,又能有效降低文本表示模型维度的文本相似度度量方法。给定两个文本,通过文本所提方法能够高效、准确地计算出两者间的相似度,为电力行业科技项目的查重提供有效支撑。
论文详细内容请下载http://www.chinaaet.com/resource/share/2000002786
作者信息:
赵晓平1,马 文1,刘雪萍2,陈 达2
(1. 云南电网有限责任公司 信息中心,云南 昆明 650011;2. 云南云电同方科技有限公司,云南 昆明 650220)
凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。