一种面向科技项目文本的相似度度量方法

2020年电子技术应用第5期

赵晓平1，马文1，刘雪萍2，陈达2

1. 云南电网有限责任公司信息中心，云南昆明 650011；2. 云南云电同方科技有限公司，云南昆明 650220

摘要： 现有的文本相似度度量方法主要采用TF-IDF方法，把文本建模为词频向量，但未考虑文本的结构特征。现将文本的结构特征和TF-IDF方法进行融合，提出了一种面向科技项目文本的相似度度量方法。该方法首先对文本进行预处理，其次根据文本的结构特征提取模块文本，然后使用TF-IDF方法提取每个模块文本的TOP-N关键词，作为模块文本的特征向量表示，最后使用余弦聚类计算文本的相似度。实验结果表明，在电力行业的科技项目文档数据集上，所提方法优于TF-IDF方法。

关键词： 文本相似度 TF-IDF 文本聚类自然语言处理

中图分类号： TP311
文献标识码： A
DOI：10.16157/j.issn.0258-7998.191420
中文引用格式： 赵晓平，马文，刘雪萍，等. 一种面向科技项目文本的相似度度量方法[J].电子技术应用，2020，46(5)：31-34，39.
英文引用格式： Zhao Xiaoping，Ma Wen，Liu Xueping，et al. A similarity measurement method for science and technology project text[J]. Application of Electronic Technique，2020，46(5)：31-34，39.

A similarity measurement method for science and technology project text

Zhao Xiaoping1，Ma Wen1，Liu Xueping2，Chen Da2

1.Information Center，Yunnan Power Grid Co.，Ltd.，Kunming 650011，China； 2.Yunnan Yundian Tongfang Technology Co.，Ltd.，Kunming 650220，China

Abstract： Existing text similarity measurements often use the TF-IDF method to model texts as term frequency vectors without considering the structural features of texts. This paper combines the structural features of texts with the TF-IDF method and proposes a text similarity measurement for science and technology project texts. This approach firstly pre-processes a text and extracts module texts according to its structural features. After applying the TF-IDF method to these extracted module texts, this method extracts the top keywords of each module text, obtains its feature vector representation, and finally uses cosine formula to calculate the similarity of two texts. By comparing with the TF-IDF method, experimental results show that the proposed method can promote the evaluation metrics of F-measure.

Key words : text similarity；TF-IDF；text clustering；natural language process

0 引言

文本相似度度量是指将文本看成一组词的集合体，分析每个词在文本中出现的次数以及在整个文本集合中出现次数，进而利用这些词频信息将文本建模为一个向量，并利用向量间的余弦距离等计算文本之间的相似度^[1-2]。

文本相似度度量被广泛应用于许多领域，例如：信息检索领域^[3-4]、文本分类^[5-8]、文本摘要的自动生成^[9-10]、文本的查重检测^[11-12]。本文关注的是在电力行业的科技项目查重中应用文本相似度度量。

现有的TF-IDF^[13-15]方法主要将文本建模为词频向量，再使用余弦相似度来计算两个文本间的相似度。但是对于多数文本而言，这种采用词频向量模型的方法需要将文本表示为词项数目与文本数目大致相当的矩阵，矩阵中的行列向量都有着非常高的维度并且是极度稀疏的，从而最终导致非常低效的计算^[1，16]。此外，这种方法也忽略了文本的的结构特征。

针对上述问题，本文提出一种既考虑了文本的结构特征，又能有效降低文本表示模型维度的文本相似度度量方法。给定两个文本，通过文本所提方法能够高效、准确地计算出两者间的相似度，为电力行业科技项目的查重提供有效支撑。

论文详细内容请下载http://www.chinaaet.com/resource/share/2000002786

作者信息:

赵晓平1，马文1，刘雪萍2，陈达2

（1. 云南电网有限责任公司信息中心，云南昆明 650011；2. 云南云电同方科技有限公司，云南昆明 650220）

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部