基于分解策略的多标签在线特征选择算法

网络安全与数据治理 4期

张永伟1，2，朱祁1，2，吴永城1，2

(1.南瑞集团(国网电力科学研究院)有限公司，江苏南京210003； 2.南京南瑞智慧交通科技有限公司，江苏南京210032)

摘要： 在线学习方法是用于大规模数据集的、高效且可扩展的机器学习算法。然而，在对多标签数据集进行特征选择时，传统的在线多标签学习方法需要访问数据集的所有特征，当数据集具有较高维度时，这种在线学习方式并不能适用于实际情景。针对多标签数据集的特征选择，在现有研究的基础上，使用二类分解策略，提出基于分解策略的多标签在线特征选择算法。该算法利用稀疏正则化和截取方法进行在线特征选择，降低计算复杂度。实验表明，算法的特征选择性能优于其他多标签在线特征选择算法。

关键词： 特征选择在线学习多标签分类二类分解策略

中图分类号： TP305；TP181
文献标识码： A
DOI： 10.19358/j.issn.2097-1788.2022.04.010
引用格式：张永伟，朱祁，吴永城. 基于分解策略的多标签在线特征选择算法[J].网络安全与数据治理，2022，41(4)：65-71，77.

Online multi-label feature selection algorithm based on binary relevance strategy

Zhang Yongwei1，2，Zhu Qi1，2，Wu Yongcheng1，2

(1.NARI Group Corporation(State Grid Electric Power Research Institute)，Nanjing 210003，China； 2.Nanjing NARI Intelligent Transport Technology Co.，Ltd.，Nanjing 210032，China)

Abstract： Online learning method is an efficient and extensible machine learning algorithm for large-scale applications. However, when selecting features for multi-label datasets, the traditional online multi-label learning algorithms need to access all the features of the dataset. When the dataset has a higher dimension, this online learning method cannot be applied to the actual situation. Based on the existing research, a multi-label online feature selection algorithm based on decomposition strategy is proposed by using binary relevance strategy. This algorithm uses sparse regularization and interception methods for online feature selection to reduce computational complexity. The experimental results show that the feature selection performance of the algorithm is better than that of other multi-label online feature selection algorithms.

Key words : feature selection；online learning；multi-label classification；binary relevance strategy

0 引言

近年来，随着多标签分类问题的深入研究，出现了大量的多标签分类算法。目前，在多标签分类中，存在四种主要的处理策略：数据分解法、算法扩展法、混合法和集成法。特征选择是多标签分类问题中的一个重要课题，并且已经进行了广泛研究。对于分类，特征选择的目标是通过相关特征的一个子集来构建有效的预测模型，通过消除不相关和冗余特征，可以减轻维度灾难的影响，提高泛化性能，加快学习过程，提高模型预测的性能。特征选择已在许多领域得到应用，特别是在涉及高维数据的问题中。

虽然已经进行了广泛研究，但大多数现有的特征选择研究都局限于批量学习，假定特征选择任务是以离线/批量学习的方式进行的，而且训练实例的特征是先验的。这样的假设并不总是适用于训练样本以顺序方式到达的实际应用。与批量学习方式相比，在线学习方式则采用增量的方式处理数据集，相对而言，计算代价要小于批量学习算法。在现有的多标签在线分类算法中计算数据的全部特征信息是需要代价的。尤其是存在高维数据和数据冗余时，传统的多标签在线分类算法，需大量计算且分类性能较差。本文利用在线学习的优势，研究了多标签在线特征选择问题，旨在通过有效地探索在线学习方法来解决多标签特征选择问题。具体而言，多标签在线特征选择的目标是研究在线分类器，其仅涉及用于分类的少量和固定数量的特征。当处理高维度的连续训练数据时，如在线垃圾邮件分类任务(其中传统的批量特征选择方法不能直接应用)，在线特征选择尤为重要和必要。

本文详细内容请下载：https://www.chinaaet.com/resource/share/2000004992。

作者信息：

张永伟1，2，朱祁1，2，吴永城1，2

(1.南瑞集团(国网电力科学研究院)有限公司，江苏南京210003；

2.南京南瑞智慧交通科技有限公司，江苏南京210032)

微信图片_20210517164139.jpg

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部