0 引言
近年来,随着多标签分类问题的深入研究,出现了大量的多标签分类算法。目前,在多标签分类中,存在四种主要的处理策略:数据分解法、算法扩展法、混合法和集成法。特征选择是多标签分类问题中的一个重要课题,并且已经进行了广泛研究。对于分类,特征选择的目标是通过相关特征的一个子集来构建有效的预测模型,通过消除不相关和冗余特征,可以减轻维度灾难的影响,提高泛化性能,加快学习过程,提高模型预测的性能。特征选择已在许多领域得到应用,特别是在涉及高维数据的问题中。
虽然已经进行了广泛研究,但大多数现有的特征选择研究都局限于批量学习,假定特征选择任务是以离线/批量学习的方式进行的,而且训练实例的特征是先验的。这样的假设并不总是适用于训练样本以顺序方式到达的实际应用。与批量学习方式相比,在线学习方式则采用增量的方式处理数据集,相对而言,计算代价要小于批量学习算法。在现有的多标签在线分类算法中计算数据的全部特征信息是需要代价的。尤其是存在高维数据和数据冗余时,传统的多标签在线分类算法,需大量计算且分类性能较差。本文利用在线学习的优势,研究了多标签在线特征选择问题,旨在通过有效地探索在线学习方法来解决多标签特征选择问题。具体而言,多标签在线特征选择的目标是研究在线分类器,其仅涉及用于分类的少量和固定数量的特征。当处理高维度的连续训练数据时,如在线垃圾邮件分类任务(其中传统的批量特征选择方法不能直接应用),在线特征选择尤为重要和必要。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000004992。
作者信息:
张永伟1,2,朱 祁1,2,吴永城1,2
(1.南瑞集团(国网电力科学研究院)有限公司,江苏 南京210003;
2.南京南瑞智慧交通科技有限公司,江苏 南京210032)

凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。