0 引言
随着机器学习的广泛应用,其在各个领域都取得了令人瞩目的成就,从智慧城市产生的海量多源数据中建立机器学习模型的需求变得愈加强烈。在能源、医疗和社区治理等方面人们迫切需要使用机器学习模型来执行诸如识别和预测等任务。然而,训练数据的获取是一个无法回避的关注点,严格的公民信息保护条例以及人们对个人隐私的保护要求使得城市正在诞生一个个“数据孤岛”。联邦学习被认为是在智慧城市的场景中训练模型的很有应用前景的技术。在这个框架下,机器学习模型可以由分布在各地的参与方使用本地的数据进行合作训练,从而避免了隐私数据的泄漏。自从谷歌公司提出使用联邦学习来预测用户下一个键盘输入的应用以来,已经有众多研究者参与到这一热门的研究方向。
有别于传统的集中训练,联邦学习中的数据类别通常是非独立同分布的,此外由于拥有的数据量不同,参与方可能在每个训练轮次训练不同数量的样本。这些异质性会显著影响模型训练时间和准确性,因此选择恰当的参与方进行训练尤为重要。然而现有的联邦学习参与方选择方案要么是根据对模型更新的贡献度量来选择具有更高统计效用的客户端,要么是根据计算资源和通信约束来选择客户端。这些方案虽然取得了一定的效果,但也存在着隐患,比如某些参与方利用上传的梯度信息进行隐私推断,以及某些参与方企图以不劳而获的方式得到全局模型。
本文详细内容请下载:https://www.chinaaet.com/resource/share/2000005270
作者信息:
邱浩宸,张信明
(中国科学技术大学计算机科学与技术学院,安徽合肥230026)

凡《网络安全与数据治理》(原《信息技术与网络安全》)录用的文章,如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明,即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊,本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时,本刊支付的稿酬已包含上述使用的费用,特此声明。