NVIDIA苹果等巨头被曝违规用数据训练AI - 《网络安全与数据治理》（原《信息技术与网络安全》

NVIDIA苹果等巨头被曝违规用数据训练AI
超17万个视频

7月17日消息，据媒体报道，包括NVIDIA、苹果、Salesforce和Anthropic在内的多家科技巨头，被曝光涉嫌违规使用数据，用于训练其AI模型。

这些公司被发现使用了超过173536个YouTube视频的字幕数据，而这些数据的获取并未得到视频创作者的许可。

这些公司所使用的数据集名为“YouTube Subtitles”，由非营利组织EleutherAI创建，该数据集包含了来自超过48000个频道的视频文本。

其中不乏知名教育机构和媒体公司的内容，例如可汗学院、麻省理工学院、哈佛大学等，此外，一些广受欢迎的YouTube创作者，如MrBeast等的视频也被包括在内。

此前，EleutherAI发布了名为“Pile”的数据汇编，其中的大部分数据集都是对公众开放的，包括YouTube Subtitles。

不过值得注意的是，苹果在使用Pile数据集训练OpenELM模型时，并未直接下载数据，因此在技术层面上，是EleutherAI违反了YouTube的使用条款。

YouTube明确禁止未经授权从平台获取素材，同时这些数据不仅用于训练AI，还可能涉及到版权和隐私问题。

创作者们也对此表示震惊和不满，因为他们并未被告知自己的作品被用于商业目的，更遑论从中获得任何补偿。

通知公告

编辑观点

理事会

参考资料

凡《网络安全与数据治理》（原《信息技术与网络安全》）录用的文章，如作者没有关于汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权等版权的特殊声明，即视作该文章署名作者同意将该文章的汇编权、翻译权、印刷权及电子版的复制权、信息网络传播权与发行权授予本刊，本刊有权授权本刊合作数据库、合作媒体等合作伙伴使用。同时，本刊支付的稿酬已包含上述使用的费用，特此声明。

作者投稿

在线期刊

下载中心

信网杯

《网络安全与数据治理》（原《信息技术与网络安全》）编辑部