苹果、英伟达等公司被曝使用争议 YouTube 资源训练 AI 模型：5.7GB，涉及 4.8 万个频道 17.4 万个视频字幕

2024-07-17 09:45 IT之家 - 故渊

IT之家 7 月 17 日消息，非营利性新闻工作室 ProofNews 昨日（7 月 16 日）发布博文，表示包括苹果、英伟达、Salesforce 和 Anthrophic 在内的大型科技公司，在训练其 AI 模型时均使用了来自 YouTube 的视频资源。

报道称这些科技公司在训练其 AI 模型过程中，使用了名为 YouTube Subtitles 的数据集，大小为 5.7GB（4.89 亿个单词）。

该数据集由 EleutherAI 创建，最早发布于 2020 年，涉及超过 48000 个频道的 173536 个 YouTube 视频字幕内容，其中还包含 12000 多个平台已删除视频的字幕内容。

YouTube Subtitles 数据集主要采集热门 YouTube 频道的资源，IT之家附上相关信息如下：

YouTube Subtitles 数据集隶属于一个名为“The Pile”的数据集，其中包括其他几个训练数据集。大多数“The Pile”数据集都对任何有足够空间和计算能力的人开放。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。