Tag: OpenAI

spot_img

AI模型训练引发的争议:OpenAI与YouTube之争

据悉,Sora以及其他生成式AI工具以从互联网上收集的大量信息为基础,进而生成包括视频、照片、叙述性文本等新内容。模型的能力在很大程度上取决于它训练的数据量。通常情况下,数据越多,模型的性能就越好,因为它有更多的例子来学习不同的语言用法。 上个月,OpenAI的首席技术官Mira Murati上个月在接受媒体采访时表示,她不确定Sora是否使用了来自YouTube、Facebook和Instagram的用户生成视频进行训练。 一方面,各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练,可能导致内容创造者和平台本身失去应得的经济回报。 对此,YouTube的首席执行官Neal Mohan首次公开表示,虽然他没有直接证据证明OpenAI利用了YouTube视频来改进其AI视频创作工具Sora,但如果事实确实如此,那OpenAI就“明显违反”了YouTube的使用条款。 由于Murati的闪烁其词,引发了业界对OpenAI训练数据来源的质疑。同时,这一事件触发了公众对关于公共领域数据的所有权问题更广泛的讨论:“我们在网络上发布的内容,究竟是属于个人私密还是公共资产?” “创作者希望YouTube的所有用户都能遵守服务条款,即不下载文字记录或视频片段等内容,因为这是他们辛辛苦苦创作的作品。这也是我们平台内容管理的基本规则。” 市场关注OpenAI等公司使用何种材料训练AI模型 另一方面,普罗大众对于个人隐私的保护意识显著提升,许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低,人们可能担心他们的隐私可能会受到侵犯。 本周,有媒体援引知情人士消息称,OpenAI正在讨论使用YouTube公开视频的转录来训练其下一代大型语言模型GPT-5。但是OpenAI对此尚未进行回应。 “YouTube上的创作者与平台之间存在各种不同类型的授权合同。我承认谷歌强大的Gemini模型部分使用了YouTube上的一些内容,但是它是提前获得了创作者适当授权,并遵循了YouTube与创作者之间的个人合同。”

AI行业面临新挑战!训练数据短缺

高质量数据的紧缺正成为AI发展的重要障碍。 随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称,OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中,AI行业对高质量文本数据的需求可能在两年内超过供应。 面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。 AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。 为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。 两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。然而,新的预期显示,这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察,以及用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。