科技创新

AI模型训练引发的争议：OpenAI与YouTube之争

据悉，Sora以及其他生成式AI工具以从互联网上收集的大量信息为基础，进而生成包括视频、照片、叙述性文本等新内容。模型的能力在很大程度上取决于它训练的数据量。通常情况下，数据越多，模型的性能就越好，因为它有更多的例子来学习不同的语言用法。上个月，OpenAI的首席技术官Mira Murati上个月在接受媒体采访时表示，她不确定Sora是否使用了来自YouTube、Facebook和Instagram的用户生成视频进行训练。一方面，各大社交媒体平台和新闻出版商已开始限制其数据被用于AI训练。他们担心如果数据被自由用于AI训练，可能导致内容创造者和平台本身失去应得的经济回报。对此，YouTube的首席执行官Neal Mohan首次公开表示，虽然他没有直接证据证明OpenAI利用了YouTube视频来改进其AI视频创作工具Sora，但如果事实确实如此，那OpenAI就“明显违反”了YouTube的使用条款。由于Murati的闪烁其词，引发了业界对OpenAI训练数据来源的质疑。同时，这一事件触发了公众对关于公共领域数据的所有权问题更广泛的讨论：“我们在网络上发布的内容，究竟是属于个人私密还是公共资产？” “创作者希望YouTube的所有用户都能遵守服务条款，即不下载文字记录或视频片段等内容，因为这是他们辛辛苦苦创作的作品。这也是我们平台内容管理的基本规则。” 市场关注OpenAI等公司使用何种材料训练AI模型另一方面，普罗大众对于个人隐私的保护意识显著提升，许多人对于将私人对话如iMessage中的聊天记录提供给AI训练的意愿较低，人们可能担心他们的隐私可能会受到侵犯。本周，有媒体援引知情人士消息称，OpenAI正在讨论使用YouTube公开视频的转录来训练其下一代大型语言模型GPT-5。但是OpenAI对此尚未进行回应。 “YouTube上的创作者与平台之间存在各种不同类型的授权合同。我承认谷歌强大的Gemini模型部分使用了YouTube上的一些内容，但是它是提前获得了创作者适当授权，并遵循了YouTube与创作者之间的个人合同。”

科技创新

AI行业面临新挑战！训练数据短缺

高质量数据的紧缺正成为AI发展的重要障碍。随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称，OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中，AI行业对高质量文本数据的需求可能在两年内超过供应。面对信息不足的问题，AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习，尽管这种方法被许多研究人员认为可能会导致系统发生严重故障，但不失为克服数据短缺的一种潜在途径。据悉，这些努力大多保密进行，因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。 AI语言模型的构建依赖于从互联网上收集的大量文本数据，这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大，OpenAI对数据的需求也在急剧增长。因此，即便是利用所有可用的高质量语言和图像数据，研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。为应对数据短缺挑战，AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调，公司通过Facebook和Instagram等平台拥有的大量数据，为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外，OpenAI还在考虑建立一个数据市场，以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用，这一创新想法也引起了Google的关注。两年前，Villalobos和他的同事写道，到2024年年中，对高质量数据的需求超过供给的可能性为50%，到2026年发生这种情况的可能性为90%。然而，新的预期显示，这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察，以及用户和监管机构对数据使用的监控趋严，研究者们必须在保护隐私与数据采集之间找到新的均衡。

科技创新

AI世界震撼！GPT-4时代终结，GPT-5即将问世

最近马斯克起诉OpenAI案闹得沸沸扬扬，焦点指向了所谓的“Q*”。一份53页的PDF曝光，Q* 2025（GPT-8）原计划于2027年发布，旨在实现完全的AGI，届时IQ将达到145万亿参数，100万亿参数即可达到人类水平。但就目前来看，Q*相对比较遥远，GPT-5已经呼之欲出了。终于，GPT-4独霸时代终结了！过去一个月里，四款大模型横空出世，在各项关键基准测试中与GPT-4相匹敌，甚至更胜一筹。谷歌Gemini 1.5突破100万个tokens，是GPT-4的近8倍，此外能处理长达1小时视频输入，这无疑是一记重拳，直指GPT-4的短板。最后一位Inflection的Inflection-2.5来势汹汹，在关键基准测试中与GPT-4并驾齐驱，还具有“世界级”实时网络搜索功能，广泛可用且获得用户高度满意度。谷歌Gemini 1.5突破100万个tokens，是GPT-4的近8倍，此外能处理长达1小时视频输入，这无疑是一记重拳，直指GPT-4的短板。 Mistral则是开源阵营中黑马杀手，Mistral Large具有顶级推理能力，此前推出的Mistral 7B不仅表现超越Llama2，而且在手机上就能流畅运行，被视为GPT-4劲敌。而Anthropic的Claude 3 Opus，被认为是第一个明确胜过GPT-4的模型，其核心长文本处理能力得到进一步提升，而且GPT-4拿手好戏写代码也不在话下。为了守住护城河，或许OpenAI是时候放出“GPT-5”！此前，OpenAI首席执行官Sam Altman曾表态，自己的第一优先要务是发布下一代模型，但不一定就会叫GPT-5。有网友喊话称，留给Sam Altman的时间不多了。英伟达高级科学家Jim Fan也已经在期待GPT-5的亮相了。甚至还有网友称，GPT-5还不够，只有Q*的出现才能彻底抢回Claude 3的风头。关于GPT-5，我们可以期待些什么？ Altman近期曾多次预告GPT-5功能。在摩根士丹利3月8日TMT大会上，大摩观察到生成式AI工具的创新速度正在加快，Altman表示GPT-5将在功能上实现重大飞跃，类似于GPT-3到GPT-4的转变，推理能力是GPT-5的重点提升方向。微软也预计，M365 Copilot的功能和创新将几乎每天都在改进，但创新的顶峰尚未到来。在达沃斯经济论坛，奥特曼透露了关键信息：GPT-5将是一个多模态模型，支持语音、图像、代码和视频，并在个性化和定制化功能方面实现重大更新，具备更强的推理能力和更高的准确性。从以上介绍可以看出，有三大升级点：首先是多模态，据Altman介绍GPT-5不仅支持文本输入，还支持语音、图像、代码和视频。分析预计GPT-5将是一个真正的多模态模型，类似于谷歌最近推出的新Gemini Ultra模型。其次个性化方面，Altman强调，GPT-4.5或GPT-5预计将在个性化和定制化功能方面实现重大更新，最关键的增强部分将围绕理解个人偏好的能力，比如整合用户信息、电子邮件、日历、约会偏好，以及与外部数据源建立联系。最后是推理能力和准确性，Altman表示，如果GPT-4目前解决了人类任务的10%，GPT-5应该是15%或者20%。当前大模型的通病——幻觉问题也将在GPT-5中得到解决。此外，Altman还指出，OpenAI API也将继续变得更快、更可靠、更便宜，但性能和成本之间始终存在平衡，奥特曼这里再次用iPhone来举例说明：尽管电池技术已显著改进，但iPhone 仍将保持 1-1.5 天的电池寿命以优化性能。另外在被要求指出一件GPT-5能做的令人惊讶的事情时，奥特曼回答：如果我必须选一件，那就是写作会变得更好。发布时间方面，最新媒体消息显示，GPT-5的训练已圆满完成，具体发布时间尚未确定，浅浅期待一下吧！总而言之，这些新贵们的出现无疑终结了GPT-4的一枝独秀，也预计着竞争激烈程度进入下一“白热化”阶段。为了守住护城河，或许OpenAI是时候放出“GPT-5”！

Tag: GPT-5

关于Finhalo

联系我们

Follow on: