科技创新

AI行业面临新挑战！训练数据短缺

由

2024-03-22

高质量数据的紧缺正成为AI发展的重要障碍。

随着OpenAI、Google等企业不断深入发展AI技术，科技巨头们遇到了一个新问题：现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称，OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中，AI行业对高质量文本数据的需求可能在两年内超过供应。

面对信息不足的问题，AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习，尽管这种方法被许多研究人员认为可能会导致系统发生严重故障，但不失为克服数据短缺的一种潜在途径。据悉，这些努力大多保密进行，因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。

AI语言模型的构建依赖于从互联网上收集的大量文本数据，这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大，OpenAI对数据的需求也在急剧增长。因此，即便是利用所有可用的高质量语言和图像数据，研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。

为应对数据短缺挑战，AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调，公司通过Facebook和Instagram等平台拥有的大量数据，为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外，OpenAI还在考虑建立一个数据市场，以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用，这一创新想法也引起了Google的关注。

两年前，Villalobos和他的同事写道，到2024年年中，对高质量数据的需求超过供给的可能性为50%，到2026年发生这种情况的可能性为90%。然而，新的预期显示，这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察，以及用户和监管机构对数据使用的监控趋严，研究者们必须在保护隐私与数据采集之间找到新的均衡。

AI行业面临新挑战！训练数据短缺

没有评论

留下一个答复

相关文章

字节跳动的“大模型革命”，价格屠夫重塑AI市场

GPT-4o震撼来袭，AI革命的新篇章

AI的尽头是电力

没有评论

留下一个答复 取消回复

留下一个答复