主页 科技创新 AI行业面临新挑战!训练数据短缺

AI行业面临新挑战!训练数据短缺

0

高质量数据的紧缺正成为AI发展的重要障碍。

随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称,OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中,AI行业对高质量文本数据的需求可能在两年内超过供应。

面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。

AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。

为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。

两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。然而,新的预期显示,这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察,以及用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。

没有评论

留下一个答复

请输入您的评论!
请在这里输入您的名字

退出移动版