AI行业面临新挑战!训练数据短缺

高质量数据的紧缺正成为AI发展的重要障碍。

随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称,OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中,AI行业对高质量文本数据的需求可能在两年内超过供应。

面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。

AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。

为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。

两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。然而,新的预期显示,这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察,以及用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。

分享文章

spot_img

其他文章

最近越南盾为何暴跌?

探究越南盾暴跌的原因:经济良好但却贬值。外商投资增长与西贡商业银行危机造成的资本外逃加剧了越南盾贬值

前索罗斯副手,亿万富翁减仓七成英伟达

前索罗斯副手、亿万富翁Stanley Druckenmiller对英伟达股票进行了大幅减持,将持仓削减了七成。本周公布的13F文件显示,他在一季度出售了超过44.1万股英伟达股票。尽管英伟达股价今年已大涨约90%,Druckenmiller对人工智能热潮的持续性表示谨慎,同时他还投资了美股小盘股并清仓了其他科技股。

重塑楼市!国资是如何激活存量房

随着房地产市场的调整,国资企业在存量房去化中的作用愈发重要。通过“以旧换新”模式、保租房收购与改造,国资积极参与楼市调整,推动市场稳定发展,满足居民多样化的住房需求。

芝商所计划进军比特币现货,Coinbase股价暴跌9.4%!

在牛市背景下,加密资产吸引了传统金融机构的关注。芝加哥商品交易所(CME)计划推出比特币现货交易,这一消息导致Coinbase股价暴跌9.4%。芝商所的加入将对加密资产交易市场产生深远影响,尤其是在华尔街机构资金的推动下,市场竞争将更加激烈。

字节跳动的“大模型革命”,价格屠夫重塑AI市场

字节跳动发布豆包大模型家族,打响AI市场价格战的第一枪。通过降低价格,实用主义路线和强大的To B业务布局,字节跳动重塑了AI市场格局。了解字节跳动在AI生态建设和未来展望方面的战略规划

美股创历史新高!美国CPI点燃美联储降息预期

最新的美国CPI数据点燃了市场对美联储降息的预期,导致美股创下历史新高。此外,比特币、贵金属和国际原油等资产也出现了剧烈波动。了解CPI数据对市场的影响以及其他关键经济指标的变化。