AI行业面临新挑战!训练数据短缺

高质量数据的紧缺正成为AI发展的重要障碍。

随着OpenAI、Google等企业不断深入发展AI技术,科技巨头们遇到了一个新问题:现有的互联网信息量可能不足以支撑他们训练更先进的AI系统。报道称,OpenAI讨论了使用公开YouTube视频字幕训练GPT-5。而在过去两年中,AI行业对高质量文本数据的需求可能在两年内超过供应。

面对信息不足的问题,AI公司正在尝试各种方法来寻找新的信息源。有的公司甚至创造合成数据来学习,尽管这种方法被许多研究人员认为可能会导致系统发生严重故障,但不失为克服数据短缺的一种潜在途径。据悉,这些努力大多保密进行,因为找到有效的解决方案可能成为企业在激烈竞争中的关键优势。

AI语言模型的构建依赖于从互联网上收集的大量文本数据,这些数据包括科学研究、新闻文章、维基百科条目等。这展示了大数据训练对于AI发展的重要性。但随着GPT-4模型的不断扩大,OpenAI对数据的需求也在急剧增长。因此,即便是利用所有可用的高质量语言和图像数据,研发GPT-5仍可能面临10万亿到20万亿tokens的数据短缺。

为应对数据短缺挑战,AI公司正在尝试各种方法来寻找新的信息源。Meta创始人扎克伯格近期强调,公司通过Facebook和Instagram等平台拥有的大量数据,为其AI研发提供了重要优势。而OpenAI则考虑使用其自动语音识别工具Whisper转录的高质量视频和音频示例。此外,OpenAI还在考虑建立一个数据市场,以评估每个数据点对模型训练的贡献并据此向内容提供者支付费用,这一创新想法也引起了Google的关注。

两年前,Villalobos和他的同事写道,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。然而,新的预期显示,这种短缺风险将延迟至2028年。这项乐观的更新基于对当前数据质量和可用性的深刻洞察,以及用户和监管机构对数据使用的监控趋严,研究者们必须在保护隐私与数据采集之间找到新的均衡。

分享文章

spot_img

其他文章

比特币ETF面临黑暗,资金大规模流出,市场焦虑加剧

数字货币市场一片黑暗,新成立的比特币现货ETF面临资金大规模流出,连续两日刷新低位。资金流出约达5.268亿美元,美国现货比特币ETF连续录得6天资金流出。尽管资金流出,业内人士指出,这并不意味着比特币价格必将下跌。市场预计未来将更关注风险因素和美国大选对数字货币的影响。

美国劳动力数据揭示通胀风险:生产力放缓成主要因素

最新发布的美国劳动力数据显示,第一季度劳动力成本大幅攀升,创下一年来最高增幅,而生产力增长放缓成为主要原因。这一趋势可能给美国通胀持续高位的风险增添压力,成为美联储对抗通胀的挑战。就业成本指数上涨,制造业开局疲弱,企业投资或继续拖累经济增长。 元描述:美国劳动力数据揭示通胀风险,劳动力成本大幅攀升,生产力放缓成主要因素。就业成本指数上涨,制造业开局疲弱,可能影响美国经济增长。美联储面临对抗通胀的挑战。 关键字:美国劳动力数据, 通胀风险, 生产力放缓, 劳动力成本, 美联储, 企业投资, 制造业PMI, 就业成本指数, 非农单位劳动力成本

日本央行再度出手干预汇率,干预规模达9万亿日元

隔夜美国尾盘,日元兑美元汇率急升,引发市场猜测日本央行再度干预。数据显示,日本已进行第二次干预,干预规模达9万亿日元。尽管利差巨大、干预效果存疑,日本政府仍努力维持日元强势。然而,随着市场流动性降低和美国就业数据公布,汇率波动或将进一步加剧。

周鸿祎拍卖迈巴赫被二手车车商毁约!

备受瞩目的360董事长周鸿祎拍卖迈巴赫遭二手车商毁约,引发网红事件反转和法律漩涡。事件细节包括拍卖过程、褚会长涨粉和社交网络炒作,以及与公司资本变动相关的法律责任。此次事件涉及双方信誉、权利和捐赠义务,引发社会广泛关注。

特斯拉的超级充电站未来何去何从?

特斯拉CEO马斯克撤销了与白宫的充电站协议,并解雇了超级充电团队。这一战略调整可能影响美国电动车市场格局,对特斯拉盈利前景产生影响。

原油跌穿80美金!库存攀升,中东局势不确定性加剧

本文报道了美国上周EIA原油库存意外增加、中东局势缓解以及原油价格下跌的情况。这些因素使得全球油价承压,市场对于未来走势存在较大不确定性。