决定AI下一步的关键问题:数据耗尽!

2024-12-15 14:25:13 · chineseheadlinenews.com · 来源: 硬AI

为了解决这一问题,目前AI公司有的在收集非公开数据,有的转向使用专注于健康护理、环境等的专业数据集,还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境,但都存在一些缺陷,并不能彻底解决问题。

来源:硬AI

作者:蒋紫涵

AI研究员已经快将世界上的知识“榨干”了,下一步,AI该如何发展?

昨日,前OpenAI联合创始人、SSI创始人Ilya Sutskever在NeurIPS 2024大会上发表演讲时表示,预训练时代即将结束,数据作为AI的化石燃料是有限的,目前用于AI预训练的数据已经达到了峰值。

的确,过去十年中,AI的爆炸性进步在很大程度上依赖于神经网络规模的扩大以及使用更多的数据进行训练,这使得大语言模型(LLMs),如ChatGPT能够更好地模拟对话并发展出推理等功能。但一些专家指出,目前AI训练正在接近扩展的极限,一是因为计算能耗急剧增加,二是因为大语言模型开发者几乎已经用尽了能够训练模型的传统数据集。

Epoch AI的马德里研究员Pablo Villalobos预测,到2028年左右,用于训练AI模型的数据集的规模将与公共在线文本总量相当,换句话说,AI训练数据很可能在四年后耗尽。

为了解决这一问题,目前AI公司有的在收集非公开数据,有的转向使用专注于健康护理、环境等的专业数据集,还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境,但都存在一些缺陷,并不能彻底解决问题。

或许,AI的下一步不再是学习现有知识,而是自我反思与智能进化,就像卡内基梅隆大学的研究生Andy Zou说的这样:“现在它已经拥有了一个基础知识库,可能超过了任何一个人所能掌握的,这意味着它只需要静下心来思考。”

耗尽的数据,膨胀的需求

过去十年中,大语言模型的开发展现出了对数据的强烈需求。

Villalobos估计,自2020年以来,用于训练大语言模型的数据增长了100倍,可能已经占据了互联网中很大一部分的内容,并且,AI训练数据集的规模每年翻倍。然而另一边,互联网可用内容的增长速度却出奇的缓慢,估计每年增长不到10%。

基于这些趋势,Villalobos的研究显示,到2028年,AI训练数据很可能耗尽。

决定AI下一步的关键问题:数据耗尽!

与此同时,内容提供商加入了越来越多的软件代码或完善其使用条款,禁止AI公司抓取其数据用于训练。

麻省理工学院的AI研究员Shayne Longpre领导着一个专门审计AI数据集的草根组织,并撰写了数据来源追溯倡议。Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,2023年到2024年间,三大清洗数据集中最常用的高质量网络内容,封锁比例从不足3%增加到了20%-33%。

并且,几起侵权诉讼也在进行中——2023年12月,《纽约时报》起诉OpenAI和微软侵犯其版权;今年4月,Alden Global Capital旗下的八家报纸也联合提起了类似诉讼。如果美国法院判定内容提供商应当获得赔偿,那么AI开发者和研究人员将更难获取所需的数据。

AI公司的应对手段

面对内容提供商越来越严格的管控,AI开发者也在着手寻找解决办法。

OpenAI、Anthropic等知名AI公司公开承认了这个问题,表示他们有计划通过手段绕过这一管控,比如生成新的数据、寻找非常规的数据来源等。

OpenAI的一位发言人对《自然》杂志表示:

“我们使用多个来源,包括公开可用的数据、AI训练师提供的数据、与非公开数据合作、生成合成数据等。”

分析师指出,如果目标是寻找更多数据,目前,主流方法有二:

一是收集非公开数据,如WhatsApp消息或YouTube视频的文字记录。例如,Meta曾表示他们使用虚拟现实耳机Meta Quest收集的音频和图像数据来训练AI。

Villalobos估计,这些数据大多质量较低或重复,且总量较小,不过即便如此,也足以延缓一年半左右时间的数据不足困境。

二是专注于快速增长的专业数据集,如天文学或基因组数据。

斯坦福大学的著名AI研究员Fei-Fei Li非常支持这种策略,她在5月的彭博技术峰会上表示,担忧数据即将耗尽的观点过于狭窄,因为在健康护理、环境、教育等领域有着丰富的未被开发的数据。

但Villalobos表示,目前尚不清楚这些数据集是否适合训练大语言模型,“很多数据类型之间似乎存在一定程度的迁移学习,但我对这种方法并不抱太大希望。”

不过,分析师也提醒道,尽管有各种方法应对数据紧张,但数据不足是实打实的问题,因此,这可能会迫使公司在构建生成AI模型时进行变革,使得AI的应用领域从大型、通用的大语言模型转向更小、更专业的细分模型。

还可以合成数据?

除了以上两种方式,Meta首席AI科学家Yann LeCun提出,如果无法找到数据,也可以尝试生成更多数据。

例如,一些AI公司付钱让人们生成内容用于AI训练,另一些公司则直接使用AI生成的合成数据来训练。

分析认为,这一数据来源潜力巨大——OpenAI今年早些时候表示,他们每天生成1000亿个单词,相当于每年生成超过36万亿个单词,与当前的AI训练数据集规模相当,并且这一产出正在快速增长。

总的来说,专家们一致认为合成数据在有明确、可识别规则的领域表现良好,如国际象棋、数学、计算机编码等。

目前,AI工具AlphaGeometry已经通过1亿个合成示例进行训练并成功解决了几何问题。

此外,合成数据在真实数据有限或有问题的领域也已经被广泛应用,例如医疗领域,因为合成数据避免了隐私问题。

但合成数据也不是完美的——合成数据的问题在于,递归循环可能加剧错误、放大误解,并在整体上降低AI模型的学习质量。
2023年,一项研究提出了“模型自噬障碍(Model Autophagy Disorder)”这一术语,用于描述AI模型在这种情况下可能“崩溃”的现象。例如,一个部分使用合成数据训练的面部生成AI模型开始绘制带有奇怪哈希标记的面孔。


    24小时新闻排行榜更多>>
  1. 女留学生入境时上了个厕所 签证被废5年禁入美国
  2. 中东大变局:俄罗斯脖子将被套上最后一根绳索
  3. 真没想到 越南改革的力度这么大!前所未有的革命
  4. 太突然 中国多城掀起“退地潮” 什么信号?
  5. 46万买了理想汽车 正开着系统突然升级停在街头
  6. CNN:中国已读不回 川普邀习近平观礼曝重大盘算
  7. 东亚人打仗花样太多 朝军比俄军伞兵还要猛
  8. 后院变“钱袋” 女子后院种蔬果 年省$1800
  9. 女子抗癌成功 吃减肥药瘦44斤 人没了
  10. 美国安全局建议每周关手机一次 原因想不到
  11. 法国小姐冠军诞生 34岁 创史上最年长记录
  12. 新数据显示:美国这些州薪资中位数最高
  13. 《我是刑警》离谱瞬间,公安局牌子装反
  14. 小情妇觊觎巨额遗产 美87岁失智富豪遭活活饿死
  15. 深圳豪宅爆炸 堕楼死女子仅38岁 售价租金也曝光
  16. 北京零零后的一封辞职信 爆红全网
  17. 军政要员被抓,尹锡悦被弹劾 韩国的下一步是..
  18. 23岁网红1天嘿咻101人 爸妈:你以后有人要吗
  19. 为何美国禁中共获高宽带内存HBM 一文看懂
  20. 叙利亚内战方休 东突战士调转枪头指向中国
  21. 藏区“神圣冰川水” 越清澈见底越致命危险
  22. 北京再现血色天空 古书预言:不出一年有自立者
  23. 外国妹子发帖称爱上“中式骂人” 引轩然大波
  24. 洛杉矶机场失踪亚裔女向家人表示:不打算回来
  25. 外媒:习近平整治金融业 不是逮捕就是限薪
  26. 以军摧毁叙利亚防空系统,伊朗核设施彻底暴露
  27. 京企高层死于“远洋捕捞” 警方撤案家属追责
  28. 33岁东北女嫁80岁世界第2富豪 她是下个邓文迪?
  29. 突然涌现一批中国女“嫁中东王子 怀王室骨肉”
  30. 怕!旧金山史上罕见龙卷风 汽车掀翻22万户断电
  31. 湖南大三女生失联多日 遗体在江中被发现
  32. 中美科技合作协定续签 哪些关键技术被排除了?
  33. 强风暴袭击美国中西部+东北部 加州纽约均降大雪
  34. 中国旅游路在何方?投资25亿的湖南古镇要破产了
  35. 欧洲万亿美元科技巨头为0,被美国无情碾压
  36. 没拿下这项全球第一 中国网民出征、斥野鸡奖
  37. 普京没钱了?俄外汇见底 狂抛50吨黄金凑钱
  38. AI公司被控克扣工资 市值$138亿 华裔CEO仅27岁
  39. 下周美联储看点:12月降息没悬念,有悬念的是1月
  40. 赚百万美元不是梦 投资ETF有哪些好处?
  41. 以色列将关闭驻都柏林大使馆 爱尔兰回应
  42. 股市一片火热,为什么巴菲特却大囤现金?
  43. 云南斗牛场多人打斗 网民热议:牛都懵了
  44. 36岁华人富豪被同乡好友分尸 还被冒名顶替
  45. 逃亡山西首富英国资产被没收 在国内骗贷2700亿
  46. 申根40周年之际 欧洲国家边境管制成常态
  47. 谷歌声称:量子芯片可能证明平行宇宙的存在
  48. 阿萨德垮台后基督徒首次礼拜 数万逃往黎巴嫩
  49. 极越CEO深夜发长文:错,都是我的错
  50. 美军开始从冲绳撤出 移师关岛
  51. 美国土安全部部长:在无人机调查中保持警惕
  52. 夏威夷女诡异失踪 父伤心自杀 内幕竟涉假结婚
  53. 成员神秘死亡,这个家族还能发动“货币战争”吗?
  54. OpenAI 前首席科学家Ilya:未来AI或将不可预测
  55. 10.46万美元!比特币再创历史新高!超8万人爆仓
  56. 38辆美制M1A2T坦克运抵台湾 台媒:地表最强
  57. 2025在望 美国十大最热门房地产市场
  58. 川普的“过渡事务”多发生在夜晚
  59. 企业私下蜂拥游说 放弃关税战略 川普坚不让步
  60. UCLA学生起诉医生 称12岁时被迅速推进变性治疗