谷歌地表最强模型,发布即屠榜

2025-03-25 18:25:33 · chineseheadlinenews.com · 来源: 新智元

Gemini 2.5 Pro,刚刚深夜上线了!这个“思考”模型专为复杂任务打造,推理能力强大,一经诞生就横扫各大榜单、拿下各类TOP 1,还创下了历史上最大分数飞跃纪录。

就在刚刚,谷歌的全新模型Gemini 2.5 Pro,果然深夜上线了!

Gemini 2.5 Pro是一个“思考”模型,能够在回应前先进行思考推理,从而提升性能,并改善准确性。

谷歌称,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。

它在多个基准测试中达到了SOTA水平,并且以显著的优势在LMArena上排名第一。

现在,Gemini 2.5 Pro已经登顶了Arena排行榜的第一位,而且创下了历史最大分数飞跃,比Grok-3/GPT-4.5整整高出了40分!

在代号“nebula”的测试中,它也横扫所有类别夺得第一,并且独揽数学、创意写作、指令遵循、长查询和多轮对话五大领域的冠军!

在困难提示词和编程两大领域,它与Grok-3/GPT-4.5拿到了并列冠军,而且在所有其他比拼中都以微弱优势胜出,成功问鼎榜首!

此外,Gemini 2.5 Pro还成功登顶了视觉竞技场(Vision Arena)排行榜榜首!

在网页开发领域,它也同样大放异彩,成功斩获网页开发竞技场(WebDev Arena)亚军宝座!

它是首个实力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的Gemini更是实现了质的飞跃。

这一次,谷歌的模型又展现出巨大的飞跃,OpenAI、Anthropic、DeepSeek等竞争对手,在多久时间内会赶上?

目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中,向Gemini Advanced用户开放,并将很快在Vertex AI上推出。

而它的定价方案,会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。

网友实测后发现,它果然实力惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。

Gemini 2.5 Pro上线!

谷歌表示,在AI领域,系统的“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。

长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。

正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking。

而今天,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。

推理和代码能力大幅提升

Gemini 2.5 Pro展现出了强大的推理和代码能力,在常见的编程、数学和科学基准测试中均处于领先地位。

另外,在各类需要高级推理能力的基准测试中,它都达到了SOTA水平。

无需使用测试阶段会增加计算成本的技术(如多数投票法),2.5 Pro就能在GPQA和 AIME 2025等数学和科学基准评测中表现卓越。

而且,在不使用任何外部工具的条件下,它就在挑战人类知识和推理能力的极限前沿“人类最后的考试”中取得了18.8%的准确率,达到业界领先。

在编程能力上,Gemini 2.5相比2.0版本也实现了质的飞跃,而这,仅仅是个开始。

2.5 Pro在创建视觉精美的网页应用和AI智能体代码应用方面都表现卓越,在代码转换和编辑领域中,也同样实力出色。

在智能体代码评估的行业标准测试SWE-Bench Verified上,Gemini 2.5 Pro靠使用自定义智能体配置,就获得了63.8%的优异成绩。

以下这波demo,就展示了Gemini 2.5 Pro如何运用强大推理,仅通过一行提示词,就能生成可执行代码,来创建完整的动画和游戏。

在下面这个demo中,仅仅根据下面这行prompt,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。

它还根据以下prompt,生成了一个无限的恐龙跑酷游戏。

按照要求,它生成了像素化的恐龙图像和有趣的游戏背景。

随后,Gemini 2.5 Pro还通过编程实现了分形可视化。

它创建出了精细分形图案的模拟程序,展现出了神奇的曼德布洛特集合。

此外,它还能构建一个交互式气泡图,直观展示出了每个大陆的经济与健康指标随时间的变化。

或者用一段交互式的Javascript动画,展示了旋转六边形内多彩的人工生命群体,并且按要求做成了“超新星星云”的感觉。

另外,它还能开发粒子系统模拟,给出了一个HTML文件,创造出了反射星云的沉浸式交互模拟场景。

原生多模态和超长上下文

Gemini 2.5继承并发扬了Gemini 模型的优势——原生多模态能力和超长上下文长度。

自己发布之初,2.5 Pro就支持100万token的上下文窗口(而200万token也即将推出!),性能显著超越了前代模型。

这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。

最后,既然谷歌已经掏出了地表最强模型,接下来,就让我们坐等OpenAI的反应了。


    24小时新闻排行榜更多>>
  1. 缅甸7.9级强震 泰国下令全国所有学校停课
  2. 希拉里·克林顿《纽约时报》刊文:这实在太愚蠢了
  3. 直击缅甸7.9级强震现场:地面开裂大桥受损
  4. 正规换汇店换钱,竟被骗$10万
  5. 曼谷倒塌大楼由中铁十局承建 被指豆腐渣工程
  6. “没有爱情的婚姻不道德”是歪理邪说
  7. “卧底”10万人开盒群一周,什么都卖、什么都能查
  8. 陈德容回应“浪姐争议”
  9. 美国大使馆:持有效证件者也可能被拒入境
  10. 【时事金扫描】中共战区司令泄漏攻台计划?
  11. 泰遭震垮大楼“中国盖的” 夸称高质量:是在泰发展的名片
  12. 【新唐人快报】马斯克将离开华府 中共查李嘉诚
  13. 女模特们为挣70万参加“迪拜派对” 引起关注
  14. “台积电不把研发转移到美国,投千亿美元也没啥用”
  15. 48小时独家探秘 美以死敌“胡塞武装”的大本营
  16. 与马克龙对视,梅洛尼表情一言难尽
  17. 缅甸强震 曼谷在建大楼倒塌 民众街头狂奔
  18. 老毛与苏共暗盘交易 周恩来主持外蒙独立典礼
  19. 三大指数全线重挫 美国经济的“川普危机”愈演愈烈
  20. 接班人迟迟未定 习近平想干啥?
  21. 川普行政令:成立联邦华府工作小组
  22. Costco迎3个重大改变,粉丝不高兴了
  23. 担忧川普新关税,股市周四承压下跌
  24. 金价再创新高 中国金饰价格飙涨至每克934元
  25. GPT-4o吉卜力玩疯了,但真的很强吗?
  26. CIA解密文件:中情局用通灵术发现了约柜
  27. 马斯克专访:DOGE几乎没解雇任何人
  28. 美名校玩大了,白宫考虑不让招留学生
  29. 中国2毛钱的仿制药暴雷
  30. 台海闯入不速之客,大陆抓到1条“大鱼”
  31. 白宫大管家:川普变了!同8年前相比,现在更好
  32. 灾难连连 强震殃及云南 内蒙沙尘暴湖北大雪四川山火
  33. 太讽刺了!拍这张照的记者,如今被禁止进入白宫
  34. 美国女模特减重了130斤,却遭粉丝大量“取必”
  35. 高达75%美国科学家考虑离开美国
  36. “新冠疫苗之父”杨晓明被判死刑 评论:疫苗灾难替罪羊
  37. 川普加税,坑惨马斯克
  38. “结婚”七八次,女孩出租自己,看尽酸甜苦辣
  39. USGS示警:1300万人受“强烈”影响
  40. 世贸组织回应美暂停缴纳会费
  41. 美经济学家批川普贸易政策原始、无知、虚假
  42. 退役三年 美华裔天才花滑女孩赢得世界冠军
  43. 俄反潜机在美航母上空被F-35C等战机拦截
  44. 进口车永久加税,意味着什么?
  45. 泰国大楼被震塌 承建商中铁急删封顶庆祝文
  46. 上海七旬访民王惠芳被抓恐被精神病
  47. 在国会抨击加州白卡 凯利:一年耗资95亿
  48. 川普2.0时代 欧洲政要掀“开春访中潮” 背后目的是...
  49. 澳学者:美国正向世界“直播”衰退 多疑刻薄又好战
  50. 从流水线女工到中国女首富,要赴港IPO了
  51. 刘强东确实被逼急了
  52. 美军重兵压境,胡塞武装面临生死存亡
  53. 刘亦菲粉色花瓣裙,大秀曼妙身材
  54. 美股抛售力道加剧
  55. 曼谷大楼塌中媒报道遭秒下架 建筑师:偷工减料
  56. 4个华人,统治了美国半导体半壁江山
  57. 美方胃口之大引乌方恐慌
  58. 美2月核心通胀高于预期 美联储降息前景再蒙阴影
  59. 如切入地球的大刀 缅甸地震破坏性为何大
  60. 中共要调查台湾军舰跟中国渔船擦撞事件 学者揭企图