OpenAI发布GPT-4.1,性能暴涨

2025-04-15 10:25:29 · chineseheadlinenews.com · 来源: AIGC开放社区

北京时间今天凌晨1点,OpenAI进行了技术直播发布了最新模型----GPT-4.1。

除了GPT-4.1之外,还有GPT 4.1-Mini和GPT 4.1-Nano两款模型,在多模态处理、代码能力、指令遵循、成本方面实现大幅度提升。特别是支持100万token上下文,这对于金融分析、小说写作、教育等领域帮助巨大。

由于GPT-4.1的发布,OpenAI宣布将会淘汰刚发布不久的GPT-4.5,其能力可见一斑。

目前,如果想体验GPT-4.1而无法通过API身份验证的小伙伴,微软已经在Azure OpenAI上线了该模型,可以使用了。

GPT-4.1简单介绍

GPT-4.1最大亮点之一就是支持100万tokens上下文,这也是OpenAI首次发布长窗口模型。

与前代模型相比,GPT-4.1、GPT-4.1 Mini和GPT-4.1 Nano能够处理多达100万tokens的上下文,是GPT-4o的8倍。

OpenAI在Long Context Evals上对长文本进行了测试,测试结果显示,GPT-4.1系列的三个模型均能够在语料库的任何深度找到目标文本,无论是开头、中间还是结尾,甚至在长达100万tokens的上下文中,模型依然能够准确地定位目标文本。

OpenAI还在Multi-Round Coreference进行了测试,通过创建合成对话来测试模型在长上下文中的理解和推理能力。在这些对话中,用户和助手交替进行对话,用户可能会要求模型生成一首关于某个主题的诗,接着要求生成另一首关于不同主题的诗,然后可能要求生成一个关于第三个主题的短故事。模型需要在这些复杂的对话中找到特定的内容,例如“第二篇关于某个主题的短故事”。

测试结果显示,GPT-4.1在处理长达128K tokens的数据时显著优于GPT-4o,并且在长达100万tokens的上下文中依然能够保持较高的性能。

在编码能力测试中,SWEBench评估将模型置于 Python 代码库环境,让其探索代码库、编写代码和测试用例。结果显示,GPT-4.1 的准确率达到 55% ,而 GPT-4o仅为 33%。

在多语言编码能力测试方面,Ader polyglot 基准测试涵盖多种编程语言和不同格式要求。GPT-4.1 在差异性能上较 GPT-4o提升一倍,在处理多语言编程任务、代码优化和版本管理时更高效。

在指令遵循能力测试中,OpenAI 构建内部评估体系,模拟 API 开发者使用场景,测试模型对复杂指令的遵循能力。每个样本包含分属不同类别的复杂指令,并分难度等级。在困难子集评估中,GPT-4.1 远超 GPT-4o。

在多模态处理测试的视频 MME 基准测试中,GPT 4.1 对30 - 60 分钟无字幕视频进行理解并回答多项选择题,取得72%的成绩,达到当前最佳水平,在视频内容理解上实现重大突破。

价格方面,GPT -4.1系列在性能提升的同时,价格更具竞争力。GPT -4.1 相比 GPT-4o 价格降低 26%,而GPT -4.1 Nano 作为最小、最快且最便宜的模型,每百万 token 的成本仅为12美分。

实际应用GPT-4.1案例

汤森路透是全球领先的金融和法律信息提供商,其专业级AI助手CoCounsel被广泛应用于法律工作。

CoCounsel的主要任务是帮助法律专业人士处理复杂的法律文件和工作流程。在测试GPT-4.1时,路透社发现该模型在多文档审查方面表现出色,尤其是在处理涉及多个长文档的复杂法律工作流程时。

与GPT-4o相比,GPT-4.1在内部长上下文基准测试中的多文档审查准确性提高了17%。这一提升对于法律专业人士来说至关重要,因为它直接关系到CoCounsel处理复杂法律工作流程的能力。

法律文件通常包含多个长文档,这些文档之间可能存在复杂的相互关系,例如冲突条款或补充上下文。GPT-4.1在这些方面表现出了极高的可靠性,能够准确识别文档之间的细微关系,这对于法律分析和决策至关重要。

而在处理多个法律文件时,GPT-4.1能够有效地维护跨文档的上下文信息,并准确识别出文档之间的冲突条款或补充信息。这

Carlyle是一家全球领先的私募股权投资公司,其业务涉及大量的金融数据分析和文档处理。Carlyle使用GPT-4.1来从多个长文档中准确提取颗粒化的金融数据,这些文档包括PDF文件、Excel表格和其他复杂格式。

Carlyle的内部评估显示,GPT-4.1在从大型文档中检索数据方面的表现比其他可用模型高出50%。

GPT-4.1在处理非常大的文档时表现出色,尤其是在密集数据的检索方面。该模型成功克服了其他模型的关键限制,包括检索问题、中间位置丢失信息的错误以及跨文档的多跳推理。

这些能力使得GPT-4.1能够更高效地从复杂的金融文档中提取必键信息,为Carlyle的分析师提供了更准确、更全面的数据支持。

Windsurf是一家专注于提供高效开发工具的公司,其内部编码基准测试为评估AI模型在实际开发中的表现提供了一个重要的参考。在对GPT-4.1进行测试时,Windsurf发现该模型在编码任务中的表现比前代GPT-4o有了显著提升:GPT-4.1在Windsurf的内部编码基准测试中得分比GPT-4o高出60%。

Windsurf的用户反馈显示,GPT-4.1在工具调用方面比GPT-4o更高效,效率提升了30%。GPT-4.1在编码过程中重复进行不必要的编辑或过度细化的步骤的可能性比GPT-4o降低了约50%。


    24小时新闻排行榜更多>>
  1. 全球布局大调整?曝川普考虑关闭30个驻外使领馆
  2. 川普政府或关闭近30个驻外使领馆
  3. 彭立发再现 成都天桥惊现抗共标语
  4. 美外交官警告匈牙利:吸引中共投资要小心
  5. 摆脱中国稀土,马斯克有重大突破
  6. 川普“让美国再次伟大”理念认同率大幅上升
  7. 川普:"这三人"要为俄乌战争负责,害数百万人丢命
  8. 辽宁碧桂园工地土方坍塌 3名工人遇难
  9. 川普关税政策大转弯,白宫团队似乎上演"权力游戏"
  10. 中共最新公文出现“惊人变化” 习近平地位岌岌可危
  11. 23俄士兵击落UFO瞬间被石化 CIA解密档案网络热传
  12. 【中国禁闻】习处境艰难 三大政治危机齐发
  13. 饮食补钙 运动强骨 从今天开始存“骨本”
  14. 【翻墙必看】外贸订单崩盘 贸易战难落幕
  15. 传上海两家知名大医院裁员30% 网络炸锅
  16. 超尴尬,万斯失手了
  17. 美中贸易战升温 全球银行下调中国GDP增长预期
  18. 川普政府挨告!5家美企控"总统越权"要求阻止关税
  19. 五家美企对川普政府提起联合诉讼
  20. 习访马如临大敌,传自带防弹车
  21. 为什么说中国可能给欧洲带来经济灾难?
  22. 习近平出访,中共智囊罕见批评外交
  23. 美国客户急电:90天内,能发多少发多少
  24. 成都天桥惊现三条民主横幅,匿名者呼吁民主改革
  25. CNN:非法移民缴税=自投罗网!
  26. 泽伦斯基再杠上范斯!轰“为普京侵乌暴行开脱”
  27. 承乱世而创盛世:中国历史上最卓越的四位皇帝
  28. 斗牛犬咬死贵宾狗,主人带犬逃离
  29. 中共破产程序不透明 外资陷风险泥潭
  30. 华裔科学家自杀:或与美国政府有关
  31. 美FCC主席:美中科技竞争 欧洲须做出选择
  32. 雷暴强风袭纽约,或有冰雹
  33. 网络间谍:中国悬赏捉拿美国国安局“特工”
  34. 【军事情报局】乌克兰空军F16如何被击落的
  35. 习时代顶尖科学家纷纷离奇死亡 质疑李海波“被灭口”
  36. 预言应验中:经济危机、中国革命、习近平下台
  37. 川普对华关税声明“他们需要我们的钱”
  38. 多次精准布局,川普圈内人炒股大赚
  39. 被骂麻的Switch2,任天堂为啥总是高高在上
  40. 国税局计划裁员40% 2万多员工或自愿离职
  41. 民调:愈来愈多美国人认同川普MAGA运动
  42. 贾静雯老公隐瞒行程去澳门
  43. CVPR 2025新研究:单图直出CAD工程文件
  44. 中共修法储备战备药品 专家析其攻台可能性
  45. 两名中国公民在意大利遭枪杀
  46. 大陆国内航线票价“大跳水” 最高降幅80%
  47. 专家:川普给出逃命期 外企抓紧撤离中国
  48. 美高关税重创中国!新增2000万失业大军
  49. OpenAI发布GPT-4.1,性能暴涨
  50. 日本以加息换关税让步
  51. 白宫:2025年“100%不会”出现经济衰退
  52. 习近平访问越南展开魅力攻势,试图拉拢东南亚国家
  53. 报税4/15最后一天,3方法可申请延期
  54. 中美关税战下广交会开幕 客流减少业界悲观
  55. 川普毕生事业的巅峰在于对抗共产主义中国
  56. 加东学院砍掉8大热门专业
  57. 美司令曝台海开战恐怖后果!50万人恐绝望死…
  58. 纽森发宣传片:是华盛顿在挑事
  59. 瑞银下调中国GDP增长 料其对美出口大幅下降
  60. 东北曾名列亚洲工业第一 却毁在红军手里