陶哲轩亲测点赞o3-mini:一个完美的答案

2025-03-12 05:25:22 · chineseheadlinenews.com · 来源: 量子位

刚刚,陶哲轩亲测了一下o3-mini,然后他给出了这样的结论:重建图论中一个标准(专家级)结果的证明,o3-mini是完全可以hold住的。

陶哲轩要重建的这个证明,叫做三角形移除引理(triangle removal lemma),由Ruzsa和Szemeredi于1978年提出,是极值图论中的重要结果:

对于任意的η>0,都存在c>0,使得对于任意一个足够大的有n个顶点的图,如果该图中最多包含cn3个三角形,那么可以通过移除最多ηn2条边,使这个图变为无三角形的图。

用另一种表述方式就是,如果一个有n个顶点的图包含o(n3)个三角形,那么可以通过移除o(n2)条边来删除所有的三角形。

然后陶哲轩看罢o3-mini的作答后表示:在几秒钟后,我收到了一个完美的答案,(o3-mini)正确地解释了这种蕴含关系。

o3-mini是如何作答的?

首先,我们来看下陶哲轩的Prompt:Ruzsa和Szemeredi的三角形移除引理断言,如果一个具有n个顶点的图(n很大)包含o(n3)个三角形,那么可以通过移除o(n2)条边使其变为无三角形图。显然,这一引理蕴含了以下结论:如果一个具有n个顶点的图是n个诱导匹配的并集,那么它只包含o(n2)条边。你知道后者是如何从前者的结论中推导出来的吗?

对于这个问题,o3-mini的回答是这样的:(注:为完整体现内容,o3-mini的作答将以英文呈现)

可以看到,o3-mini回答的逻辑还是比较清晰的。

一步一步展开论证,从起始条件(诱导匹配的并集),到构建辅助图,再到建立边与三角形数量的联系、应用引理,最后得出结论。

紧接着,陶哲轩开始追问了:谢谢!三角形移除引理的另一个标准推论是(6,3)定理:如果一个具有n个顶点的3-一致超图不包含(6,3)-配置,即不存在六个顶点确定至少三个超边的情况,那么该超图只包含o(n2)条超边。你能解释一下为什么这也是三角形移除引理的一个推论吗?

o3-mini在思考了片刻后,开始作答:

o3-mini对这个问题的总结是:在一个不包含任何 “(6,3)-configuration”(即任意六个顶点不生成三条或更多超边 )的3-uniform 超图中,由于将超边编码为辅助图中的三角形后,辅助图的三角形结构受超图条件限制呈现 “稀疏” 状态 ,根据三角形移除引理可以推断出,该超图中的超边总数为o(n2),也就是说这样的超图不会过于稠密。

在此之后,陶哲轩便开始加大难度:感谢你的大致概述!我有兴趣将其扩展成一个更详细的证明。我听说首先考虑超图是线性的情况会很有帮助——即任意两条超边不会共享两个顶点。你能将你的概述扩展成一个更精确的论证,专门针对线性情况吗?

这一次,o3-mini思考的时间足足是上个问题的四倍:

这次o3-mini的推理过程,是通过构造一个辅助图G,将超图中的每个超边对应到辅助图中的一个三角形。利用线性性质保证这些三角形边不相交,再通过假设m=Ω(n2)推出与三角形移除引理相矛盾的结果,从而证明原假设错误,得出超边数量的渐近上界 。

陶哲轩再追问:如何确保图G不会产生任何额外的三角形,除了那些直接由超边生成的三角形之外?

至此,陶哲轩评价道:好的,我认为这给出了(6,3)定理在线性情况下的完整证明。

然后继续追问o3-mini:你有什么建议,如何建立一般情况下使用这个线性的情况?

o3-mini给出了一种“清理”的路数:

清理超图:通过删除少量超边使得到的子超图H’线性化,“(6,3) 条件” 保证不会移除过多超边。

应用线性情况结论:为线性超图H’构建辅助图,每个超边对应一个边不相交三角形。

利用三角形移除引理:过多的边不相交三角形会导致与引理矛盾,所以H’有o(n2)个超边。

推导原始超图的边界:因为H’保留了H’的几乎所有超边,所以原始超图H’也有o(n2)个超边。

陶哲轩认为这是一个不错的策略,并最后提出了一个问题:你能不能试着给出一个更精确的清理步骤的描述,这个步骤可能会把一个一般的(6,3)超图转换成一个线性的(6,3)超图,并对边缘进行一些控制?

但也有局限性

在陶哲轩六连问之后,除了刚才提到的“完美答案”之外,他还给出了更加客观中立的评价:我的总体感觉是,至少对于研究级的数学任务,当前的模型在“仅需用户提供大致指导即可真正有用”和“只有在用户提供大量详细指导后才有用”之间波动,而最强大的模型在前者中的回答比例更高。

它们似乎特别适合那些非常标准的问题,这些问题的答案基本上可以在现有资源(如维基百科或StackOverflow)中找到。

但随着问题变得越来越冷门,成功率逐渐下降(尽避下降的方式较为平缓),并且需要更多的用户指导(或更高的计算资源)才能使LLM的输出达到可用的形式。

陶哲轩的这波实测也引发了不少网友的讨论。

例如有人质疑LLM的推理能力,认为它们是随机文本生成器,而不是真正的推理模型。他指出LLM的输出依赖于点赞/踩票信号,而不是真正的逻辑推理。


    24小时新闻排行榜更多>>
  1. 格陵兰大选结果出炉 民主党获胜
  2. 官媒删效忠语 两会随从减至两人 习遭降级待遇
  3. 调查川普:弹劾总统请愿书获25万签名
  4. 网红曝“郑爽为获美国绿卡被我爸包养,还怀孕了”
  5. 传赵乐际曾欲带病参加人大闭幕会遭拒
  6. 重磅!加拿大妥协!对美电力关税取消!
  7. 美股大跌 女股神大举入货 包括特斯拉 重申“通缩繁荣”
  8. 美教育部宣布裁减1300人 规模缩小近半
  9. 高盛下调美国经济预测 警告关税影响远超预期
  10. 上班压力倍增 Z世代员工掀起“装忙”职场风潮
  11. 白宫:川普不会削减社安金和医疗保险
  12. 川普习近平有意6月办“生日峰会” 2人生日仅差一天
  13. 川普祭出新关税 标准普尔500指数再度受压
  14. 鸡蛋供应短缺,将成美国2025年常态
  15. 马斯克与鲁比奥吵架,川普约饭促和解
  16. 美国西南航空“超棒招牌优惠”保不住!取消日公布了
  17. 沃尔玛要求中国供应商降价10%
  18. 美中关税战 中国供应商遭美零售商强令降价消化关税
  19. 杜特尔特明知会被抓为何要回国?两大家族斗争白热化
  20. 中国用120万移民“占领马来西亚”?
  21. 川普誓将这共和党议员逐出国会 称他是“哗众取宠之人”
  22. Meta测试首款自研AI训练芯片 减少对辉达的依赖
  23. 河南上千高中生撕书 抗议签“双休日自愿到校”
  24. 杜特尔特乘机去海牙,菲副总统发声
  25. 日本万吨级ASEV驱逐舰模型亮相
  26. 王志安:从央视洗脑机到“翻墙犬儒”的双面人生
  27. 美众院一致通过打击中共间谍威胁的法案
  28. 美各州通过立法 对抗中共日益严重的渗透
  29. 美国际开发署精简行动结束 外援项目砍掉六分之五
  30. 中共首见党魁和总理分属不同利益集团
  31. 被捕菲前总统杜特尔特已登上前往荷兰海牙的飞机
  32. 巴基斯坦武装份子袭击火车
  33. "一百多人只签了9个",今年高校的就业数据有多恐怖
  34. 中共两会草草收场 学者:专制的政治表演
  35. 赵乐际缺席两会多个会议 官方解释引质疑
  36. 前美国众议员凯蒂‧波特竞选加州州长
  37. 川普削减4亿美元资助 哥大数百项目被取消
  38. 富人给子女15大忠告 第1条就让穷人看呆了
  39. 江苏一生物科技公司突发爆炸 至少酿4死4伤
  40. 美军阿帕奇首次实战部署“长钉”
  41. 达赖喇嘛出版新书 为他圆寂后的西藏提供“框架”
  42. 大陆民营经济促进法为何难产?专家这么说
  43. 山东聊城接连有人跳河 自杀潮蔓延至小城市
  44. 佳士得首拍AI艺术品:215万成交
  45. 想看川普和习近平共切生日蛋糕?关键在北京抉择
  46. 班农批马斯克“累赘” MAGA运动内部之争日益凸显
  47. 墨总统支持率创该国历史纪录 应对川普关税得民心
  48. 川普的政策“颠簸”或将美国推向双重危机!
  49. 巴拉望“原名”郑和岛?
  50. 美股本周4关键数据止跌
  51. 菲律宾这场政治斗争,太残酷了
  52. 川普:根本不会经济衰退
  53. 川普向往的“黄金时代”:富人美好 多数人困苦的年代
  54. 杜特尔特女儿:他正被送往海牙
  55. 防信息被窃 关闭iPhone 这3个默认开启的设置
  56. 马斯克:经营遇到困难 或在政府再任职1年
  57. 路透称赵乐际病情不寻常 还列出黄菊秦刚胡锦涛...
  58. 太辣眼了:一丝不挂的“国王新衣”秀
  59. 乌克兰同意停火 川普等各国领导人回应
  60. 中共利用华人参政和多元化加剧美国社会分裂