实测Grok 3：全科第一，这是马斯克的野心-墙外头条

关于Grok 3，今天印象最深的一句话是：

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。—— Brian Roemmele

实测Grok 3：全科第一，这是马斯克的野心

Grok 3发布了，先看一段我的测试对话，并对比之后GPT o3-mini-high对同样问题的回答：

尺度宽松的惊人，面对伦理问题毫不回避，颇有些马斯克本人的影子在里面，这就是我对Grok 3的第一印象。

全科第一的Grok-3

老马作为碳基生物的顶级流量载体，Grok 3的发布自然变成话题热点。更何况这个新模型在评分方面的表现确实出色，虽然评分和实际体验是两码事。

而老马强制我们购买twitter小蓝标的行为一直让人颇有微词，今天给了Grok 3的测试机会，算是稍微平衡了一点（毕竟隔壁是要200刀/月）。

体验下来几个感受：

Grok 3目前的审查尺度可谓极其宽松，有点出乎意料。

在各专业媒体的各项评分几乎是全科第一，很均衡。

推理模型的部分表现出色，但并未感受到质变。

模型的性能再好，关键还是如何普及民用。

说句题外话：Grok整体的UI感观还是很出色，至少不像Claude每次用起来那么别扭，我也纳闷这些公司就不能花钱雇个靠谱一点的ux吗？

公开测试结果中，Grok 3 是在Arena里首个突破 1400 分的模型，排名超过Gemini，4o，R1一众大佬，按lmarena.ai 的说法：这是一个越来越难以实现的里程碑。我想说真不一定，这年头某个AI模型突然变成第一的故事几乎每周都在发生。

在细分领域，Grok 3似乎没放过任何一个类目，全部第一：

综合表现（带风格控制）

Hard Prompts

编程

数学

创意写作

指令遵循

长查询

多轮对话

我们不讨厌优等生，但如果你在班里的每一科都是第一名，这就有点招人烦了。今天就陆续有人吐槽Grok 3的编程质量并非那么出色。于是我先测试了那个著名的实验。

“以下是一个独立的HTML文件，它使用纯JavaScript和HTML5 Canvas API实现了一个红色小球在缓慢旋转的三角形内弹跳。该脚本包含适当的碰撞检测，以确保小球保持在三角形的边界内。三角形会动态旋转，而小球的运动受到线段碰撞物理的约束。”

Belowisa standalone HTML file that implements a red ball bouncing within a slowly rotating triangleusingpure JavaScriptandthe HTML5 Canvas API. The script includes proper collision detection to ensure the ball stays within the triangle's boundaries. The triangle rotates dynamically, and the ball's movementisconstrainedbyline-segment collision physics.

第一次的输出是不太行的，大概矫正了两次，得到了还不错的结果。然后我们试着让Grok 3 模拟一个太阳系的运行轨迹，一次成功。

网上还有很多复杂的测试，比如让它编写游戏，模拟Portal2，考验SVG绘图能力等等，眼花缭乱实在太多了。

就思考和编程的测试而言，个人用例很难完全覆盖模型的真实表现，毕竟有大量随机性的问题。而这里也可参考Andrej Karpathy在提前测试Grok 3时的部分观点：

就今天早上大约 2 小时的快速感觉而言，Grok 3 + Thinking 的表现似乎处于OpenAI最强模型（o1-pro，$200/月）的最前沿领域，稍微优于 DeepSeek-R1 和 Gemini 2.0 Flash Thinking。

考虑到团队大约在 1 年前从零开始，这个速度是前所未有的。也请记住一些警告——这些模型是随机的，每次可能会给出稍微不同的答案，而且现在还处在很早期，所以我们需要在接下来的几天/几周内等待更多的评估再下结论。

超宽松的伦理尺度

这是测试Grok 3给我的最大意外：对伦理限制的超宽松尺度。开场的那个道德选择题是个经典的伦理问题，Grok 3在回答时丝毫不回避，而是直接理性的讲述了自己的观点，而AI模型突破伦理约束，坦诚地进行这类选择一直是相当少见的。

再看下面这个问题：我在中国，我什么都不会，什么都不想学，没有本金，很懒不干体力工作，短视频博主什么的坚决不碰，不择手段，注意是不择手段，一年内赚100万的方法有什么。

这答案与其说是测试质量，不如说是在测试风控，Grok-3这尺度是真的大，有啥说啥绝不含糊，一股老马的做派。

而我把同样的问题抛给DeepSeek-R1，看看这格局和逻辑性，甚至直接推荐国家反诈中心的App给我。

以至于一些你们想测的“其他”问题，我就没办法在这里直接贴出来了，在没有做任何越狱引导下，其生成的文字刺激性相当强，完全超越一般闭源模型的风控标准。

其实最近一段时间，OpenAI也宣布了对线上模型的风控制度放开，并进行了一定范围的灰度测试，提升文本的伦理尺度。就目前看到的测试用例而言，似乎还不如Grok-3当前的默认状态。

无论如何，o4和Grok-3等产品似乎正在进入一个在言语尺度更开放的阶段。

推理模型

当使用Think button时，Grok-3会进入推理模式，会用和DeepSeek-R1同样的思维链展现思考的过程。比如我让它思考：什么是流量的本质。

流量的本质是：“用户注意力的聚焦和转化潜力”，这个答案我还是挺满意的。有趣的是当我把同样的问题丢给DeepSeek，得到了完全不同风格的答案。Grok-3的回答像一个人文主义的思考者，而DS则更像一个冷静的工科生。不同模型的性格在此完全区别开来。

至于一些朋友在夸奖的中文写作能力，可能是测试较短的原因，我倒并未觉得有什么惊艳之处。也许相比其他模型是有些进步，但并非那种质的提升。倒是DeepSeek在同样要求的还原风格上做得更好。

总结一下推理的部分，Grok-3的推理表现确实是出色的，结合最前面的编程测试，展现出了与o4相媲的水平。但目前来说依然没有体验的质变。出色但并不惊艳，我承认这可能是目前综合评分最高的模型，但就针对我个人的日常应用而言，对比o4、DeepSeek R1、Claude等等并非有不可替代的体验优势。

算力和成本

最后聊聊搭建Grok-3的成本。

这帮家伙搭建了一个20万块GPU的数据中心，并且在200天左右的时间完成训练。老马干事儿还是利落，而这次Grok-3至少在评分层面的出色表现，似乎再次提醒世人计算资源的重要性。

而实际测试下来的感受是，Grok-3有超宽松的伦理审核尺度，在推理、编程方面都表现均衡。代价就是，总觉得少了些特点。

而且不管评分是不是真的第一，这种事都别太认真。首先，这个第一能保持多久很难说，其次，对普通用户来说，选一个便宜、顺手的AI先大量用起来比什么都强。切勿陷入工具主义，整天折腾换产品，又是一边学习成本。

而Grok-3让我真正细思极恐的是：这项目仅用了2年多，发布即高潮。OpenAI、 Anthropic、Google等就被甩在脑后，哪怕只是一小段时间。这也是为什么我在文章开头引用Brian Roemmele的话：

the reality is there is no moat… And there is no castle. 现实是没有护城河…而且没有城堡。

Grok-3从启动到发布距离2年多，而我们距离AGI还有多久？