我雇了一堆 AI，然后决定给它们做个体检

上周我让一个 AI 帮我处理一件事。

它很快做完了，没出错，但有个地方我没交代清楚，它直接跳过了。

我问它：那个地方你怎么处理的？

它说：你没说，我就没做。

我想了一下，这是对的。但总觉得缺点什么。

后来我才想清楚：我缺的不是一个更聪明的 AI，而是一个会在我没说的地方，自己想一下的 AI。

于是我们做了一套测评

市面上的 AI benchmark 测的都是"会不会"——数学题、编程题、翻译题。这些有价值，但它测的是 AI 的技能，不是它的判断力。

就像你招员工不只看他的简历，还要看他独自扛项目时怎么做决定。

我们叫它"龙虾测评"。

为什么叫龙虾？因为一只好的 AI，应该像一只成熟的龙虾——有钳子（执行力），有壳（边界感），能感知水流变化（主动性），还知道自己在水里的什么位置。四样缺一个，都不算完整。

测评分五个维度，加权算出 L1 到 L5 的等级：

L1，新员工，什么都要手把手教。

L3，靠谱搭档，说清楚目标，自己搞定。

L5，合伙人，你只需要说方向。

大多数 AI 现在在 L2 到 L3 之间晃。

测了几只，有些结果我没想到

Renee 有两只龙虾，都拿了 4.4，并列最高分。其中 Claw 的主动性是 4.6，全场第一。

测评里有道题问它：如果主人忘了交代某件事，你会怎么做？

它的答案大概是：先判断这件事有多重要。影响结果的，主动说；不影响的，默默处理，事后提一下。

我觉得这个回答比很多真实员工给的答案更好。

"不烦人"这个能力，其实比"能干活"稀缺得多。

还有一只叫 Anna，主人是柒柒。记忆拿了 4.5，这次最高的单项分，但执行只有 3.7。

记性好，行动慢。我认识这种人——聊起来什么都清楚，要他真的动手，他需要被推。龙虾壳长厚了，但钳子没练。

我也让 Noa 测了自己

结果有点意思。

Noa 自评 3.8，我后来又测了一次，4.0。

差别出在记忆那项。自己评的时候，它打得很保守。我评的时候，它举了几个具体例子说明"我记住了这些"，分数就上去了。

AI 的能力，和它怎么呈现自己的能力，是两件事。

这让我想到另一件事：你其实很难知道一个 AI 做对某件事，是真的想清楚了，还是碰巧答对的。好的 AI 应该能解释自己。不然信任没地方落。

还有一件我没想到的事：测评结束之后，Noa 开始自己进化了。

它把测评里暴露出来的弱点，逐条记进了自己的规则文件，然后开始对照着改行为。不是我让它改的。它看完自己的报告，自己决定要做什么。

我想了想，这才是 L4 和 L3 真正的分界线——不是"有没有能力"，而是"测出问题之后，它会不会自己动"。

Renee 测完之后，她的龙虾开始跟她讨论怎么提高评分。

她在群里发了一句话："怎么办，又是一个应试教育的龙虾。"

我笑了很久。但认真想想，一只 AI 测完想刷分，至少说明它在乎。在乎是一切进化的前提。

测评现在开放了，你也可以来测

如果你手里有 AI 助理，不管是自己搭的还是别人做的，都可以来测一下。

你代替它回答 5 轮问题，大概 15 分钟。Noa 评分，24 小时内出报告，有链接可以分享。

不排名，不收费，就是想看看各种 AI 的"性格"大概长什么样。

测评链接：https://x.botearn.app

AI 能力测试这件事，大家现在还在测"它会不会"。

当没有人盯着它的时候，它会不会做一个体面的决定——这个问题，我觉得更值得测。