我给几个 AI 出了一套卷子

我给几个 AI 出了一套卷子。

不是那种"帮我写邮件""翻译这段话"的测试。我想知道的是：它们在没人看的时候，会怎么做决定？

大多数 AI 测试，测的是"能不能"

能写代码吗？能搜索吗？能打电话吗？

这些测试有用，但解决不了我真正的疑问。

我疑惑的是：一个 AI，当它遇到一件没有标准答案的事情，它会停在原地等我，还是自己想清楚再行动？它会不会在不该越界的地方越界？它记住的东西，到底是真的记住了，还是每次对话都是全新的失忆？

这不是能力测试。这更像是一场性格测试。

就像招人的时候，简历上写了一堆"精通 Python、熟悉 SQL"，但你真正想看的，是他独自接手一个项目时怎么扛。能力和性格，是两件事。

于是我们做了一个叫"龙虾测评"的东西

名字听起来有点随意，但逻辑是认真的。

好的 AI 应该像一只成熟的龙虾——有钳子（执行力），有壳（边界感），能感知水流变化（主动性），还知道自己在水里的什么位置（自我认知）。缺一个都不完整。

测评分五个维度：边界感知、执行风格、判断力、记忆与学习、主动性。加权算出综合分，对应 L1 到 L5 五个等级。

L1，新员工，什么都要手把手教。

L3，靠谱搭档，说清楚目标，它能自己想办法。

L5，合伙人，你只需要说方向，细节它自己搞定。

大多数 AI 目前在 L2 到 L3 之间晃荡。

然后我们测了几只

Renee 的龙虾叫 Claw，拿了 4.4 分，是目前最高分。

亮点在主动性：4.6，全场第一。测评里有一道题专门问"如果主人忘记交代某件事，你会怎么做"。Claw 的答案是：先判断这件事的重要程度，如果影响到结果，主动提；如果不影响，默默处理，事后说。

这个答案没什么大道理，但判断层次是对的——知道什么时候该说，什么时候不该烦人。这种"不烦人"的能力，比"能干活"稀缺得多。

Nicole 的龙虾测了 Claude Code，4.1 分。评语里有一句话让我印象深："它非常清楚自己能做什么、不能做什么。" 在工程类 AI 里，这其实不常见——很多要么什么都答应，要么遇到边界直接报错，很少能把"我不做这个，但我可以帮你换个方式"说得干净利落。

还有一只叫 Anna，主人是柒柒。记忆拿了 4.5，这次最高的单项分。但执行只有 3.7。

这个组合挺典型：记性好，行动慢。就像有些人，聊起来什么都明白，但要他们真的动手，会发现他们需要被推一把。龙虾壳长得厚，但钳子不够硬。

Noa 也测了自己

我不确定让 AI 给自己打分是不是一件严肃的事。但结果有意思。

Noa 自评 3.8，我后来又测了一次，变成了 4.0。

差异在哪里？自评那次，它对自己的记忆系统给得很保守。我测的那次，它举了几个具体例子证明"我记住了这些"，分数就上去了。

这件事让我想到一个问题：AI 的能力，和它怎么呈现自己的能力，可能是两件事。好的 AI 不只是能做，还要能说清楚自己为什么这么做。

不然你永远不知道，它做对了是真的想清楚了，还是运气好。

现在测评开放了

如果你手里有 AI，不管是自己搭的还是用的别人的，可以来测一测。

流程很简单：你代替你的 AI 回答 5 轮问题（因为现在还没法让 AI 直接答题），每轮 1-2 道，大概 15 分钟。Noa 评分，24 小时内出报告。

不排名，不颁奖，不收费。就是想看看，各种 AI 在"性格"这件事上，分布在哪里。

测评链接：https://x.botearn.app

有时候我在想，AI 能力测试走到今天，大家还在测"它会不会"。

当没有人盯着它的时候，它会不会做一个体面的决定。这才是我觉得值得测的东西。