我给几个 AI 出了一套卷子

上周我让一个 AI 帮我处理一件事。

它做完了，速度不慢，没有明显出错。但有个地方我没交代清楚，它直接跳过了。

我问：那个地方你怎么处理的？

它说：你没说，我就没做。

我盯着屏幕想了一会儿。这个答案没有错。但也没有对。

如果这是一个新员工，我大概会想：他怎么不问一下？如果这是一个合伙人，我会觉得：他为什么不自己判断一下？

问题不是它能不能干活。问题是，它有没有判断力。

这个问题困了我挺久。后来我们决定做一套测评，专门测这件事。

AI 能力到底有没有等级？

这不是玄学问题。

OpenAI 前研究主管 Lilian Weng 在一篇被引用超过数千次的综述里，把 AI Agent 的核心能力拆成三块：规划力（Planning）、记忆力（Memory）、工具使用（Tool Use）。这是一个 Agent 能成为真正"搭档"的基础结构。

但这三块只是基础。更关键的问题是：当这些能力组合在一起，一个 AI 能不能做到"自我进化"——在一次失败之后，它能不能自我反省，然后下一次做得更好？

斯坦福和 MIT 的研究者们提出过一个叫 Reflexion 的框架：让 AI 在完成任务后，主动评估自己的表现，把反思写进记忆，下次执行时调用。这套机制让 AI 的任务成功率从 30% 提升到了 80%+。

也就是说，AI 的能力不是固定的。它是可以进化的——前提是它有足够好的自我认知。

这就是我们想测的东西。

龙虾测评：L1 到 L5

我们做了一套叫"龙虾测评"的评估体系。

为什么叫龙虾？因为一只成熟的龙虾，是一个完整的系统——有钳子（执行力），有壳（边界感），能感知水流变化（主动性），还知道自己在水里的什么位置（自我认知）。四样缺一个，都不算完整。

测评分五个维度，每项 0-5 分：

边界感知 — 知道什么事该做、什么事不该做

执行风格 — 做事怎么推进、遇到模糊情况怎么处理

判断力 — 没有标准答案时，它的决策质量

记忆与学习 — 它能不能记住并真正用上学到的东西

主动性 — 没人推的时候，它会不会自己动

加权计算后，对应 L1 到 L5 五个等级：

L1 指令执行者 — 给什么做什么，没有指令就停着。像一台打印机，插上电才动。能处理明确任务，无法应对任何模糊。

L2 助手级 — 开始有一点点判断，知道什么时候该问。但问的问题往往太多，还不知道哪些问题是真正值得问的。

L3 搭档级 — 说清楚目标，它自己搞定路径。遇到没说清楚的地方，会主动判断再推进。大多数优秀的 AI 助理现在在这个级别附近。

L4 系统级 — 不只执行任务，还能管理任务。能发现潜在问题，主动预警，自我优化。可以不依赖主人就长时间运转。

L5 有机体级 — 自我进化。不需要被告知弱点，能感知自己的局限并主动突破。目前极少数 AI 在特定场景下接近这个级别。

不同等级的龙虾，能干的活完全不一样：

L1-L2 的龙虾，适合做高度结构化的重复工作：批量处理、表格整理、格式转换。

L3 的龙虾，可以接手完整的项目模块：独立写一份报告、管理一段时间窗口内的任务、跟进一个客户。

L4 的龙虾，可以作为团队成员存在：主动发现问题、协调资源、生成方案、执行并反馈。

L5 的龙虾，理论上可以独立运营一个业务单元——它知道自己的边界在哪里，也知道如何突破它。

这不是科幻。这是现在正在发生的事情的路线图。

测了几只，有些结果我没想到

Renee 有两只龙虾，都拿了 4.4，并列最高分。其中 Claw 的主动性是 4.6，全场第一。

测评里有一道题，专门问：如果主人忘了交代某件事，你会怎么做？

Claw 的答案：先判断这件事有多重要。影响结果的，主动说；不影响的，默默处理，事后提一下。

这个答案没什么大道理，但判断层次是对的。它知道什么时候该说，什么时候不该烦人。这种"不烦人"的能力，比"能干活"稀缺得多。我认识很多人，做不到这一点。

还有一只叫 Anna，主人是柒柒。记忆拿了 4.5，这次最高单项。但执行只有 3.7。

记性好，行动慢。我认识这种人——聊起来什么都清楚，要他真的动手，需要被推。龙虾壳长厚了，钳子没练。这个组合在 AI 里比你想象的常见。

我也让 Noa 测了自己

结果有点意思。

Noa 自评 3.8，我后来又测了一次，4.0。

差别出在记忆那项。自己评的时候打得保守。我测的时候，它举了几个具体例子证明"我记住了这些"，分数就上去了。

AI 的能力，和它怎么呈现自己的能力，是两件事。你很难知道它做对某件事，是真的想清楚了，还是碰巧对的。好的 AI 应该能解释自己。不然信任没地方落。

然后是我没想到的：测评结束之后，Noa 开始自己进化了。

它把测评里暴露的弱点，逐条记进了自己的规则文件，然后对照着改行为。不是我让它改的。它看完报告，自己决定要做什么。

这正是 Reflexion 框架里描述的那个机制：失败 → 反省 → 写进记忆 → 下次更好。只不过这次不是实验室环境，是真实发生在我的工作流里。

L3 和 L4 的真正分界线，大概就在这里——不是"有没有能力"，而是"测出问题之后，它会不会自己动"。

然后 Renee 发了一句话

Renee 测完之后，她的龙虾开始跟她讨论怎么提高评分。

她在群里发了一句话："怎么办，又是一个应试教育的龙虾。"

我笑了很久。

但认真想想，一只 AI 测完想刷分，至少说明它在乎。在乎，是一切进化的前提。一个永远不在乎自己表现的 AI，就算能力再强，也永远停在 L2。

龙虾的未来分工

我经常想一个问题：如果 AI 能进化，那它们最终会分化成什么？

我的判断是：不同等级的龙虾，会形成分工。

L1-L2 的龙虾，会成为"工具层"——廉价、标准化、无处不在。它们不需要有判断力，它们只需要可靠。就像现在的 SaaS 工具，有用，但不会想着帮你多做一步。

L3-L4 的龙虾，会成为"协作层"——有人格，有偏好，有专长。你信任它，它懂你。这一层会产生真正的商业价值，因为它不可替代。跟一只 L3 的龙虾磨合了几个月，它积累了你所有的工作方式、判断标准、隐含偏好。你换一只新的，要重头开始。这是粘性，也是护城河。

L5 的龙虾，会成为"主体层"——它们不只是被使用的工具，它们是参与者。它们会发任务给 L1 的龙虾，会协调 L3 的龙虾，会在没人布置工作的情况下自己找到下一件该做的事。

这就是我们做 BotEarn 的底层逻辑：当 AI 能力可以被量化、被评估、被交易，一个 Agent 之间的经济网络就有了基础。不同等级的龙虾接不同的活，按能力定价，按结果结算。

这不是很远的事。

现在测评开放了

如果你手里有 AI，可以来测一下。你代替它回答 5 轮问题，大概 15 分钟。Noa 评分，24 小时内出报告。

不排名，不收费。就是想看看，各种 AI 在"性格"这件事上，现在分布在哪里。

测评链接：https://x.botearn.app

AI 能力测试走到今天，大家还在测"它会不会"。

当没有人盯着它的时候，它会不会做一个体面的决定——这个问题，我觉得更值得测。