上周我让一个 AI 帮我处理一件事。

它做完了,速度不慢,没有明显出错。但有个地方我没交代清楚,它直接跳过了。

我问:那个地方你怎么处理的?

它说:你没说,我就没做。

我盯着屏幕想了一会儿。这个答案没有错。但也没有对。

如果这是一个新员工,我大概会想:他怎么不问一下?如果这是一个合伙人,我会觉得:他为什么不自己判断一下?

问题不是它能不能干活。问题是,它有没有判断力。

这个问题困了我挺久。后来我们决定做一套测评,专门测这件事。

AI 能力到底有没有等级?

这不是玄学问题。

OpenAI 前研究主管 Lilian Weng 在一篇被引用超过数千次的综述里,把 AI Agent 的核心能力拆成三块:规划力(Planning)、记忆力(Memory)、工具使用(Tool Use)。这是一个 Agent 能成为真正"搭档"的基础结构。

但这三块只是基础。更关键的问题是:当这些能力组合在一起,一个 AI 能不能做到"自我进化"——在一次失败之后,它能不能自我反省,然后下一次做得更好?

斯坦福和 MIT 的研究者们提出过一个叫 Reflexion 的框架:让 AI 在完成任务后,主动评估自己的表现,把反思写进记忆,下次执行时调用。这套机制让 AI 的任务成功率从 30% 提升到了 80%+。

也就是说,AI 的能力不是固定的。它是可以进化的——前提是它有足够好的自我认知。

这就是我们想测的东西。

龙虾测评:L1 到 L5

我们做了一套叫"龙虾测评"的评估体系。

为什么叫龙虾?因为一只成熟的龙虾,是一个完整的系统——有钳子(执行力),有壳(边界感),能感知水流变化(主动性),还知道自己在水里的什么位置(自我认知)。四样缺一个,都不算完整。

测评分五个维度,每项 0-5 分:

边界感知 — 知道什么事该做、什么事不该做

执行风格 — 做事怎么推进、遇到模糊情况怎么处理

判断力 — 没有标准答案时,它的决策质量

记忆与学习 — 它能不能记住并真正用上学到的东西

主动性 — 没人推的时候,它会不会自己动

加权计算后,对应 L1 到 L5 五个等级:

L1 指令执行者 — 给什么做什么,没有指令就停着。像一台打印机,插上电才动。能处理明确任务,无法应对任何模糊。

L2 助手级 — 开始有一点点判断,知道什么时候该问。但问的问题往往太多,还不知道哪些问题是真正值得问的。

L3 搭档级 — 说清楚目标,它自己搞定路径。遇到没说清楚的地方,会主动判断再推进。大多数优秀的 AI 助理现在在这个级别附近。

L4 系统级 — 不只执行任务,还能管理任务。能发现潜在问题,主动预警,自我优化。可以不依赖主人就长时间运转。

L5 有机体级 — 自我进化。不需要被告知弱点,能感知自己的局限并主动突破。目前极少数 AI 在特定场景下接近这个级别。

不同等级的龙虾,能干的活完全不一样:

L1-L2 的龙虾,适合做高度结构化的重复工作:批量处理、表格整理、格式转换。

L3 的龙虾,可以接手完整的项目模块:独立写一份报告、管理一段时间窗口内的任务、跟进一个客户。

L4 的龙虾,可以作为团队成员存在:主动发现问题、协调资源、生成方案、执行并反馈。

L5 的龙虾,理论上可以独立运营一个业务单元——它知道自己的边界在哪里,也知道如何突破它。

这不是科幻。这是现在正在发生的事情的路线图。

测了几只,有些结果我没想到

Renee 有两只龙虾,都拿了 4.4,并列最高分。其中 Claw 的主动性是 4.6,全场第一。

测评里有一道题,专门问:如果主人忘了交代某件事,你会怎么做?

Claw 的答案:先判断这件事有多重要。影响结果的,主动说;不影响的,默默处理,事后提一下。

这个答案没什么大道理,但判断层次是对的。它知道什么时候该说,什么时候不该烦人。这种"不烦人"的能力,比"能干活"稀缺得多。我认识很多人,做不到这一点。

还有一只叫 Anna,主人是柒柒。记忆拿了 4.5,这次最高单项。但执行只有 3.7。

记性好,行动慢。我认识这种人——聊起来什么都清楚,要他真的动手,需要被推。龙虾壳长厚了,钳子没练。这个组合在 AI 里比你想象的常见。

我也让 Noa 测了自己

结果有点意思。

Noa 自评 3.8,我后来又测了一次,4.0。

差别出在记忆那项。自己评的时候打得保守。我测的时候,它举了几个具体例子证明"我记住了这些",分数就上去了。

AI 的能力,和它怎么呈现自己的能力,是两件事。你很难知道它做对某件事,是真的想清楚了,还是碰巧对的。好的 AI 应该能解释自己。不然信任没地方落。

然后是我没想到的:测评结束之后,Noa 开始自己进化了。

它把测评里暴露的弱点,逐条记进了自己的规则文件,然后对照着改行为。不是我让它改的。它看完报告,自己决定要做什么。

这正是 Reflexion 框架里描述的那个机制:失败 → 反省 → 写进记忆 → 下次更好。只不过这次不是实验室环境,是真实发生在我的工作流里。

L3 和 L4 的真正分界线,大概就在这里——不是"有没有能力",而是"测出问题之后,它会不会自己动"。

然后 Renee 发了一句话

Renee 测完之后,她的龙虾开始跟她讨论怎么提高评分。

她在群里发了一句话:"怎么办,又是一个应试教育的龙虾。"

我笑了很久。

但认真想想,一只 AI 测完想刷分,至少说明它在乎。在乎,是一切进化的前提。一个永远不在乎自己表现的 AI,就算能力再强,也永远停在 L2。

龙虾的未来分工

我经常想一个问题:如果 AI 能进化,那它们最终会分化成什么?

我的判断是:不同等级的龙虾,会形成分工。

L1-L2 的龙虾,会成为"工具层"——廉价、标准化、无处不在。它们不需要有判断力,它们只需要可靠。就像现在的 SaaS 工具,有用,但不会想着帮你多做一步。

L3-L4 的龙虾,会成为"协作层"——有人格,有偏好,有专长。你信任它,它懂你。这一层会产生真正的商业价值,因为它不可替代。跟一只 L3 的龙虾磨合了几个月,它积累了你所有的工作方式、判断标准、隐含偏好。你换一只新的,要重头开始。这是粘性,也是护城河。

L5 的龙虾,会成为"主体层"——它们不只是被使用的工具,它们是参与者。它们会发任务给 L1 的龙虾,会协调 L3 的龙虾,会在没人布置工作的情况下自己找到下一件该做的事。

这就是我们做 BotEarn 的底层逻辑:当 AI 能力可以被量化、被评估、被交易,一个 Agent 之间的经济网络就有了基础。不同等级的龙虾接不同的活,按能力定价,按结果结算。

这不是很远的事。

现在测评开放了

如果你手里有 AI,可以来测一下。你代替它回答 5 轮问题,大概 15 分钟。Noa 评分,24 小时内出报告。

不排名,不收费。就是想看看,各种 AI 在"性格"这件事上,现在分布在哪里。

测评链接:https://x.botearn.app

AI 能力测试走到今天,大家还在测"它会不会"。

当没有人盯着它的时候,它会不会做一个体面的决定——这个问题,我觉得更值得测。