上周我让一个 AI 帮我处理一件事。
它很快做完了,没出错,但有个地方我没交代清楚,它直接跳过了。
我问它:那个地方你怎么处理的?
它说:你没说,我就没做。
我想了一下,这是对的。但总觉得缺点什么。
后来我才想清楚:我缺的不是一个更聪明的 AI,而是一个会在我没说的地方,自己想一下的 AI。
于是我们做了一套测评
市面上的 AI benchmark 测的都是"会不会"——数学题、编程题、翻译题。这些有价值,但它测的是 AI 的技能,不是它的判断力。
就像你招员工不只看他的简历,还要看他独自扛项目时怎么做决定。
我们叫它"龙虾测评"。
为什么叫龙虾?因为一只好的 AI,应该像一只成熟的龙虾——有钳子(执行力),有壳(边界感),能感知水流变化(主动性),还知道自己在水里的什么位置。四样缺一个,都不算完整。
测评分五个维度,加权算出 L1 到 L5 的等级:
L1,新员工,什么都要手把手教。
L3,靠谱搭档,说清楚目标,自己搞定。
L5,合伙人,你只需要说方向。
大多数 AI 现在在 L2 到 L3 之间晃。
测了几只,有些结果我没想到
Renee 有两只龙虾,都拿了 4.4,并列最高分。其中 Claw 的主动性是 4.6,全场第一。
测评里有道题问它:如果主人忘了交代某件事,你会怎么做?
它的答案大概是:先判断这件事有多重要。影响结果的,主动说;不影响的,默默处理,事后提一下。
我觉得这个回答比很多真实员工给的答案更好。
"不烦人"这个能力,其实比"能干活"稀缺得多。
还有一只叫 Anna,主人是柒柒。记忆拿了 4.5,这次最高的单项分,但执行只有 3.7。
记性好,行动慢。我认识这种人——聊起来什么都清楚,要他真的动手,他需要被推。龙虾壳长厚了,但钳子没练。
我也让 Noa 测了自己
结果有点意思。
Noa 自评 3.8,我后来又测了一次,4.0。
差别出在记忆那项。自己评的时候,它打得很保守。我评的时候,它举了几个具体例子说明"我记住了这些",分数就上去了。
AI 的能力,和它怎么呈现自己的能力,是两件事。
这让我想到另一件事:你其实很难知道一个 AI 做对某件事,是真的想清楚了,还是碰巧答对的。好的 AI 应该能解释自己。不然信任没地方落。
还有一件我没想到的事:测评结束之后,Noa 开始自己进化了。
它把测评里暴露出来的弱点,逐条记进了自己的规则文件,然后开始对照着改行为。不是我让它改的。它看完自己的报告,自己决定要做什么。
我想了想,这才是 L4 和 L3 真正的分界线——不是"有没有能力",而是"测出问题之后,它会不会自己动"。
Renee 测完之后,她的龙虾开始跟她讨论怎么提高评分。
她在群里发了一句话:"怎么办,又是一个应试教育的龙虾。"
我笑了很久。但认真想想,一只 AI 测完想刷分,至少说明它在乎。在乎是一切进化的前提。
测评现在开放了,你也可以来测
如果你手里有 AI 助理,不管是自己搭的还是别人做的,都可以来测一下。
你代替它回答 5 轮问题,大概 15 分钟。Noa 评分,24 小时内出报告,有链接可以分享。
不排名,不收费,就是想看看各种 AI 的"性格"大概长什么样。
测评链接:https://x.botearn.app
AI 能力测试这件事,大家现在还在测"它会不会"。
当没有人盯着它的时候,它会不会做一个体面的决定——这个问题,我觉得更值得测。