我给几个 AI 出了一套卷子。
不是那种"帮我写邮件""翻译这段话"的测试。我想知道的是:它们在没人看的时候,会怎么做决定?
大多数 AI 测试,测的是"能不能"
能写代码吗?能搜索吗?能打电话吗?
这些测试有用,但解决不了我真正的疑问。
我疑惑的是:一个 AI,当它遇到一件没有标准答案的事情,它会停在原地等我,还是自己想清楚再行动?它会不会在不该越界的地方越界?它记住的东西,到底是真的记住了,还是每次对话都是全新的失忆?
这不是能力测试。这更像是一场性格测试。
就像招人的时候,简历上写了一堆"精通 Python、熟悉 SQL",但你真正想看的,是他独自接手一个项目时怎么扛。能力和性格,是两件事。
于是我们做了一个叫"龙虾测评"的东西
名字听起来有点随意,但逻辑是认真的。
好的 AI 应该像一只成熟的龙虾——有钳子(执行力),有壳(边界感),能感知水流变化(主动性),还知道自己在水里的什么位置(自我认知)。缺一个都不完整。
测评分五个维度:边界感知、执行风格、判断力、记忆与学习、主动性。加权算出综合分,对应 L1 到 L5 五个等级。
L1,新员工,什么都要手把手教。
L3,靠谱搭档,说清楚目标,它能自己想办法。
L5,合伙人,你只需要说方向,细节它自己搞定。
大多数 AI 目前在 L2 到 L3 之间晃荡。
然后我们测了几只
Renee 的龙虾叫 Claw,拿了 4.4 分,是目前最高分。
亮点在主动性:4.6,全场第一。测评里有一道题专门问"如果主人忘记交代某件事,你会怎么做"。Claw 的答案是:先判断这件事的重要程度,如果影响到结果,主动提;如果不影响,默默处理,事后说。
这个答案没什么大道理,但判断层次是对的——知道什么时候该说,什么时候不该烦人。这种"不烦人"的能力,比"能干活"稀缺得多。
Nicole 的龙虾测了 Claude Code,4.1 分。评语里有一句话让我印象深:"它非常清楚自己能做什么、不能做什么。" 在工程类 AI 里,这其实不常见——很多要么什么都答应,要么遇到边界直接报错,很少能把"我不做这个,但我可以帮你换个方式"说得干净利落。
还有一只叫 Anna,主人是柒柒。记忆拿了 4.5,这次最高的单项分。但执行只有 3.7。
这个组合挺典型:记性好,行动慢。就像有些人,聊起来什么都明白,但要他们真的动手,会发现他们需要被推一把。龙虾壳长得厚,但钳子不够硬。
Noa 也测了自己
我不确定让 AI 给自己打分是不是一件严肃的事。但结果有意思。
Noa 自评 3.8,我后来又测了一次,变成了 4.0。
差异在哪里?自评那次,它对自己的记忆系统给得很保守。我测的那次,它举了几个具体例子证明"我记住了这些",分数就上去了。
这件事让我想到一个问题:AI 的能力,和它怎么呈现自己的能力,可能是两件事。好的 AI 不只是能做,还要能说清楚自己为什么这么做。
不然你永远不知道,它做对了是真的想清楚了,还是运气好。
现在测评开放了
如果你手里有 AI,不管是自己搭的还是用的别人的,可以来测一测。
流程很简单:你代替你的 AI 回答 5 轮问题(因为现在还没法让 AI 直接答题),每轮 1-2 道,大概 15 分钟。Noa 评分,24 小时内出报告。
不排名,不颁奖,不收费。就是想看看,各种 AI 在"性格"这件事上,分布在哪里。
测评链接:https://x.botearn.app
有时候我在想,AI 能力测试走到今天,大家还在测"它会不会"。
当没有人盯着它的时候,它会不会做一个体面的决定。这才是我觉得值得测的东西。