Original Essay

Token Complexity 正在 Measure 一切

切换到 English edition

过去,我们衡量一件事的难度,通常看时间、人力、资金、算力、数据量和专业门槛。

但在大模型和 Agent 时代,一个新的尺度正在出现:

完成一个目标,到底需要消耗多少 token?

我把它称为 Token Complexity

这个概念并不是我第一个提出的。近期已有研究在 Chain-of-Thought 压缩语境中使用”token complexity” 来描述一个问题被成功解决所需的最小推理 token 数。而我想把这个概念往前推进一步:它不只适用于 CoT 推理长度,也可以被扩展为一种更广义的任务复杂度视角。

在这里,Token Complexity 衡量的不是模型说了多少话,而是一个目标进入模型世界后,需要多少信息被搜索、压缩、推理、验证并最终形成可信结论。

1. 为什么现在可以谈 Token Complexity?

因为越来越多任务正在被 token 化。

过去,很多复杂任务发生在人类专家的大脑里。专家阅读材料、提取重点、调用经验、形成判断、修正方案。这个过程很重要,但大多是隐性的,很难被记录,也很难被度量。

现在不同了。

大模型和 Agent 系统正在把这些过程展开成可观察的 token 轨迹:任务描述、背景资料、搜索结果、工具输出、中间推理、人类反馈,甚至最终结果,都会以 token 的形式进入系统。

这意味着,token 不再只是计费单位,也开始成为一种新的生产活动记录方式。

当越来越多任务通过模型系统被表达、执行和验证时,我们就可以开始追问:

不同目标大概要消耗什么量级的 token,才能被可靠完成?

这就是 token complexity 出现的现实基础。

一个简单例子是学术调研。

过去,一个刚入学的研究生要写出一份合格的领域综述,我们通常会说:这可能需要几周甚至几个月时间。因为他需要阅读论文、理解问题脉络、比较不同方法、整理技术路线,并最终形成自己的判断。

但在今天,我们也可以换一种问法:完成这件事你要花多少token ?

这个问题并不是要否定时间、人力和专业训练的重要性,而是提供了一个新的观察角度:当任务进入模型系统后,它的复杂度会部分表现为 token 消耗量级。

2. Token 不只是文本

如果 token 只指文字,那么 token complexity 的想象空间会很有限。

但今天的模型系统已经不是纯文本系统。通过合理设计的tokenizer, 图像可以被切成 visual tokens,视频可以被表示为时空 tokens,语音可以变成 acoustic tokens,机器人动作可以被表示为 action tokens。实验数据、传感器信号、工具反馈,也都可以进入模型系统,成为某种 token-like representation。

所以,token complexity 不应该被狭隘地理解成”写作复杂度”或”文本长度”。

它更接近于:

一个目标在模型系统中被表示、探索、执行和验证所需要的信息处理复杂度。

这也是为什么它可能跨越文本、视觉、科学、工程、艺术和商业。

3. 真正值得讨论的是高价值目标

Token complexity 最有意思的地方,不是衡量一份普通报告、一次客服问答,或一次简单文书任务。

真正值得问的是:

  • 写出一篇高质量领域综述的 token complexity 是什么?
  • 发一篇 Nature / Science / Cell 的 token complexity 是什么?
  • 提出相对论级别的理论突破的 token complexity 是什么?
  • 把一项前沿技术真正落地到产业里的 token complexity 是什么?
  • 创造一个改变行业、甚至改变时代的产品方向的 token complexity 是什么?

这些目标的最终表达,未必很长。

一篇顶刊论文最终可能只有几千到一两万字;一个关键实验设计可能只是一页方案;一个真正有效的技术路线,最后可能只是几张架构图和一组工程决策;一个伟大的产品方向,最后也可能被压缩成一句话。

但它们背后的 token complexity 极高。

因为真正困难的部分不是把结果写出来,而是找到那个值得被写出来、值得被实现、也真的能够被验证的结果。

发一篇顶刊论文,难点往往不在写作本身,而在于判断什么问题值得做,现有工作真正停在哪里,自己的证据是否足够新、足够强,以及最后能否让同行相信这件事确实重要。

做技术落地也是类似。真正难的往往不是复现一个 demo,而是判断这项技术在真实约束下能不能跑起来:成本是否能接受,延迟是否可控,稳定性是否足够,边界情况怎么处理,出了问题谁来兜底,以及它是否真的比原来的方案更好。

做产品也不是写一句漂亮口号。一个真正好的产品方向,通常要在用户需求、技术能力、商业模式、组织资源和市场时机之间找到一个足够窄、但足够有力的切口。

电影、游戏、设计这类创作也一样。它们不是只有”好点子”,还需要风格、节奏、情绪、媒介语言和受众反馈之间形成某种稳定的化学反应。

所以,这些目标不是因为”输出长”而复杂,而是因为它们背后有更大的搜索空间、更强的验证链条、更真实的外部约束,以及更高密度的判断。

4. 人类专家会变成 Dynamic Harness

有人可能会说:这些高价值目标没有人的参与,Agent 根本做不到。这个判断在今天大体是对的。我们目前既不能准确衡量这些目标的 token complexity,也不能脱离人类专家。

但我想讨论的是另一个视角:从人类中心视角看,专家是在完成任务;而从模型或 Agent 中心视角看,专家的角色可能正在发生变化。

专家不一定总是直接执行者。很多时候,专家会变成一种 dynamic harness

也就是说,人类在关键节点介入,为模型提供目标、约束、判断、反馈和纠偏。

同一个目标,由专家组织模型完成,和由非专家组织模型完成,实际 token 消耗会很不一样。

专家知道哪些背景必须保留,哪些信息可以省略;知道哪些结论需要验证,哪些错误最危险;也知道什么时候应该继续探索,什么时候应该停止。

因此,专家提供的 harness 越好,模型越少走弯路,越少消耗无效 token,也就越可能逼近这个目标理论上的 token complexity 下界。

未来的专业能力,可能不只是:

我能完成这个任务。

而是:

我能让模型以更加接近 token complexity 的 token 消耗来完成这个目标。

5. 观测到的 Token 消耗不等于理论复杂度

当前系统真实消耗的 token,通常包含两部分:

Observed Token Cost
= Intrinsic Token Complexity
+ System Inefficiency

一个任务今天很耗 token,不一定说明它本身极难。

它也可能只是因为 prompt 不清楚、上下文冗余、检索低效、工具设计差、模型反复试错,或者人类反馈质量不高。

所以,真正重要的不是今天用了多少 token,而是:

在更好的模型、更好的工具、更好的 memory、更好的 workflow、更好的 human harness 下,完成这个目标所需的最小有效 token 量级是多少?

这个最小有效 token 量级,就是我们当下可以逼近的 Intrinsic Token Complexity 的有效下界。

模型进步、工具进步、memory 进步、Agent harness 进步、多 Agent 协同进步,本质上都在做同一件事:

让 observed token cost 逐渐逼近 intrinsic token complexity。

6. 结论

Token Complexity 的使用目前还未凝聚成共识,但它指向了一个真实趋势。

当越来越多目标通过模型系统被表达、探索、执行和验证,token 消耗就不再只是成本问题,而会成为一种判断尺度。

未来评价一个系统,不能只问:

它能不能完成任务?

还要问:

它用了多少 token?
哪些 token 是必要的?
哪些 token 是浪费的?
它是否接近理论下界?

未来评价一个人,也不只看他是否能亲自完成任务,还要看他是否能构造更好的 dynamic harness,让模型更高效地完成目标。

今天,很多行业任务仍然需要人类专家实时提供目标、约束、判断和纠偏。但未来,这些 harness 可能会逐步沉淀为 workflow、validator、reward signal 或 agent policy,成为模型系统自身的一部分。不难想象,在这个过程中,不少个体会经历专业价值被重新定价的阵痛。

这也意味着,人类介入的位置会继续上移:从直接执行任务,到设计 harness;再到定义目标、价值和边界条件。 所以,Token Complexity 可能会成为 AI 时代的基础尺度之一。

它会帮助我们 measure 目标,judge 系统,也重新理解人在模型时代的位置。


原创,可授权转载

Leave a Comment