Original Essay

Token Complexity 正在 Measure 一切

Published: May 13, 2026

作者: Oliver

过去，我们衡量一件事的难度，通常看时间、人力、资金、算力、数据量和专业门槛。

但在大模型和 Agent 时代，一个新的尺度正在出现：

完成一个目标，到底需要消耗多少 token？

我把它称为 Token Complexity。

这个概念并不是我第一个提出的。近期已有研究在 Chain-of-Thought 压缩语境中使用”token complexity” 来描述一个问题被成功解决所需的最小推理 token 数。而我想把这个概念往前推进一步：它不只适用于 CoT 推理长度，也可以被扩展为一种更广义的任务复杂度视角。

在这里，Token Complexity 衡量的不是模型说了多少话，而是一个目标进入模型世界后，需要多少信息被搜索、压缩、推理、验证并最终形成可信结论。

1. 为什么现在可以谈 Token Complexity？

因为越来越多任务正在被 token 化。

过去，很多复杂任务发生在人类专家的大脑里。专家阅读材料、提取重点、调用经验、形成判断、修正方案。这个过程很重要，但大多是隐性的，很难被记录，也很难被度量。

现在不同了。

大模型和 Agent 系统正在把这些过程展开成可观察的 token 轨迹：任务描述、背景资料、搜索结果、工具输出、中间推理、人类反馈，甚至最终结果，都会以 token 的形式进入系统。

这意味着，token 不再只是计费单位，也开始成为一种新的生产活动记录方式。

当越来越多任务通过模型系统被表达、执行和验证时，我们就可以开始追问：

不同目标大概要消耗什么量级的 token，才能被可靠完成？

这就是 token complexity 出现的现实基础。

一个简单例子是学术调研。

过去，一个刚入学的研究生要写出一份合格的领域综述，我们通常会说：这可能需要几周甚至几个月时间。因为他需要阅读论文、理解问题脉络、比较不同方法、整理技术路线，并最终形成自己的判断。

但在今天，我们也可以换一种问法：完成这件事你要花多少token ?

这个问题并不是要否定时间、人力和专业训练的重要性，而是提供了一个新的观察角度：当任务进入模型系统后，它的复杂度会部分表现为 token 消耗量级。

2. Token 不只是文本

如果 token 只指文字，那么 token complexity 的想象空间会很有限。

但今天的模型系统已经不是纯文本系统。通过合理设计的tokenizer, 图像可以被切成 visual tokens，视频可以被表示为时空 tokens，语音可以变成 acoustic tokens，机器人动作可以被表示为 action tokens。实验数据、传感器信号、工具反馈，也都可以进入模型系统，成为某种 token-like representation。

所以，token complexity 不应该被狭隘地理解成”写作复杂度”或”文本长度”。

它更接近于：

一个目标在模型系统中被表示、探索、执行和验证所需要的信息处理复杂度。

这也是为什么它可能跨越文本、视觉、科学、工程、艺术和商业。

3. 真正值得讨论的是高价值目标

Token complexity 最有意思的地方，不是衡量一份普通报告、一次客服问答，或一次简单文书任务。

真正值得问的是：

写出一篇高质量领域综述的 token complexity 是什么？
发一篇 Nature / Science / Cell 的 token complexity 是什么？
提出相对论级别的理论突破的 token complexity 是什么？
把一项前沿技术真正落地到产业里的 token complexity 是什么？
创造一个改变行业、甚至改变时代的产品方向的 token complexity 是什么？

这些目标的最终表达，未必很长。

一篇顶刊论文最终可能只有几千到一两万字；一个关键实验设计可能只是一页方案；一个真正有效的技术路线，最后可能只是几张架构图和一组工程决策；一个伟大的产品方向，最后也可能被压缩成一句话。

但它们背后的 token complexity 极高。

因为真正困难的部分不是把结果写出来，而是找到那个值得被写出来、值得被实现、也真的能够被验证的结果。

发一篇顶刊论文，难点往往不在写作本身，而在于判断什么问题值得做，现有工作真正停在哪里，自己的证据是否足够新、足够强，以及最后能否让同行相信这件事确实重要。

做技术落地也是类似。真正难的往往不是复现一个 demo，而是判断这项技术在真实约束下能不能跑起来：成本是否能接受，延迟是否可控，稳定性是否足够，边界情况怎么处理，出了问题谁来兜底，以及它是否真的比原来的方案更好。

做产品也不是写一句漂亮口号。一个真正好的产品方向，通常要在用户需求、技术能力、商业模式、组织资源和市场时机之间找到一个足够窄、但足够有力的切口。

电影、游戏、设计这类创作也一样。它们不是只有”好点子”，还需要风格、节奏、情绪、媒介语言和受众反馈之间形成某种稳定的化学反应。

所以，这些目标不是因为”输出长”而复杂，而是因为它们背后有更大的搜索空间、更强的验证链条、更真实的外部约束，以及更高密度的判断。

4. 人类专家会变成 Dynamic Harness

有人可能会说：这些高价值目标没有人的参与，Agent 根本做不到。这个判断在今天大体是对的。我们目前既不能准确衡量这些目标的 token complexity，也不能脱离人类专家。

但我想讨论的是另一个视角：从人类中心视角看，专家是在完成任务；而从模型或 Agent 中心视角看，专家的角色可能正在发生变化。

专家不一定总是直接执行者。很多时候，专家会变成一种 dynamic harness。

也就是说，人类在关键节点介入，为模型提供目标、约束、判断、反馈和纠偏。

同一个目标，由专家组织模型完成，和由非专家组织模型完成，实际 token 消耗会很不一样。

专家知道哪些背景必须保留，哪些信息可以省略；知道哪些结论需要验证，哪些错误最危险；也知道什么时候应该继续探索，什么时候应该停止。

因此，专家提供的 harness 越好，模型越少走弯路，越少消耗无效 token，也就越可能逼近这个目标理论上的 token complexity 下界。

未来的专业能力，可能不只是：

我能完成这个任务。

而是：

我能让模型以更加接近 token complexity 的 token 消耗来完成这个目标。

5. 观测到的 Token 消耗不等于理论复杂度

当前系统真实消耗的 token，通常包含两部分：

Observed Token Cost
= Intrinsic Token Complexity
+ System Inefficiency

一个任务今天很耗 token，不一定说明它本身极难。

它也可能只是因为 prompt 不清楚、上下文冗余、检索低效、工具设计差、模型反复试错，或者人类反馈质量不高。

所以，真正重要的不是今天用了多少 token，而是：

在更好的模型、更好的工具、更好的 memory、更好的 workflow、更好的 human harness 下，完成这个目标所需的最小有效 token 量级是多少？

这个最小有效 token 量级，就是我们当下可以逼近的 Intrinsic Token Complexity 的有效下界。

模型进步、工具进步、memory 进步、Agent harness 进步、多 Agent 协同进步，本质上都在做同一件事：

让 observed token cost 逐渐逼近 intrinsic token complexity。

6. 结论

Token Complexity 的使用目前还未凝聚成共识，但它指向了一个真实趋势。

当越来越多目标通过模型系统被表达、探索、执行和验证，token 消耗就不再只是成本问题，而会成为一种判断尺度。

未来评价一个系统，不能只问：

它能不能完成任务？

还要问：

它用了多少 token？
哪些 token 是必要的？
哪些 token 是浪费的？
它是否接近理论下界？

未来评价一个人，也不只看他是否能亲自完成任务，还要看他是否能构造更好的 dynamic harness，让模型更高效地完成目标。

今天，很多行业任务仍然需要人类专家实时提供目标、约束、判断和纠偏。但未来，这些 harness 可能会逐步沉淀为 workflow、validator、reward signal 或 agent policy，成为模型系统自身的一部分。不难想象，在这个过程中，不少个体会经历专业价值被重新定价的阵痛。

这也意味着，人类介入的位置会继续上移：从直接执行任务，到设计 harness；再到定义目标、价值和边界条件。所以，Token Complexity 可能会成为 AI 时代的基础尺度之一。

它会帮助我们 measure 目标，judge 系统，也重新理解人在模型时代的位置。

原创，可授权转载

这篇文章对你有启发吗？

如果它值得被更多人看到，可以点一个赞。

Share on

Bluesky Facebook LinkedIn X (formerly Twitter)