OpenClaw 省钱指南：7 个技巧帮你砍掉 80% 的 Token 费用

用 OpenClaw 很爽——直到你看到 API 账单。一个每天发 100 条以上消息、用 Claude Opus 或 GPT-4 的重度用户，光 Token 费就能花到每月 $200-$300。这还没算 VPS、域名之类的开销。

但问题在于：这笔钱里大部分是浪费。冗余的上下文、过长的回复、用贵模型干便宜活。我们在为数百位用户运行 OpenClaw 实例的过程中，总结出了 7 个技巧，能稳定地把 Token 费用砍掉 60-80%，而且不影响使用质量。

这不是纸上谈兵，全是真实部署中跑出来的数据。逐个来看。

先搞清楚：Token 花在哪了？

优化之前，先理解成本结构。每次 OpenClaw 交互都有两个方向的 Token 消耗：

输入 Token — 发给模型的所有内容：系统提示词、对话历史、技能定义、用户消息
输出 Token — 模型返回的回复

下面是典型 OpenClaw 对话中输入 Token 的分布：

组成部分	占输入 Token 比例	通常大小
系统提示词 + 技能定义	35-45%	2,000-6,000 tokens
对话历史	30-40%	1,500-8,000 tokens
用户消息	5-10%	50-200 tokens
工具调用 / 上下文	10-20%	500-3,000 tokens

注意到了吗？你的实际消息——你真正想做的事——只占输入的 5-10%。剩下的全是开销。省钱的空间就在这里。

以下是 OpenClaw 常用模型的当前 API 价格（2026 年 3 月）：

模型	输入价格（每 1M tokens）	输出价格（每 1M tokens）
Claude Opus 4	$15.00	$75.00
Claude Sonnet 4	$3.00	$15.00
Claude Haiku 3.5	$0.80	$4.00
GPT-4o	$2.50	$10.00
GPT-4o-mini	$0.15	$0.60

模型之间的价格差距巨大——Opus 的输入价格是 GPT-4o-mini 的 100 倍。这个差距就是大多数成本优化的基础。

技巧 1：记忆蒸馏 — 省 30-40%

这是影响最大的单项优化。默认情况下，OpenClaw 每次对话都会把完整的历史记录发给模型。一个 50 条消息的对话轻松就能累积 15,000-20,000 个 Token 的历史。你在为模型反复阅读你们已经讨论过的所有内容买单——每一轮都要付一次。

记忆蒸馏把旧的对话轮次压缩成一段简短摘要，只保留最近几轮的完整内容。

工作原理

不再发送 50 条原始消息作为上下文，而是发送：

一段 200-300 Token 的对话摘要
最近 3-5 条完整消息
用户当前的消息

这把 15,000 个 Token 的历史替换成大约 1,500 个 Token——历史部分减少 90%。

在 OpenClaw 中配置

在 OpenClaw 配置中启用记忆蒸馏：

memory:
  strategy: distill
  keep_recent: 5
  distill_model: gpt-4o-mini
  distill_interval: 10  # 每 10 条消息蒸馏一次

关键思路：用便宜模型（GPT-4o-mini，$0.15/1M 输入 Token）来生成摘要。摘要不需要多精彩——只需要捕捉关键事实和决定。然后你的贵模型拿到的是一个精简的上下文，而不是臃肿的大段历史。

算笔账

假设你用 Claude Opus 4，每天发送 100 条消息，平均对话长度 30 条：

蒸馏前：

每轮平均历史 Token：8,000
每日历史 Token：100 轮 x 8,000 = 800,000
月费用（仅历史部分）：800K x 30 天 x $15/1M = $360/月

蒸馏后：

每轮平均历史 Token：1,200（摘要 + 5 条近期消息）
每日历史 Token：100 轮 x 1,200 = 120,000
蒸馏成本（GPT-4o-mini）：~30K tokens/天 x $0.15/1M = ~$0.14/月
月费用（仅历史部分）：120K x 30 天 x $15/1M = $54/月

节省：仅历史部分每月省 $306——减少 85%。

如果你不知道从哪里开始优化，就从这里开始。光是记忆蒸馏就能把总账单砍掉 30-40%。

技巧 2：模型混用 — 省 20-40%

不是每条消息都需要最聪明（也最贵）的模型。当你问 OpenClaw "明天几点开会？"或者"提醒我买牛奶"的时候，这不需要 Claude Opus 那 $15/1M 的输入 Token。

模型混用把简单任务路由到便宜模型，只在需要复杂推理时才用贵模型。

路由策略

设置分层模型配置：

任务类型	模型	成本（输入）
简单问答、打招呼、提醒	GPT-4o-mini	$0.15/1M
搜索、摘要、翻译	Claude Sonnet 4	$3.00/1M
复杂推理、编程、分析	Claude Opus 4	$15.00/1M

在 OpenClaw 中配置

OpenClaw 通过配置支持模型路由：

models:
  default: anthropic/claude-sonnet-4
  routes:
    - match: [greeting, simple_qa, reminder, time, weather]
      model: openai/gpt-4o-mini
    - match: [code, analysis, complex_reasoning, math]
      model: anthropic/claude-opus-4
    - match: [search, summary, translation]
      model: anthropic/claude-sonnet-4

你也可以用 GPT-4o-mini（以它的价格来说基本免费）作为分类器，对每条传入消息进行分类，然后路由到合适的模型。

算笔账

假设每天 100 条消息，按照典型使用模式分布：

层级	消息占比	旧模型	新模型	旧成本/条	新成本/条
简单	40%	Opus ($15)	GPT-4o-mini ($0.15)	$0.045	$0.00045
中等	40%	Opus ($15)	Sonnet ($3)	$0.045	$0.009
复杂	20%	Opus ($15)	Opus ($15)	$0.045	$0.045

成本按每条消息 3,000 输入 Token 计算。

混用前： 100 条 x $0.045 = $4.50/天 = $135/月（仅输入）

混用后： (40 x $0.00045) + (40 x $0.009) + (20 x $0.045) = $0.018 + $0.36 + $0.90 = $1.28/天 = $38.40/月

节省：约 $97/月——模型成本减少 72%。

最棒的是：80% 的交互你根本感觉不到质量差异。简单任务用便宜模型回答得一样好。

技巧 3：Prompt 缓存 — 省 10-25%

每次你给 Claude 发消息，系统提示词和技能定义都要随消息一起发送。如果你的系统提示词有 3,000 个 Token，你每天发 100 条消息，那就是每天 300,000 个 Token 花在完全一样的不变文本上。

Anthropic 的 Prompt 缓存允许你缓存静态内容（系统提示词、工具定义），初次加载付一次费，之后每次读取享受折扣价。

工作原理

缓存输入 Token 打一折：

	标准输入	缓存输入	缓存写入
Claude Opus 4	$15.00/1M	$1.50/1M	$18.75/1M
Claude Sonnet 4	$3.00/1M	$0.30/1M	$3.75/1M

写入缓存有少量溢价，但之后每次读取都是一折。缓存通常持续 5 分钟，每次使用都会刷新。

在 OpenClaw 中配置

在新版 OpenClaw 中，Anthropic 模型默认启用了 Prompt 缓存。确保你用的是 v2026.3.0 或更新版本：

llm:
  provider: anthropic
  cache:
    enabled: true
    static_prefix: true  # 缓存系统提示词和工具定义

算笔账

假设 4,000 Token 的系统提示词，每天 100 条消息，Claude Sonnet 4：

缓存前：

系统提示词费用：4,000 tokens x 100 条 x 30 天 x $3/1M = $36/月

缓存后（缓存命中率约 95%）：

缓存写入：4,000 x 5 条 x 30 天 x $3.75/1M = $2.25
缓存读取：4,000 x 95 条 x 30 天 x $0.30/1M = $3.42
合计：$5.67/月

节省：系统提示词费用省约 $30/月——减少 84%。

这基本上是白捡的钱。如果你在用 Anthropic 的模型但还没开缓存，现在就开。

技巧 4：技能精简 — 省 5-15%

OpenClaw 中每个激活的技能都会增加系统提示词的长度。每个技能定义通常贡献 200-800 个 Token 的工具描述、参数和说明。如果你加载了 15 个技能，那就是每条消息额外多出 3,000-12,000 个 Token。

大多数用户都有一些装过一次、试过一次、然后就忘了的技能。这些技能在悄悄地让每次 API 调用都变贵。

如何审计

查看你的活跃技能：

openclaw skill list --active

对每个技能问自己："过去两周我用过这个吗？"如果没有，停用它。

实用方法

把技能分成不同的配置文件：

skill_profiles:
  default:
    - core/memory
    - core/web-search
    - core/calendar
  coding:
    - core/memory
    - dev/code-runner
    - dev/github
    - dev/docker
  research:
    - core/memory
    - core/web-search
    - research/arxiv
    - research/scholar

根据你正在做的事情切换配置。你的"默认"配置应该只有 3-5 个核心技能，而不是 15 个。

算笔账

假设 12 个技能，平均每个 500 Token，精简到 4 个：

精简前：

额外技能 Token：12 x 500 = 6,000 tokens/条消息
月费用（100 条/天，Sonnet $3/1M）：6,000 x 100 x 30 x $3/1M = $54/月

精简后：

额外技能 Token：4 x 500 = 2,000 tokens/条消息
月费用：2,000 x 100 x 30 x $3/1M = $18/月

节省：$36/月——技能开销减少 67%。

这个技巧和 Prompt 缓存配合效果很好。技能 Token 越少，缓存的前缀就越小，写入缓存更快，总体成本更低。

技巧 5：本地模型处理简单任务 — 省 15-30%

一个激进的想法：有些任务根本不需要调用云端 API。消息分类、意图路由、基于缓存知识的简单问答、基本的文本转换——这些都可以在本地模型上运行，API 成本为零。

配置 Ollama

Ollama 让你在本地运行开源模型。安装后拉取一个小而快的模型：

# 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# 拉取快速模型用于简单任务
ollama pull llama3.2:3b    # 2GB，适合分类
ollama pull mistral:7b      # 4GB，通用任务

连接 OpenClaw

配置 OpenClaw 对特定任务使用 Ollama：

models:
  local:
    provider: ollama
    model: llama3.2:3b
    endpoint: http://localhost:11434
  routes:
    - match: [classify, route, simple_format]
      model: local
    - match: [greeting, weather, time, reminder]
      model: local

算笔账

假设 30% 的消息（每天 30 条）可以在本地处理：

使用本地模型前：

30 条简单消息 x 3,000 tokens 均值 x $3/1M (Sonnet) = $0.27/天 = $8.10/月
加上输出 Token：30 x 500 tokens x $15/1M = $0.225/天 = $6.75/月
简单任务总费用：$14.85/月

使用本地模型后：

运行 Ollama 的电费：大约 $2-3/月
这些消息的 API 费用：$0

节省：简单任务省约 $12/月。

更大的好处是：本地模型的响应是毫秒级的，没有网络延迟。简单交互的体验会感觉很流畅。

如果你在用 ClawPod，托管的 VPS 自带兼容 Ollama 的端点，可以直接配置用于轻量任务——不需要额外搭建。

技巧 6：控制回复长度 — 省 10-20%

输出 Token 很贵——通常是输入 Token 的 3-5 倍。Claude Opus 的输出价格是 $75/1M，而输入只要 $15/1M。但大多数用户对模型的回复长度不加任何限制。

一个不受约束的典型回复有 500-1,500 个 Token。合理配置后，你可以用 200-500 个 Token 得到同样有用的答案。

配置选项

设置全局和按技能的最大 Token 数：

llm:
  max_tokens: 500  # 全局默认值
  response_style: concise

skills:
  web-search:
    max_tokens: 800  # 搜索可能需要更多空间
  code-runner:
    max_tokens: 1500  # 代码输出需要空间
  simple-qa:
    max_tokens: 200  # 简单回答保持简短

你也可以在系统提示词中加入指令：

回复要简洁。列表用要点格式。
避免不必要的开场白、免责声明和总结。
如果答案很短，就保持回复简短。

算笔账

假设每天 100 条消息，Claude Sonnet 4：

控制前：

平均输出：800 tokens/条回复
月输出费用：800 x 100 x 30 x $15/1M = $36/月

控制后：

平均输出：400 tokens/条回复
月输出费用：400 x 100 x 30 x $15/1M = $18/月

节省：$18/月——输出成本减半。

更短的回复不只是更便宜，通常也更好。没人想读五段话，一个列表就够了。

技巧 7：批量处理 — 省 5-10%

如果你经常给 OpenClaw 发一系列相关任务——"帮我总结这 10 篇文章"、"翻译这 5 段话"、"分析这 8 个数据点"——一条一条发是最贵的方式。

每个单独的请求都要带上完整的系统提示词、对话历史和技能定义。十个请求就意味着为这些开销付十次钱。

如何批量操作

不要这样：

你：总结文章 1
Bot：[摘要]
你：总结文章 2
Bot：[摘要]
...重复 10 次

而是这样：

你：分别总结以下 10 篇文章，用编号列表返回结果。
[文章 1 正文]
[文章 2 正文]
...

一次请求，一份系统提示词，一个回复。

算笔账

假设 10 篇文章，每篇 1,000 Token，系统提示词 4,000 Token，Sonnet：

逐条处理（10 次请求）：

输入：10 x (4,000 + 1,000 + 历史) = ~60,000 tokens
费用：60,000 x $3/1M = 每批 $0.18

批量处理（1 次请求）：

输入：4,000 + 10,000 + 历史 = ~16,000 tokens
费用：16,000 x $3/1M = 每批 $0.048

节省：每批操作省 73%。

如果你经常做批量类工作（每日总结、内容处理、数据分析），这累积起来每月能省 $15-30。

使用 Anthropic 的 Batch API

对于大批量工作负载，Anthropic 提供了专用的 Batch API，标准价格打五折。请求在 24 小时内处理，而非实时返回：

	标准 API	Batch API
Claude Sonnet 4 输入	$3.00/1M	$1.50/1M
Claude Sonnet 4 输出	$15.00/1M	$7.50/1M

如果你有不需要即时响应的任务（过夜内容生成、每周报告编制），Batch API 可以把这些工作负载的成本减半。

叠加效果：复合省钱

这些技巧不是互斥的，它们可以叠加。一起用的效果是这样的：

从一个基准开始：一个重度用户，所有任务都用 Claude Opus 4，每天 100 条消息，没有任何优化。

基准月费用：约 $300/月

然后依次应用每个技巧：

步骤	技巧	减少比例	累计费用
0	基准（无优化）	—	$300
1	记忆蒸馏	-35%	$195
2	模型混用	-30%	$137
3	Prompt 缓存	-15%	$116
4	技能精简	-10%	$104
5	本地模型	-20%	$83
6	控制回复长度	-15%	$71
7	批量处理	-8%	$65

最终月费用：约 $65/月——减少 78%。

实际上，激进的优化可以把这个数字压到 $50/月以下。OpenClaw 社区里有些用户通过大量使用本地模型和精心设计提示词，月费用甚至低于 $30。

月费用对比：优化前 vs 优化后

三种用户画像的真实对比：

	轻度用户（30 条/天）	标准用户（100 条/天）	重度用户（300 条/天）
优化前	$80/月	$300/月	$900/月
优化后	$15/月	$60/月	$180/月
节省	$65/月	$240/月	$720/月
年度节省	$780	$2,880	$8,640

用量越大，省得越多。重度用户获益最大，因为开销的减少会随着请求量级而放大。

快速上手清单

如果你想今天就开始省钱，按优先级排列：

开启记忆蒸馏 — 效果最大，操作最简单。改一个配置值就行。
设置模型混用 — 把简单任务路由到 GPT-4o-mini。配置只需 10 分钟。
启用 Prompt 缓存 — 如果你用 Anthropic 的模型，一个开关搞定。
审计你的技能 — 停用两周内没用过的技能。
设置最大 Token 数 — 在全局配置里加上 max_tokens: 500，按技能需要调整。
安装 Ollama — 用于分类和简单任务。周末项目。
批量处理工作流 — 训练自己把相关任务合并成单次请求。

前 3 步不到 30 分钟就能完成，贡献了总节省的 50-60%。

监控你的费用

不能衡量的东西就不能优化。追踪你的 Token 使用情况，看看钱花到了哪里：

OpenRouter 仪表板 — 如果你通过 OpenRouter 路由，仪表板会按模型、按天显示支出明细。这是最简单的方法来找出哪些模型和对话在吃你的预算。

OpenClaw 内置统计 — 新版本包含 /stats 命令，可以查看过去 30 天按对话、按技能、按模型的 Token 使用情况。

ClawPod 仪表板 — 如果你通过 ClawPod 运行 OpenClaw，管理仪表板内置了实时 API 使用监控、费用追踪，以及超出你设定阈值时的告警提醒。不需要手动配置——平台自带。

更宏观的视角：自己折腾值不值？

说实话：全部七个技巧都实施需要时间。你需要了解自己的使用模式、配置路由规则、搭建 Ollama、反复调整。

对一些用户来说，这个时间投入回报丰厚。如果你每月花 $300 能砍到 $60，一年就是 $2,880 的节省——值得花一个周末来配置。

对另一些用户来说，这个复杂度不值得。如果你不习惯编辑 YAML 配置和管理本地模型服务器，托管服务能帮你搞定大部分工作。ClawPod 每月 $29.9，包含内置的成本优化功能、预配置的模型路由和监控——你可以专注于使用 AI 助手，而不是调试它。

不管选哪条路，核心原则是一样的：不要用高端价格干低端活。智能路由、积极缓存、保持上下文精简。

OpenClaw 省钱指南：7 个技巧帮你砍掉 80% 的 Token 费用

目录