Claude Max $100 套餐榨干指南（小白友好版）

目标：把 Max $100/月套餐的”请求次数”和”token 量”两方面用到极限。阅读对象：刚开始用 Claude Code、对 LLM 计费机制不熟悉的用户。最后更新：2026-04-28。

0. 先理解：你的额度到底是什么？

很多人以为 “Max $100 = 每月多少次请求”。错。

0.1 LLM 是按 token 计费的

token 是模型看世界的最小单位。一个英文单词约 1.3 token，一个汉字约 1–2 token。一段 1000 字中文 ≈ 1500 token。
每次你和 Claude 对话，它都会把整个会话历史 + 系统提示 + 你新说的话全部当成”输入 token”重新读一遍，然后生成”输出 token”作为回复。
Anthropic 对 Opus 4.7 的官方价：输入 $5 / 百万 token，输出 $25 / 百万 token。这是地板价，所有产品在这个价位上加价或打包。

0.2 Max $100 套餐的本质

不是”无限用”，而是“按 token 折算的额度，分两个时间窗口结算”：

5 小时滚动窗口：从你第一次发消息开始计时，5 小时内能用的 token 量有上限。Max $100 大约是 Pro 的 5 倍。
周窗口：再叠一层 7 天总量上限，防止你 5h 满血连续刷。
触顶后两种选择：等窗口刷新，或开 /extra-usage 自动按 API 原价续费。

关键理解：你浪费的不是”次数”，是 token。一次塞满 1M context 的请求 ≈ 几十次小请求的额度。所以省 token = 省额度 = 多干活。

1. 最大化”请求次数”——压低单次成本

1.1 让 prompt cache 真正命中（最重要的一条）

技术原理

LLM 推理时，每个 token 都要和前面所有 token做注意力计算，越长的 context 越贵越慢。Anthropic 发现：很多对话的开头部分（system prompt、CLAUDE.md、项目说明）是反复出现的，每次重算太浪费。

于是他们做了 prompt cache：

你第一次发请求时，Anthropic 把对话前缀（从开头开始连续的一段）算完后，把中间结果（KV cache，模型内部状态）存到服务器上，打个指纹。
下次你再发请求，如果前缀完全一致，直接复用上次的中间结果，不用重算。
命中部分的计费：只收原价的 0.1×（即 1/10 价）。
默认 cache 存活 5 分钟（5min TTL），写入要付 1.25× 的”建表费”；1 小时版本写入 2×，但适合长任务。

关键限制：cache 是前缀匹配。只要前面有一个 token 变了，后面所有 cache 全失效，得从变动点之后重算。

操作建议

同一个会话连续干活，别频繁 /clear。/clear 会把整个对话历史清空，下一条消息等于从零建 cache，等于把前面所有 cache 钱白扔了。
不要中途改 CLAUDE.md / system prompt / 早期消息。这些都在前缀里，改了 = 后面全失效。
- 把稳定内容（项目结构、规范、常用命令）放 CLAUDE.md 顶部。
- 把易变内容（当前任务描述、临时笔记）放对话末尾或单独说。
同一个文件让 Claude 反复 Read 没关系——它读过一次后，文件内容就在 context 里了，第二次读会 cache 命中，几乎免费。
长会话越用越省，因为前缀越长、cache 占比越大。

1.2 选对模型档位（省 3–5×）

技术原理

Anthropic 一个家族里有多个模型：

Opus 4.7：最聪明，最贵（$5/$25 per M token）。适合规划、复杂重构、难 debug。
Sonnet 4.6：聪明 80%，价格 1/5（$3/$15 per M token）。适合执行类任务。
Haiku 4.5：够用，价格 1/25 左右（$1/$5）。适合格式化、简单脚本、命令解释。

模型差距主要在多步推理深度。你让它”把这个函数改成异步”，Sonnet 完全够；你让它”重新设计这个模块的并发模型”，才需要 Opus。

操作建议

在 Claude Code 里 /model sonnet 或 /model haiku 切换。
经典省钱组合：Opus 规划 + Sonnet 执行。
- 按 Shift+Tab 两次进入 Plan Mode，让 Opus 出方案。
- 方案确认后切 Sonnet 执行。同一个会话内 cache 还在，无缝衔接。
如果你发现自己每天都顶 5h 上限：八成在用 Opus 干 Sonnet 该干的活。

1.3 用 subagent 隔离上下文（保护主对话 cache）

技术原理

Subagent 是”开一个独立子对话”。它有自己的 context、自己的工具调用，完事后只把摘要返回给主对话。

为什么省钱？

探索类任务（”找出所有调用 X 的地方”）要读几十个文件，主对话如果亲自读，context 立刻被几万行代码污染，后续每条消息都要重读这堆垃圾，每次都按现价算（cache 命中部分变少）。
让 subagent 去读，主对话只收到 200 字摘要。主对话 context 干净，cache 持续命中。

操作建议

探索代码库 → 用内置的 Explore subagent。
复杂规划 → 用 Plan subagent。
代码审查 → 用 code-reviewer subagent。
在 Claude Code 里直接说”用 Explore agent 找一下 …“，或它会自动调度。

1.4 `/compact` 而不是 `/clear`

技术原理

/clear：把对话历史完全清空，从零开始。下一条消息发出去是空 cache，要重新建（贵）。
/compact：让 Claude 把长对话压缩成一段摘要保留下来，然后基于摘要继续。Claude Code 会把摘要作为新前缀重建 cache，但保留了关键决策、已读文件、当前进度。

何时该用：

接近 context 上限（200k 或 1M）时，必须二选一。
任务还没完成 → /compact。
任务已结束、要换全新任务 → /clear。

2. 最大化”token 量”——把 1M 上下文用满

Max 套餐的最大红利：Opus 4.7 默认 1M context，200k 以上不加价。这是 API 直连都享受不到的福利（API 上 1M 是企业版才默认）。

2.1 一次喂够上下文，别来回追问

技术原理

每次发消息，模型都要重读整个会话。你做对比：

方案 A：5 轮对话，每轮喂 1 个文件 + 提问 → 5 次推理，每次都带前 N 轮历史。token 总量 ≈ 1+2+3+4+5 = 15 份文件。
方案 B：1 轮对话，喂 5 个文件 + 完整任务 → 1 次推理，token ≈ 5 份文件。

哪怕考虑 cache，方案 B 也明显便宜（少 60% token），而且结果更好——模型一次看到全貌比逐步喂更容易抓到关联。

操作建议

任务开始前花 30 秒想清楚：”这个任务需要它看哪些文件？”，一次性让它 Read 全。
让 Claude 自主探索（用 Bash/Grep/Read 工具）比你手动复制粘贴片段更省——它的工具调用走 cache，你的人工粘贴是全新 input token。
任务描述要完整：背景、目标、约束、不要做什么，一次说清。

2.2 善用 1 小时长 cache

技术原理

默认 cache 是 5 分钟 TTL，超时就失效。如果你的任务持续超过 5 分钟（Claude 在思考、跑测试、读大文件），cache 会过期，下一条消息又得重建。

1 小时 cache 的交易：写入收 2× 钱（贵 60%），但保 1 小时。

短任务：5min cache 划算。
长任务（>10 分钟、跨多个回合）：1h cache 净赚——一次贵的写入，换十几次 0.1× 读取。

操作建议

Claude Code 在 Max 套餐下会自动判断是否升级到 1h cache，你一般不用管。
如果你自己用 API 写脚本，手动设 cache_control: {type: "ephemeral", ttl: "1h"}。

2.3 避开 token 浪费的几个坑

坑 1：让它读巨型 lock 文件 / dist / node_modules

package-lock.json 动辄几万行，读一次几十万 token，cache 也救不了——因为你只读这一次。

对策：

项目根目录建 .claudeignore，列出要跳过的路径：
```
node_modules/
dist/
build/
*.lock
*.log
.next/
```
CLAUDE.md 里也写一句”不要读 X 目录”。

坑 2：截图比文字贵

技术原理

图片在模型里被切成”图块 token”，一张普通截图 ≈ 1500–2000 token，相当于上千字英文。

对策：能用文字描述清楚的就别贴图。报错信息、代码、配置都是文字，别截图。

坑 3：原始 `git diff` / 大日志直接塞

几千行 diff 几万 token 起步。

对策：

先 git diff --stat 看哪些文件变了。
再针对性看具体文件：git diff src/foo.ts。
大日志先 tail -100 或 grep ERROR 过滤。

坑 4：让 Opus 来回 lint / typecheck

每次让它”再跑一下 tsc 看看”都是新 token。

对策：用 hooks（在 Claude Code settings.json 里配）。

{
  "hooks": {
    "PostToolUse": [
      { "matcher": "Edit|Write", "command": "npm run typecheck" }
    ]
  }
}

每次 Edit/Write 后自动跑 typecheck，结果直接喂回 Claude，无需你提示。

3. 配额监控与节奏

3.1 看准你在哪个窗口

/status 查当前 5h 窗口剩余 + 周限额剩余。
5h 窗口从你第一次请求时启动，不是整点对齐。比如你 09:30 发第一条，窗口到 14:30。
/cost 看当前会话烧了多少 token + 等价美元。校准直觉用。

3.2 排期策略

5h 窗口内

一个连续大任务 + cache 持续命中 > 5 个独立小任务。
上午 plan、下午 execute 是两个独立窗口、两次冷 cache 起步，不如一气呵成。
想休息：让 Claude 在 5h 窗口结束前完成阶段性产出，写到文件或 CLAUDE.md，下个窗口让它自己 Read 续上。

周窗口内

周一前几个窗口做 Opus 硬活（规划、架构、难 bug）。
周中后段切 Sonnet 续命。
用 /extra-usage set-limit 设上限（比如 $50/月），防失控。

3.3 红线指标（超过说明你在亏）

现象	含义	对策
每天都顶 5h 上限	在用 Opus 干 Sonnet 的活	切档；区分规划 vs 执行
Opus 重读同样代码 >3 次	cache 没命中	检查是否中途 `/clear` 或改了 CLAUDE.md
`/extra-usage` 月超 $50	用量已超 Max $100 价值	升 Max $200 更划算
一次任务 >30 万 token 还没出结果	Claude 在打转	停掉，重新拆解任务

4. Claude Code 必配清单

按这个顺序配置一次，长期受益：

4.1 CLAUDE.md（项目根目录）

每次启动 Claude Code 自动加载，进 cache。范例：

# 项目说明
这是一个 React + Node.js 全栈应用，TypeScript。

# 目录结构
- src/client: 前端
- src/server: 后端
- src/shared: 共享类型

# 常用命令
- 开发: pnpm dev
- 测试: pnpm test
- 构建: pnpm build

# 不要碰
- node_modules/, dist/, *.lock
- src/legacy/ (废弃代码)

# 风格
- 优先编辑现有文件，不要新建
- 不写注释除非有非显然的 why

4.2 .claudeignore（项目根目录）

node_modules/
dist/
build/
.next/
*.lock
*.log
*.min.js
coverage/

4.3 自定义 subagents（`.claude/agents/` 目录）

为高频任务建专属 agent，复用时省 cache。

4.4 Hooks（`.claude/settings.json`）

自动化重复检查，省 token 又快。

4.5 命令速查

命令	用途
`/model opus` / `sonnet` / `haiku`	切模型
`/status`	看配额剩余
`/cost`	看本会话消费
`/compact`	压缩对话保留摘要
`/clear`	全清（慎用）
`/agents`	管理 subagent
`/extra-usage`	配置超额自动续费
`Shift+Tab` ×2	进 Plan Mode

5. TL;DR——三条最高 ROI 的动作

如果你只看这一节：

保持长会话 + 稳定 CLAUDE.md 让 prompt cache 持续命中。理论上能省 10×。前提：别频繁 /clear，别中途改顶部内容。
Opus 规划 / Sonnet 执行 规划用 Opus（Plan Mode），执行切 Sonnet。能省 3–5×，效果不打折。
一次喂够上下文 任务开始时把所有相关文件、完整需求一次说清，让 Claude 自己探索代码库。比来回追问省 2–3× token，结果还更好。

附录：核心数字速记

项	数值
Opus 4.7 输入	$5 / 百万 token
Opus 4.7 输出	$25 / 百万 token
Sonnet 4.6 输入/输出	$3 / $15 per M
Cache 写入（5min）	1.25× 输入价
Cache 写入（1h）	2× 输入价
Cache 命中读	0.1× 输入价（省 90%）
Max $100 配额折算	≈ Pro $20 的 5 倍
Max 套餐 Opus context	默认 1M，200k 以上无溢价
5h 窗口	从首条消息计时
1 张截图	≈ 1500–2000 token
1000 字中文	≈ 1500 token

0. 先理解：你的额度到底是什么？

0.1 LLM 是按 token 计费的

0.2 Max $100 套餐的本质

1. 最大化”请求次数”——压低单次成本

1.1 让 prompt cache 真正命中（最重要的一条）

技术原理

操作建议

1.2 选对模型档位（省 3–5×）

技术原理

操作建议

1.3 用 subagent 隔离上下文（保护主对话 cache）

技术原理

操作建议

1.4 /compact 而不是 /clear

技术原理

2. 最大化”token 量”——把 1M 上下文用满

2.1 一次喂够上下文，别来回追问

技术原理

操作建议

2.2 善用 1 小时长 cache

技术原理

操作建议

2.3 避开 token 浪费的几个坑

坑 1：让它读巨型 lock 文件 / dist / node_modules

坑 2：截图比文字贵

技术原理

坑 3：原始 git diff / 大日志直接塞

坑 4：让 Opus 来回 lint / typecheck

3. 配额监控与节奏

3.1 看准你在哪个窗口

3.2 排期策略

5h 窗口内

周窗口内

3.3 红线指标（超过说明你在亏）

4. Claude Code 必配清单

4.1 CLAUDE.md（项目根目录）

4.2 .claudeignore（项目根目录）

4.3 自定义 subagents（.claude/agents/ 目录）

4.4 Hooks（.claude/settings.json）

4.5 命令速查

5. TL;DR——三条最高 ROI 的动作

附录：核心数字速记

1.4 `/compact` 而不是 `/clear`

坑 3：原始 `git diff` / 大日志直接塞

4.3 自定义 subagents（`.claude/agents/` 目录）

4.4 Hooks（`.claude/settings.json`）