AI Agent实战导论¶

讲师介绍¶

共利培训部上海分部工作室IT组成员，丰富的智能体行业落地经验，已服务四家头部医药、医疗器械企业的智能体落地项目。

AI如何影响各行各业¶

26年3月17日，AI专家Karpathy上线了一个爆火项目，它深度复盘了AI对就业的影响程度。

他从美国劳工统计局（BLS）提取了342种职业，并为每个岗位打出AI替代风险的评分（0-10）。尤其是涉及“案头工作”的职业基本都在AI的深度影响范围之内。

这个项目被许多科技自媒体称为“AI杀死人类工作的清单”，由于舆论哗然，该项目一度被隐藏。

我们理解媒体为了博眼球与流量散播的焦虑，反过来看，大模型又创造多少新机会呢？

生活服务¶

小美是一款只要动动嘴就能点外卖的AI应用。不仅是点外卖，像找餐厅、设置日常提醒这样的生活服务，小美统统都能搞定。

广告/内容行业¶

筷子科技，利用AIGC内容服务实体行业的广告内容需求，服务超过500家，已经获得近5000万的融资。

筷子科技创始人陈万锋在播客节目深度剖析了如何让AI生成"有网感"不单调的内容？

教育行业¶

answer.ai 是一款帮助用户自学任何科目的学习app，用户上传自己的课本、资料，它借助AI整理知识点笔记、生成测验题，帮助十几万用户通过了他们的期末考试。

10人的团队，当前融资已经达到1800万美元。

医疗大健康¶

蚂蚁阿福 是蚂蚁集团旗下的AI健康助手应用，由原AQ应用于2025年12月15日升级更名而来，为用户提供健康问答、健康陪伴、健康服务等功能，帮助用户和家人管理健康。

笔者个人有腰痛，定时让阿福提醒康复练习，目前腰痛明显缓解

办公场景¶

一人公司（OPC）¶

如果你是某个行业的专家，但是缺少很多合规、税务、管理、编程的经验，智能体拥有的庞大的世界知识和工具调用能力能够快速帮助你补足短板，因此一人公司在2026年变得可能。

因为以上提到的四点：合规、税务、管理、编程，都是程序化的公式化的流程，只是对于创业者来说，启动非常艰难：需要花费大量时间在文档、条款搜集、学习、跑流程等问题上。

从传统的信息系统提供信息的展示、检索、管理，到智能体直接把事情办了，这本身也将成为这波智能体浪潮下的重要机会。

某城市智能化落地场景清单

序号	需求名称	场景描述	具体需求介绍
1	中药材全链路多模态大模型质检技术研究与应用	针对目前中药材检测依赖人工、标准不一、效率低等问题，构建多模态智能检测体系，实现自动识别、分级鉴别与成分分析，搭建数据平台与知识图谱。	打造“数据+算法+硬件”的中药智能质检系统，研发多模态检测设备与质检大模型；搭建质量大数据平台，形成数字化质量管理体系。
2	中医辨证AI辅助导医、挂号、药学服务、医药学科普	在中医诊疗时，通过九体辨证的相关症状描述，AI大数据自动判断病人体质、疾病，并给出合理治疗方案及方解，供医护参考。	开发有大数据支撑的AI辨病模型机器人，支持与病人深度互动交流，真实给出病因、病机、病位。
3	社区健康驿站	针对社区人群及慢病患者，应用AI智能脉诊环等穿戴设备，构建“居家-社区-机构”三级联动网络，提升早期筛查与风险预警能力。	1. 对接政府慢病管理系统；2. 对接中医量化分析算法或AI评估模型；3. 开发健康数据管理平台，支持群体监管与干预方案推送。
4	智能招聘升级需求	围绕公司智能调度和招聘需求，应用大数据、AI等技术打造智慧管网系统，实现运行状态监控及资源库建设。	1. 系统响应延迟≤200ms ；2. 提升人才库精准度。
5	AI教育/AI个性化课程生成	个性化学习，中小学知识库，全场景式作业辅导。	已进行相关技术研发投入，或拥有可商用产品。

如何从小白迈向AI应用开发者¶

岗位要求¶

了解AI模型运行的基本原理和技术应用知识
熟练使用AI 开发工具（Claude Code（推荐）、Codex、Coze、Kimi Code、Cursor等）
构建AI驱动的原型（能跑通的最简单的程序），将概念想法转化为实际应用
保持与AI最新的技术同步（多刷小红书、知乎、Hacker News等）
不断学习和项目实战

AI应用开发者应该掌握的技术¶

Prompt 提示词
RAG 检索增强生成
Tool Use工具调用
Agent 智能体
Fine Tuning 微调

学员摸底

请问在商业Agent产品中，在Agent偏离预期时候？最先入手调整的部分 1. Prompt 2. RAG 3. 工具调用 4. 智能体框架 5. 智能体Harness 6. 微调

心法：抽象

请牢记一个原则：把复杂的事物看作黑箱，只关注关键部分的输入输出，不关心细节。

闪卡：检验你的学习状况

将本页链接丢给claude code，告诉它请生成闪卡，不要生成答案

[week 01 course](https://vibecoding.zeabur.app/week1/course/)
阅读以上链接里面的文字，为我生成5~7个闪卡，不要答案与正确与否判断.

没有想法做应用？

寻找工作生活中最烦人、最耗费时间、最棘手的场景，思考如何写一个程序把它自动化。

案例：冰箱管理笔者每天都会自己做菜，采购原料存储在冰箱，但是鲜肉鲜菜上没有保质期标识，于是连上qclaw+GLM5v-Turbo 做了一个自动提醒保质期的Agent，手机拍小票、上传、开始管理冰箱，一步到位。

alt text

智能体（Agent）与 Claude Code¶

智能体¶

从结果上来看，大模型从聊天机器人变成了会干活的赛博牛马。

如何做到这一点？

将连续模糊的信号、转化为离散精确的信号

这里前者是自然语言Prompt、人类编写的文档等；而后者则是计算机看得懂的代码。

大模型天生就是做这层转化的高手。因为它看过太多编程案例（从产品文档到代码实现）、刷过人类这辈子都刷不完的代码题（从自然语言描述到代码）：ICPC总决赛被AI统治！GPT-5组合系统12题全对登顶，人类打破头只能争夺第三

智能体是大模型从聊天玩具走向工业化的关键。

一个类比

人类将连续模糊的事物进行离散化、精确化、结构化，从而完成的工业化。如口口相传歌谣到乐谱。
大模型的工业化，就是将模糊、连续的行业需求，落地成离散、精确的自动化流程，从而完成工业化

用好Agent的关键，就是思考哪些事物值得被离散化、精确化。不断地打磨。

Agent在企业落地的关键，如同Notion CEO Ivan Zhao所说，就是将散落各处的数据汇聚一处，让智能体将连续的模糊的数据，统一转化为离散的结构化的精确的数据

过往项目介绍

痛点某光伏维护公司管理着30-40个散落于城市各地的光伏站，数据监控相互分离，管理维护人员不足，一个个监控耗费人力物力、错失问题抢修时机。

方案利用Claude Code识别API的模式，统一数据获取接口。接入定时运维智能体统一编排、监测、报警、调度维护人员时间资源。

Claude Code 年轻人手里的第一个智能体¶

2023年的早春，人工智能公司Anthropic的工程师Boris为自家的模型Claude 3.5 Sonnet装上了3个工具，于是创造了 Claude Code。这个小小的寄宿在终端里的“玩具”，最初旨在帮助软件开发者进行自动化开发，随着用户增长，玩法日渐多样，用户开始用它处理数据、管理账务、制作新闻简报... 因为Claude Code，Claude完成了从一个聊天伙伴到赛博牛马蜕变，一夜之间，几乎所有的大模型公司开始针对多步骤的计划与工具调用进行优化（也就是所谓的“干活”）。

Claude Code 是被"Code"这个名字耽误的顶级赛博牛马。同样的功能，接入了飞书，Openclaw便火遍了大江南北。事实上，两者除了界面不同，功能上并没有本质上的区别。

一切看上去充满了偶然，但又无不充满了必然。

计算机上的所有软件都可以通过终端执行，计算机里的所有操作无非就是读、写、执行三种。Claude Code就寄宿在电脑的文件系统中，拥有操作所有文件的权限。

一切文书工作都能用代码自动化？

是的！如果你想要用Excel建模、记账，pandas是你的好朋友，当然也有excel skill；如果你要做PPT、Word，pptx 和 docx skill会帮你搞定

十年前火遍全网、动辄收费5999的Python办公自动化课程的精华，顷刻被大语言模型炼化为几次浮点数运算。区别是你不再需要学习python几百页的文档并经过4-5个月的编程训练，只要几句话，其余的Claude Code帮你搞定。

而Claude Code做的，无非就是个它背后的模型，提供一个调用工具与执行代码的环境。至于如何调用工具、如何调用代码，由用户说了算，大模型负责将用户的意图转化为工具指令以及代码。

2026年3月31日泄露的Claude Code 2.1.89版本源码显示，Claude Code核心工具定义仅有3个（见src/tools.ts）

事实上，经过50年的发展，软件工程师早就给大语言模型搭好了最完美的舞台。通过BashTool，claude code可以自由地运行你电脑上的所有程序通过FileReadTool，它将以最节省Token的方式阅读你电脑上的所有文件；通过FileEditTool，电脑上任何文件它都可以编辑。

输出风格

这是claude code隐藏功能，如果你觉得claude code只埋头做事，缺乏一些小白友好度，尝试一下如下操作：在你的 .claude/settings.local.json 里修改

{
    "outputStyle": "Explanatory"
}

当然了，你也可以让claude code帮你改

参考：https://code.claude.com/docs/en/output-styles

Agent Skill 技能¶

其实在上一个小节也提到了 skill？那么什么是skill呢？其实就是 prompt+工具+文件

你可以认为大语言模型出厂时候是一个大四刚毕业未被社会毒打的应届生，空有一身本领，对社会、对行业的领域知识和游戏规则知之甚少。

你要做的，就是像工作了3年的熟练工一样，你要做的是带它入门你的行业、你的社交网络、你掌握的技能。

比如，你需要给客户提供一份Excel表格用作月底结算，然而Claude Code自己试了半天，报了10个错，啥也没做成。这时候你就需要给它加载一个xlsx skill ，它立马像上了三年班一样，熟练地、几乎没有错误地帮你生成了你想要的结算表格。

一个幕后秘密

实际上这份讲义的所有动图都是这个skill做的

那Skill本身是什么？其实就是一段prompt。这段prompt包含了你需要Agent做的事情、调用的代码（你当然可以预制一份代码放在skill文件夹里）

一个典型的skill的文件夹一般长这样：

skill-name/
├── SKILL.md (必须，这是Skill的入口文件)
│   ├── YAML frontmatter (name, description 必须)
│   └── Markdown 指令或规则
└── 资源 (可选)
    ├── scripts/    - 可执行的代码脚本，用于重复简单的任务
    ├── references/ - Agent按需加载的文档目录
    └── assets/     - 输出文件的目录（输出的Excel、图片等）

示例1 "用skill-creator创造你的第一个skill"

安装 skill-creator：在终端中执行以下命令，将 skill-creator 安装到你的 Claude Code 环境：
```
npx skills add https://github.com/anthropics/skills --skill skill-creator
```

告诉claude code你想要做什么

/skill-creator
创建skill，取名叫做"garbage-analyzer"，skill会自动分析我的家文件夹下的不重要的文件及其大小，为我提供一份完整的文件垃圾清理分析报告。
注意：Skill只能读文件及其有关信息

跟随claude code 的引导回答问题，

打包完毕后触发skill
```
/garbage-analyzer
```
找不到skill?

请检查skill是否以文件夹形式放在 .claude/skills/ 下并且garbage-analyzer目录下存在SKILL.md 文件

Demo时间：视频自动剪辑智能体¶

认识 Agent 的能力

痛点：笔者由于长期久坐、伏案编码，导致腰肌劳损，需要康复训练，而市面上的康复培训课程昂贵。遂寻找b站康复视频。然而康复视频冗长、动作较多，且前半段都是在讲原理，跟练麻烦。

需求：能够完成下载视频、生成字幕、自动切分视频的自动化工具。

将需求告诉claude code，让它帮你规划技术栈组合，实现几个Skills： - b站视频下载 - 一键本地转字幕 - 自动剪辑

思考应用的泛化性

这一组Skill其实不只是能够剪辑康复训练视频，任何，比如健身跟练、网课知识点等场景都可以做到自动切分。

拆解：AI如何做好自动剪辑¶

那么Agent如何做到让用户讲几句话，就可以跑完这一套自动化流水线呢？

核心是 将连续的模糊的需求转化为离散的精确的代码的能力

Claude Code为了实现剪辑调用一个叫做ffmpeg的命令行工具，你可能没听过这个工具，但你一定听过达芬奇、Adobe Premier Pro（PR）、剪映，这些行业标准级别的工具底层无不使用了 ffmpeg，ffmpeg是影视行业事实上的底层标准软件。

用户如果直接使用ffmpeg将会面临几十种不同参数的组合，这对心智记忆有限的用户来说是灾难。而大语言模型天生可以容忍这种繁杂，他会按照用户的需求填上繁琐的参数、甚至编写脚本帮助填写参数，将用户的模糊连续的自然语言指令拆解成精确离散的代码以控制计算机完成剪辑。

中场休息

讲到这里，不知大家疲惫与否。休息5分钟，打开麦克风互动一下吧。

AI开发者必须要掌握的技术原理¶

大模型生成一个字的过程发生了什么？¶

一言以蔽之，根据已有的输入，生成输出。

输入（文本）：对于大语言模型来说，它接收的输入是一段文本（包括自然语言和代码）。在进入模型前，这些字符会通过分词器（Tokenizer）被拆解为一串词元（Token）。词元的划分通常基于高频的字符组合。从数量级上看，英文中1个Token大约对应0.75个单词

思考时间！询问豆包前请思考五分钟

有说法用中文编程相比英文编程更省Token，花销更少？这种说法保真吗？如果用文言文呢？

中间态（语义映射）：这串词元（Token）通过模型内部的神经网络算法，被转化为高维空间中的一串向量。向量代表了该词元在多维坐标系中的位置，这个位置即表征了它的语义。在空间中，向量距离越近，代表其语义关联度越高。

思考时间！询问豆包前请思考五分钟

为什么有些大模型可以读图片、视频、录音？就像Qwen 3.6 Omni 那样。

输出（预测）：基于当前的语义向量上下文，模型会计算词表中所有Token的概率分布，并预测生成下一个概率最高的词元（Token）。

next token prediction — 在单词表中计算概率并预测下一个单词

如果你希望深入大语言模型的底层原理

这节课为了方便读者理解，隐藏了诸多细节，仅描绘了一个骨架，但如果你真的希望深入理解大语言模型的原理，这里推荐数学博主3Blue 1Brown的视频：

深度学习系列可以让你抵达计算机大四学生的深度学习水平，与本节课高度相关的部分是这两集：深入理解注意力机制 GPT是什么？直观解释Transformer

一次多轮对话发生了什么？¶

理解了单次生成的过程，单轮对话本质上就是将上述过程重复进行，直到触发终止条件（这表现为模型预测并输出了一个特殊的停止符号 <EOS>，代表当前回复的逻辑已闭环或文本已生成完毕）。

那么和模型多轮对话时发生了什么呢？大模型本身不具备持久化记忆。每次交互时，系统会在后台将之前几轮的历史对话记录与你的最新提示词拼接在一起，组合成一段完整的新文本作为输入。模型始终是基于这段全局上下文来预测接下来的内容，直到输出停止符号。

decoding — 一次对话的Decoding过程，就是预测下一个词，不断重复，直到EOS

Prompt 与 Prompt Cache 缓存机制：¶

Prompt（提示词）¶

**即你输入给模型的指令和上下文。随着对话轮数增加，拼接的历史Prompt会越来越长。

示例：提示词差异。以下示例展示了在claude code中用GLM5.1 模型生成一个个人简介网页的示例。

提供简单模糊的提示词，模型大概率会偷懒，给你个经典的“紫色渐变”主题

PROMPT: 
帮我写一个个人简介网站的代码，要好看一点，包含我的个人信息、作品集和联系方式。

simple prompt — 简单prompt只能生成千篇一律的“紫色渐变"皮肤”

所以为什么是紫色渐变？

分析prompt我们可以注意到，所谓“好看”的标准，各个人都有自己的理解，更何况是大语言模型呢？你可以认为紫色渐变是大模型的默认审美，请你尊重他的审美。并把自己的审美和需求用详细的语言描绘给它（定义颜色的时候甚至可以精确到RGB色号）

如果你提供一个详细描述仔细定义的提示词：

PROMPT: 
Task: 请在当前目录下创建一个完整的个人简介网站项目。
Technical Stack:
使用 React + Tailwind CSS。
使用 Lucide-react 作为图标库。
使用 Framer Motion 处理入场动画。
Structure & Content:

Hero Section: 包含一个吸引人的标题（例如：“构建未来的全栈开发者”）、简短的自我介绍和一张占位图。
Skills: 用磁贴（Tiles）形式展示技术栈：Next.js, TypeScript, GLM-4/5 API, Python, Tailwind。
Projects: 展示 3 个项目卡片，每个卡片包含：项目名称、描述、技术标签、以及一个指向 GitHub 的链接图标。
Contact: 一个简洁的联系表单，以及社交媒体链接（GitHub, Twitter, Email）。
Navigation: 粘性顶部导航栏，支持平滑滚动到对应区域。
Design Requirements:

风格: 极简主义、深色模式（Dark Mode）为主，主色调使用电光蓝（#0070f3）。
响应式: 必须完美适配手机、平板和桌面端。
交互: 所有按钮和卡片需有悬停位移效果；页面滚动时组件要有淡入动画。
Output:
请直接生成所有必要的文件（App.js, components, styles 等），并确保代码结构清晰，注释完整。

complex prompt demo — 如果你将一切都清晰地定义清楚，LLM将给你一个可以直接交付的成品

左脚踩右脚上天

如果你不懂那些技术名词，没关系！让Claude Code不要先生成代码，而是先给你一个落地可用的技术方案（ Shift+Tab 按两次进入计划模式）

Prompt Cache（缓存机制）¶

模型在处理长文本时，不必每次都从头重新理解前文。它会把前面每个 token 形成的向量表示先保存起来，后续生成新词时，只需要计算新输入对应的向量，并直接复用之前存好的那些向量结果，从而减少重复计算，提升生成速度。

如何利用Prompt缓存让模型输出变得更快

核心思路是：让“前缀内容”尽可能稳定且可复用。当模型再次遇到相同的前文时，就能直接复用已经算过的中间结果，而不必重复处理整段上下文，从而显著减少首 token 延迟和整体推理耗时。

一个简单的例子：你是一个法律专家： + 中华人民共和国劳动法规定的五险一金是哪些？ 下次一次询问的时候，保留 你是一个法律专家 ，会让你输出加速近一倍。 成本优惠：除输出速度变快之外，大部分的模型供应商为Prompt缓存命中的内容提供10-100倍的折扣，所以为了节省token成本，请尽量保留合适长度的前缀吧！

模型参数量¶

模型参数量决定了模型处理和拟合复杂数据的容量边界。通常情况下，参数量越大，模型展现出的泛化与推理性能越强。这种规模与性能的正相关关系详见 Scaling Law（缩放定律）。

1B, 7B, 9B：（B = Billion, 十亿）轻量级参数模型，推理成本低，适合在手机端侧或普通消费级显卡上本地运行。

Gemma 4 E2B 可以被部署在手机上

- 600B, 1T：（T = Trillion, 万亿）超大规模参数，通常由多家巨头采用的混合专家架构（MoE）或稠密模型使用，需部署在庞大的云端算力集群上，用于处理极度复杂的逻辑推理任务。

NVL72 每座机柜单价可达 300 万美元，可以部署4-5个参数量为1T大语言模型

工具调用原理（Tool Use）¶

大模型本身是一个封闭的文本生成引擎，无法直接联网或执行系统命令。工具调用的核心本质是约定的结构化文本交换：

定义：系统在初始Prompt中，以文本形式告诉模型当前有哪些工具可用，以及这些工具需要什么格式的参数（通常为 JSON 格式）。
触发：当模型判定仅靠内部知识无法回答问题（例如查询“今天的上海天气”）时，它会暂停生成常规自然语言，转而输出一段符合预设格式的 JSON 指令，请求调用【天气API】，并传入参数 {"location": "Shanghai"}。
执行与回传：外部的工程系统拦截到这段 JSON，代替模型执行真实的 API 请求。随后，系统将 API 返回的数据（如“25度，晴”）作为新的上下文输入给模型。
总结：模型接收到外部数据后，再次进行文本生成，最终输出自然语言回答：“北京今天天气晴朗，气温25度”。

大模型进行一次工具调用的过程

上下文窗口（Context Window）¶

上下文窗口是模型在单次推理中能够"看到"的最大 Token 数量上限。你可以把它想象成模型的"工作记忆"或"短期记忆容量"——窗口之内的内容，模型全部可见；窗口之外的内容，模型一无所知，如同从未发生。

这个数字同时涵盖了输入（Prompt） 和输出（Completion）：

Context Window = Input Tokens + Output Tokens

上下文窗口的大小意味着什么？

窗口大小	大致等价物	典型用途
8K tokens	约 6,000 字	短篇问答、单轮翻译
128K tokens	约一本中篇小说	长文档摘要、多轮长对话
1M tokens	约十部长篇小说	整个代码仓库、超长研究报告分析

主流模型的上下文窗口（2026 年 4 月参考）

模型	上下文窗口
Claude Sonnet 4.6	200K tokens
GPT-5.4	128K tokens
Gemini 2.5 Pro	1M tokens
GLM-5.1	128K tokens
DeepSeek V3.2	64K tokens

窗口"装满"了会怎样？

当对话历史、系统提示、文件内容等的 Token 总量逼近上下文窗口上限时，系统通常有两种处理方式：

截断（Truncation）：直接丢弃最早的对话轮次。模型会"忘记"对话开头发生的事，可能导致回答前后矛盾。
报错拒绝：直接返回错误，提示超出长度限制。

这也解释了为什么在 Claude Code 的长时间工作会话里，模型有时会"忘记"你几十步之前说过的需求——那部分内容已经滚出了窗口。

在 Claude Code 中管理上下文

按两下 Esc 或输入 /rewind，可以将上下文回滚到某一个检查点，清理掉无效的错误尝试，释放窗口空间。
输入 /compact，Claude Code 会自动将当前上下文压缩为一段摘要，用最少的 Token 保留最关键的信息，让你的窗口"续命"。
将稳定不变的背景信息（如项目说明、技术栈规范）写入 CLAUDE.md，配合 Prompt Cache，这部分内容既不占用窗口的"新鲜空间"，又能以极低的价格反复复用。

思考时间！询问豆包前请思考五分钟

上下文窗口越大越好吗？如果一个模型拥有无限大的上下文窗口，还会有问题吗？（提示：想想推理成本、注意力稀释、"大海捞针"问题）

LLM的计价方式¶

按 Token 计费¶

大语言模型的 API 调用几乎无一例外地采用 按 Token 计费 的方式，且通常将输入（Input）和输出（Output）Token 分开计价——因为生成内容比理解内容对算力的消耗更大，所以 Output Token 通常贵 3～10 倍。

计价单位通常为每百万 Token（per 1M tokens），写作 /1M tokens 或 $/MTok。

**主流模型价格对比（2026 年 4 月参考） **

模型	输入（Cache Miss）	输入（Cache Hit）	输出
Claude Sonnet 4.6	$3.00 / 1M	$0.30 / 1M	$15.00 / 1M
GPT-5.4	$2.50 / 1M	$0.25 / 1M	$15.00 / 1M
GLM-5.1	$1.40 / 1M	free / 1M	$4.40 / 1M
DeepSeek V3.2	$0.28 / 1M	$0.028 / 1M	$0.42 / 1M
Minimax M2.7	$0.3 / 1M	$0.06 / 1M	$1.20 / 1M

数据来源：llmpricing.dev，价格随市场因素持续调整，请以各官方平台实时报价为准。

订阅套餐 vs. API 按量计费¶

除了 API 按 Token 付费外，面向个人用户还有订阅制。两者的区别在于：

	订阅制	API 按量计费
适合谁	个人日常对话、开发使用	开发者、自动化批处理
计费方式	包月固定费用	精确按 Token 计量
上限	有频率/消息数限制	按预算弹性扩展
推荐场景	Vibe Coding	开发 Agent App 作为后端模型

主流订阅套餐速览（2026 年 4 月）：

套餐	月费	主要权益
ChatGPT Plus	$20/月	无限 GPT-5.4 消息，含 GPT-5.4 Thinking 限额，支持图像生成
ChatGPT Pro	$200/月	无限 GPT-5.4 及 GPT-5.4 Thinking，面向重度用户
Claude Pro	$20/月	Claude Sonnet 4.6 标准用量，含 Claude Code 基础访问
Claude Max 5x	$100/月	Pro 用量的 5 倍，可使用 Claude Opus 4.6
Claude Max 20x	$200/月	Pro 用量的 20 倍，可使用 Claude Opus 4.6，适合重度 Agent 使用
GLM Coding Plan	$3/月	面向编程场景，GLM-5.1 每日约 4000 万 Token 额度
GLM Token Plan	$10/月	通用场景，GLM-5.1 更高 Token 额度

订阅制 or API？怎么选

偶尔使用：订阅 $20 的 Plus / Pro 套餐最划算，费用可预期
Claude Code 重度用户：如果每月 Claude Code 的 API 花销超过 $100，Max 套餐更合算
批量自动化任务：走 API + Batch 模式，可享受 50% 折扣，且完全按用量计费，不浪费
国内开发者：GLM Coding Plan 的 $3/月门槛极低，适合预算有限的学生和独立开发者入门

节省你的Token¶

理解了计价方式，接下来聊聊怎么在不损失效果的前提下，把花销压到最低。

选对模型，

最直接的省钱方式：任务复杂度匹配模型量级。

任务类型	推荐模型量级	理由
日常问答、格式转换、办公自动化	轻量模型（Minimax M2.7 ）	旗舰模型做这些是资源浪费
代码生成、软件实现	旗舰编码模型（ GLM-5.1 ）	复杂任务需要更强的推理能力
需要深度思考的架构设计、难题攻关	旗舰思考模型（Claude Opus）	贵但值得，省下来的返工成本更高

在 Claude Code 中切换模型

Claude Code 中通过 /model 切换模型，或在设置中修改默认模型。对于简单的文件整理、格式化任务，换成更便宜的模型可以节省 80% 以上的花销。

claude code通过这些环境变量来选择不同的模型，其中haiku对应低成本高速模型、sonnet对应成本效果均衡的模型、opus对应慢速高成本强效果的模型。

{
  "env": {
    "ANTHROPIC_DEFAULT_HAIKU_MODEL": "glm-4.5-air",
    "ANTHROPIC_DEFAULT_SONNET_MODEL": "glm-5-turbo",
    "ANTHROPIC_DEFAULT_OPUS_MODEL": "glm-5.1"
  }
}

锁定前缀，命中 Prompt Cache

回顾前文「Prompt Cache」章节：只要上下文前缀相同，模型就能复用之前的计算结果，Cache Hit 的价格通常只有原价的 1/10。

最佳实践：把稳定的内容放前面，把变化的内容放后面。

在 claude code 按两下Esc 或者打 /rewind 来复用你之前的对话，清除无用的内容。

杂谈：中转站¶

对比 订阅制 和 按量收费 ，可以看到其中有巨大的成本差距，一个普通的开发者利用Claude模型在每个月消耗10亿Token，价格仅仅是每个月约合1500元人民币。

如此，一些商家就看中了商机，希望通过订阅制的低成本，做中间商赚取利润------他们利用github开源的api转换软件，将订阅制的Token经过转换，当做按量付费的Token贩卖。

现实是，很多这些中转的Token经常供不应求，这些商家只好拿国产模型的订阅套餐的Token（同样通过转换），掺入用户的回复，降低成本。

某Token中转站的架构图

不建议尝试

截止26年4月，近1个月来，Anthropic 和 OpenAI 正在大力打击将订阅制Token转出当使用的，3月18日当天就有近百家中转站宣布不再提供Claude模型的中转服务或将Token价格提升到与Anthropic官方按量收费同等的水平。

对于中转站产业的详细介绍，请看中转站如何日入过万

结论¶

本节课学习了大语言模型（LLM）的基本原理、Skill的创建、LLM计价标准。无论是继续学习Vibe Coding还是深入LLM原理，相信读者都具备一定的基础和心智模型。

作业一：计价Skill¶

利用skill-creator 和给定的LLM计价查询网站（除了课件给出的网站，你当然可以找别的来源）定制一个符合你个人习惯的计价Skill。

详细文档：作业一：计价Skill