第一课：认识大语言模型（LLM）深度解析¶

课时： 60 分钟 核心目标： 从底层原理（Attention）到商业成本（Token），再到工程实践（Agent），构建对大模型的系统认知。

一、 LLM 的心脏：词元（Token）与注意力机制 (25分钟)¶

1.1 词元（Token）：AI 的最小颗粒度¶

LLM 并不认识汉字或单词，它处理的是词元（Token）。

概念： 文本进入模型前，会被切碎成颗粒。英文通常是按词根/后缀切，中文则是按高频词组或单字切。
【思考题 1】： 为什么在处理同样的逻辑时，日文或中文的 API 账单往往比英文贵？尝试询问 AI：“请对比‘人工智能’和‘Artificial Intelligence’在 Tiktoken 下的词元数量，并解释这如何导致了跨语言的‘智能成本不平等’？”

1.2 注意力机制（Attention）：它是如何“理解”的？¶

不要把注意力机制想象成聚光灯，而应想象成一张动态的“关联权重网”。

理解生成的过程（步进式解析）：

向量化 (Embedding)： 每个词元进入模型时，会被转化成一串成百上千维度的数字。这就像给每个词办了一张“多维度身份证”。
全员扫描 (All-to-All)： 当模型读到“苹果”这个词时，它会同时扫描上下文中的所有其他词元。
计算关联度 (Scoring)：
如果上下文出现了“手机、发布会”，模型会给“苹果”与“科技”的关联打高分。
如果上下文出现了“红富士、多汁”，模型会给“苹果”与“水果”的关联打高分。
动态加权 (Weighting)： 最终，这个词的意思是由它周围词元的“评分”共同决定的。
【思考题 2】： 既然模型是同时扫描全员的，为什么长文本（如 100k Token）的中间部分容易被忽略？尝试询问 AI：“在 Attention 计算中，Query、Key 和 Value 的点积计算是如何随距离增加而导致‘信息稀释’的？这是否就是‘迷失中段（Lost in the Middle）’的数学本质？”

二、演进之路：从文本补全到 Coding Agent (15分钟)¶

2.1 工具调用 (Tool Use)¶

模型不再只靠“猜下一个词”，而是学会了“按按钮”。当模型发现自己算不准数学或不知道今天天气时，它会输出一段特定的代码（如 get_weather(city="Beijing")），由外部系统执行并回传结果。

2.2 Agent（智能体）的逻辑闭环¶

Agent = LLM（大脑）+ 规划（Planning）+ 记忆（Memory）+ 工具（Tool Use）。

对于 Coding Agent，它不仅是写代码，而是：观察报错 -> 分析原因 -> 修改代码 -> 运行测试 -> 循环直到通过。
【思考题 3】： 为什么一个简单的逻辑错误可能会让 Coding Agent 陷入“无限套娃”？尝试询问 AI：“当 Agent 的观察（Observation）与预期（Thought）产生持续偏差时，如何从 Prompt 工程角度设置‘逻辑熔断机制’，以防止其陷入消耗词元的无效循环？”

三、算账的艺术：LLM 计价与成本优化 (10分钟)¶

3.1 计费的三重逻辑¶

词元（Token）按量计费：
输入（Input）： 包含你的 Prompt 和之前的对话历史。
输出（Output）： 模型生成的每一粒词元都要收费，通常比输入贵。
缓存命中（Cache Hit）： 如果你连续问关于同一个 1 万字文档的问题，后续提问时，文档部分如果命中了缓存，价格通常会大幅度打折。
订阅制（Coding Plan）： 如 Cursor/Copilot，通过月费覆盖高频的 Token 消耗，适合高强度的开发场景。

3.2 计价打表工具¶

介绍如何计算一个任务的 ROI。例如：重构一个模块需要 50 轮对话，每轮 2000 Token，成本约等于 $0.X。

四、案例演示与实战 (10分钟)¶

4.1 案例：slack-gif-creator¶

这个案例展示了 Agent 如何将“文字理解”转化为“视觉呈现”。

原理逻辑： 用户输入概念 -> LLM 理解本质 -> 生成搜索关键词 -> 调用 Giphy API -> 发送至 Slack。

[视觉化演示生成标记] 如果你要使用 slack-gif-creator 生成一个解释“Attention 机制”的 GIF，请给 Agent 输入以下指令： “请为我生成一个展示‘词语之间通过连线建立关联权重’的原理图 GIF，核心关键词是：Transformer Attention Mechanism, Weight Connections, Neural Network Visualization.”

4.2 课堂小作业：Skill-creator¶

任务： 制作一个“计费专家 Agent”。

输入： 不同模型的单价（如 GPT-4o, Claude-3.5, DeepSeek）。
逻辑： 用户输入预估的 Prompt 长度和对话轮数。
输出： Agent 自动计算出最省钱的模型选型建议方案。

备课参考资料¶

可视化工具：BertViz (展示 Attention 权重连线)
定价参考：各大模型官网 Pricing 页面对照表