跳转至

第一课:认识大语言模型(LLM)深度解析

课时: 60 分钟 核心目标: 从底层原理(Attention)到商业成本(Token),再到工程实践(Agent),构建对大模型的系统认知。


一、 LLM 的心脏:词元(Token)与注意力机制 (25分钟)

1.1 词元(Token):AI 的最小颗粒度

LLM 并不认识汉字或单词,它处理的是词元(Token)

  • 概念: 文本进入模型前,会被切碎成颗粒。英文通常是按词根/后缀切,中文则是按高频词组或单字切。
  • 【思考题 1】: 为什么在处理同样的逻辑时,日文或中文的 API 账单往往比英文贵?尝试询问 AI:“请对比‘人工智能’和‘Artificial Intelligence’在 Tiktoken 下的词元数量,并解释这如何导致了跨语言的‘智能成本不平等’?”

1.2 注意力机制(Attention):它是如何“理解”的?

不要把注意力机制想象成聚光灯,而应想象成一张动态的“关联权重网”

理解生成的过程(步进式解析):

  1. 向量化 (Embedding): 每个词元进入模型时,会被转化成一串成百上千维度的数字。这就像给每个词办了一张“多维度身份证”。
  2. 全员扫描 (All-to-All): 当模型读到“苹果”这个词时,它会同时扫描上下文中的所有其他词元。
  3. 计算关联度 (Scoring):
  4. 如果上下文出现了“手机、发布会”,模型会给“苹果”与“科技”的关联打高分。
  5. 如果上下文出现了“红富士、多汁”,模型会给“苹果”与“水果”的关联打高分。
  6. 动态加权 (Weighting): 最终,这个词的意思是由它周围词元的“评分”共同决定的。

  7. 【思考题 2】: 既然模型是同时扫描全员的,为什么长文本(如 100k Token)的中间部分容易被忽略?尝试询问 AI:“在 Attention 计算中,Query、Key 和 Value 的点积计算是如何随距离增加而导致‘信息稀释’的?这是否就是‘迷失中段(Lost in the Middle)’的数学本质?”


二、 演进之路:从文本补全到 Coding Agent (15分钟)

2.1 工具调用 (Tool Use)

模型不再只靠“猜下一个词”,而是学会了“按按钮”。当模型发现自己算不准数学或不知道今天天气时,它会输出一段特定的代码(如 get_weather(city="Beijing")),由外部系统执行并回传结果。

2.2 Agent(智能体)的逻辑闭环

Agent = LLM(大脑)+ 规划(Planning)+ 记忆(Memory)+ 工具(Tool Use)

  • 对于 Coding Agent,它不仅是写代码,而是:观察报错 -> 分析原因 -> 修改代码 -> 运行测试 -> 循环直到通过。
  • 【思考题 3】: 为什么一个简单的逻辑错误可能会让 Coding Agent 陷入“无限套娃”?尝试询问 AI:“当 Agent 的观察(Observation)与预期(Thought)产生持续偏差时,如何从 Prompt 工程角度设置‘逻辑熔断机制’,以防止其陷入消耗词元的无效循环?”

三、 算账的艺术:LLM 计价与成本优化 (10分钟)

3.1 计费的三重逻辑

  1. 词元(Token)按量计费:
  2. 输入(Input): 包含你的 Prompt 和之前的对话历史。
  3. 输出(Output): 模型生成的每一粒词元都要收费,通常比输入贵。
  4. 缓存命中(Cache Hit): 如果你连续问关于同一个 1 万字文档的问题,后续提问时,文档部分如果命中了缓存,价格通常会大幅度打折。
  5. 订阅制(Coding Plan): 如 Cursor/Copilot,通过月费覆盖高频的 Token 消耗,适合高强度的开发场景。

3.2 计价打表工具

  • 介绍如何计算一个任务的 ROI。例如:重构一个模块需要 50 轮对话,每轮 2000 Token,成本约等于 $0.X。

四、 案例演示与实战 (10分钟)

4.1 案例:slack-gif-creator

这个案例展示了 Agent 如何将“文字理解”转化为“视觉呈现”。

  • 原理逻辑: 用户输入概念 -> LLM 理解本质 -> 生成搜索关键词 -> 调用 Giphy API -> 发送至 Slack。

[视觉化演示生成标记] 如果你要使用 slack-gif-creator 生成一个解释“Attention 机制”的 GIF,请给 Agent 输入以下指令: “请为我生成一个展示‘词语之间通过连线建立关联权重’的原理图 GIF,核心关键词是:Transformer Attention Mechanism, Weight Connections, Neural Network Visualization.”

4.2 课堂小作业:Skill-creator

任务: 制作一个“计费专家 Agent”。

  • 输入: 不同模型的单价(如 GPT-4o, Claude-3.5, DeepSeek)。
  • 逻辑: 用户输入预估的 Prompt 长度和对话轮数。
  • 输出: Agent 自动计算出最省钱的模型选型建议方案。

备课参考资料

  • 可视化工具:BertViz (展示 Attention 权重连线)
  • 定价参考:各大模型官网 Pricing 页面对照表