跳转至

原始材料采集速查

这份材料是给第一次做 wiki 作业的同学准备的。

先记住一句话:
这次作业考的是资料整理能力,不是考你写爬虫。

1. 先决定“这个 wiki 是给谁用的”

在开始收材料之前,先回答两个问题:

  • 你准备整理什么主题
  • 这个 wiki 主要服务谁

例如:

  • 给刚入职的销售整理公司产品与客户常见问题
  • 给运营同事整理流程、模板和常见报错
  • 给未来容易忘记细节的自己整理一门技能或一套业务知识

只有先明确服务对象,后面的页面结构才不会乱。

2. 哪些材料可以直接收

以下材料都可以作为 raw/ 原始材料:

  • 官网页面、帮助中心、产品说明页
  • PDF、Word、Excel、会议纪要
  • 自己的学习笔记、制度文件、操作手册
  • 截图转写稿、FAQ 整理稿、聊天记录摘录

不要求所有材料格式一致,也不要求一次收很多。

3. 最低可行的采集方法

如果你完全不知道怎么开始,按下面做就够了:

  1. 先新建 raw/ 目录
  2. 放进去 6-15 份你之后真的会反复用到的材料
  3. 网页可以手动复制为 Markdown 或纯文本
  4. 截图里的文字可以自己整理成一份笔记
  5. PDF、说明文档、FAQ 可以直接原样放进 raw/

能收齐第一批材料,比一开始追求“自动化采集”更重要。

4. 文件怎么命名

建议文件名一眼能看出来源和主题,例如:

  • 官网-产品介绍-2026-04.md
  • 帮助中心-退款规则.md
  • 客户FAQ-销售整理稿.md
  • 竞品对比-2026Q2.pdf

命名的目标不是好看,而是后面能回溯。

5. 数据采集工具推荐

如果你的材料不是纯 Markdown,而是网页、Word、PPT、Excel 或截图,可以先用这些最省事的方式:

办公文档

如果你需要从 docxpptxxlsx 里提取原始材料,可以先回看第 1 周课程里提到的相关工具说明:

这一部分已经提到:

  • xlsx 适合处理 Excel
  • pptx 适合处理 PPT
  • docx 适合处理 Word

你不需要一开始就做复杂自动化,先把文档内容稳定导出、整理进 raw/ 就够了。

网页内容

如果你的原始材料主要来自网页,推荐先把内容转成 Markdown,再收进 raw/

比较低门槛的组合是:

这样做的好处是:

  • 人类更容易复查
  • 文件更容易归档
  • 对 Agent 来说,通常比直接处理整页 HTML 更干净

截图与扫描件

如果资料在截图里,也完全可以先手工整理成 Markdown 或纯文本。

这次作业不考 OCR 工具选型,重点仍然是你能不能把材料整理成可回溯的知识结构。

6. 什么叫“可回溯”

你的 wiki/ 页面里写出的结论,应该能回到原始材料。

例如某个页面写了“客户最常问 3 个问题”,你要能说清这些信息分别来自:

  • 哪个官网页面
  • 哪份 FAQ
  • 哪个截图整理稿

如果只有模型生成的总结,没有原始材料对应关系,就不算真正完成这次作业。

7. 脱敏提醒

如果你使用真实工作资料,提交前请先处理敏感信息:

  • 客户姓名、手机号、邮箱
  • 账号、密码、验证码
  • 合同编号、报价明细、身份证信息
  • 任何不适合课堂公开传播的内部数据

必要时可以只保留结构与字段,不保留真实值。

8. 常见错误

这些做法容易让作业失去意义:

  • 只放 1 份超长 PDF,其余什么都没有
  • 只保留 AI 总结,不保留原始材料
  • 文件名全是 1.md2.mdfinal-final.md
  • 材料很多,但和服务对象没有关系

9. 继续往下做什么

收完第一批材料后,下一步建议看: