原始材料采集速查¶

这份材料是给第一次做 wiki 作业的同学准备的。

先记住一句话：
这次作业考的是资料整理能力，不是考你写爬虫。

1. 先决定“这个 wiki 是给谁用的”¶

在开始收材料之前，先回答两个问题：

你准备整理什么主题
这个 wiki 主要服务谁

例如：

给刚入职的销售整理公司产品与客户常见问题
给运营同事整理流程、模板和常见报错
给未来容易忘记细节的自己整理一门技能或一套业务知识

只有先明确服务对象，后面的页面结构才不会乱。

2. 哪些材料可以直接收¶

以下材料都可以作为 raw/ 原始材料：

官网页面、帮助中心、产品说明页
PDF、Word、Excel、会议纪要
自己的学习笔记、制度文件、操作手册
截图转写稿、FAQ 整理稿、聊天记录摘录

不要求所有材料格式一致，也不要求一次收很多。

3. 最低可行的采集方法¶

如果你完全不知道怎么开始，按下面做就够了：

先新建 raw/ 目录
放进去 6-15 份你之后真的会反复用到的材料
网页可以手动复制为 Markdown 或纯文本
截图里的文字可以自己整理成一份笔记
PDF、说明文档、FAQ 可以直接原样放进 raw/

能收齐第一批材料，比一开始追求“自动化采集”更重要。

4. 文件怎么命名¶

建议文件名一眼能看出来源和主题，例如：

官网-产品介绍-2026-04.md
帮助中心-退款规则.md
客户FAQ-销售整理稿.md
竞品对比-2026Q2.pdf

命名的目标不是好看，而是后面能回溯。

5. 数据采集工具推荐¶

如果你的材料不是纯 Markdown，而是网页、Word、PPT、Excel 或截图，可以先用这些最省事的方式：

办公文档¶

如果你需要从 docx、pptx、xlsx 里提取原始材料，可以先回看第 1 周课程里提到的相关工具说明：

第 1 周课程：Claude Code 与办公文档处理

这一部分已经提到：

xlsx 适合处理 Excel
pptx 适合处理 PPT
docx 适合处理 Word

你不需要一开始就做复杂自动化，先把文档内容稳定导出、整理进 raw/ 就够了。

网页内容¶

如果你的原始材料主要来自网页，推荐先把内容转成 Markdown，再收进 raw/。

比较低门槛的组合是：

这样做的好处是：

人类更容易复查
文件更容易归档
对 Agent 来说，通常比直接处理整页 HTML 更干净

截图与扫描件¶

如果资料在截图里，也完全可以先手工整理成 Markdown 或纯文本。

这次作业不考 OCR 工具选型，重点仍然是你能不能把材料整理成可回溯的知识结构。

6. 什么叫“可回溯”¶

你的 wiki/ 页面里写出的结论，应该能回到原始材料。

例如某个页面写了“客户最常问 3 个问题”，你要能说清这些信息分别来自：

哪个官网页面
哪份 FAQ
哪个截图整理稿

如果只有模型生成的总结，没有原始材料对应关系，就不算真正完成这次作业。

7. 脱敏提醒¶

如果你使用真实工作资料，提交前请先处理敏感信息：

客户姓名、手机号、邮箱
账号、密码、验证码
合同编号、报价明细、身份证信息
任何不适合课堂公开传播的内部数据

必要时可以只保留结构与字段，不保留真实值。

8. 常见错误¶

这些做法容易让作业失去意义：

只放 1 份超长 PDF，其余什么都没有
只保留 AI 总结，不保留原始材料
文件名全是 1.md、2.md、final-final.md
材料很多，但和服务对象没有关系

9. 继续往下做什么¶

收完第一批材料后，下一步建议看：