原始材料采集速查¶
这份材料是给第一次做 wiki 作业的同学准备的。
先记住一句话:
这次作业考的是资料整理能力,不是考你写爬虫。
1. 先决定“这个 wiki 是给谁用的”¶
在开始收材料之前,先回答两个问题:
- 你准备整理什么主题
- 这个 wiki 主要服务谁
例如:
- 给刚入职的销售整理公司产品与客户常见问题
- 给运营同事整理流程、模板和常见报错
- 给未来容易忘记细节的自己整理一门技能或一套业务知识
只有先明确服务对象,后面的页面结构才不会乱。
2. 哪些材料可以直接收¶
以下材料都可以作为 raw/ 原始材料:
- 官网页面、帮助中心、产品说明页
- PDF、Word、Excel、会议纪要
- 自己的学习笔记、制度文件、操作手册
- 截图转写稿、FAQ 整理稿、聊天记录摘录
不要求所有材料格式一致,也不要求一次收很多。
3. 最低可行的采集方法¶
如果你完全不知道怎么开始,按下面做就够了:
- 先新建
raw/目录 - 放进去 6-15 份你之后真的会反复用到的材料
- 网页可以手动复制为 Markdown 或纯文本
- 截图里的文字可以自己整理成一份笔记
- PDF、说明文档、FAQ 可以直接原样放进
raw/
能收齐第一批材料,比一开始追求“自动化采集”更重要。
4. 文件怎么命名¶
建议文件名一眼能看出来源和主题,例如:
官网-产品介绍-2026-04.md帮助中心-退款规则.md客户FAQ-销售整理稿.md竞品对比-2026Q2.pdf
命名的目标不是好看,而是后面能回溯。
5. 数据采集工具推荐¶
如果你的材料不是纯 Markdown,而是网页、Word、PPT、Excel 或截图,可以先用这些最省事的方式:
办公文档¶
如果你需要从 docx、pptx、xlsx 里提取原始材料,可以先回看第 1 周课程里提到的相关工具说明:
这一部分已经提到:
xlsx适合处理 Excelpptx适合处理 PPTdocx适合处理 Word
你不需要一开始就做复杂自动化,先把文档内容稳定导出、整理进 raw/ 就够了。
网页内容¶
如果你的原始材料主要来自网页,推荐先把内容转成 Markdown,再收进 raw/。
比较低门槛的组合是:
这样做的好处是:
- 人类更容易复查
- 文件更容易归档
- 对 Agent 来说,通常比直接处理整页 HTML 更干净
截图与扫描件¶
如果资料在截图里,也完全可以先手工整理成 Markdown 或纯文本。
这次作业不考 OCR 工具选型,重点仍然是你能不能把材料整理成可回溯的知识结构。
6. 什么叫“可回溯”¶
你的 wiki/ 页面里写出的结论,应该能回到原始材料。
例如某个页面写了“客户最常问 3 个问题”,你要能说清这些信息分别来自:
- 哪个官网页面
- 哪份 FAQ
- 哪个截图整理稿
如果只有模型生成的总结,没有原始材料对应关系,就不算真正完成这次作业。
7. 脱敏提醒¶
如果你使用真实工作资料,提交前请先处理敏感信息:
- 客户姓名、手机号、邮箱
- 账号、密码、验证码
- 合同编号、报价明细、身份证信息
- 任何不适合课堂公开传播的内部数据
必要时可以只保留结构与字段,不保留真实值。
8. 常见错误¶
这些做法容易让作业失去意义:
- 只放 1 份超长 PDF,其余什么都没有
- 只保留 AI 总结,不保留原始材料
- 文件名全是
1.md、2.md、final-final.md - 材料很多,但和服务对象没有关系
9. 继续往下做什么¶
收完第一批材料后,下一步建议看: