跳转至

关于 LLM Wiki

LLM Wiki 是由 Andrej Karpathy(特斯拉前 AI 总监、OpenAI 联合创始人)提出的一种知识库架构理念,2026 年 4 月在 X 上发布后 48 小时内获得 5000+ Stars,被视为对传统 RAG 范式的一次重要反思。


一、核心思想

LLM Wiki 的核心命题是:为什么每次都要检索,而不是让知识持久化?

传统 RAG 的工作方式是"用户提问 → 向量化 → 相似度匹配 → 拼上下文 → 生成回答"。每次请求都在做同样的事情——把文档当外挂硬盘,每次用都要重新查找。

LLM Wiki 的思路是反过来:让 LLM 当一名图书管理员,把零散的原始文档"编译"成一个结构化的、人类可读的 Markdown Wiki,然后在这个 Wiki 上做问答。

Karpathy 的原话:

"I spend more tokens manipulating knowledge than manipulating code."

"我花更多 token 在处理知识上,而非写代码上。"

他将原始资料(论文、仓库、网页)丢进 raw/ 文件夹,让 LLM 增量式地"编译"出一套 Wiki——包括摘要、概念定义、百科式文章,以及最重要的:知识点之间的反向链接


二、LLM Wiki vs 传统 RAG 对比

维度 传统 RAG(向量库) LLM Wiki(Markdown 知识库)
数据形式 不透明向量(数学空间) 人类可读 Markdown
检索逻辑 语义相似度(最近邻) 显式链接(反向链接/索引)
可审计性 低(黑箱匹配) 高(直接溯源到原文)
知识积累 静态(需重新索引) 主动(通过 Lint 自修复)
适合规模 百万级文档 100~10,000 条高价值信号
人机协作 人看不懂向量,完全依赖 AI 人可读可改,AI 和人共同维护

三、FSSC Wiki 对 LLM Wiki 理念的实践

FSSC Wiki 在落地过程中吸收了 LLM Wiki 的核心精神,并根据柒鑫的业务场景做了适配:

LLM Wiki 原则 FSSC Wiki 落地方案
文档即知识库 审核手册原始 MD 文件就是知识源,无需额外建表
人类可读 MkDocs Material 渲染,浏览器直接翻阅,不依赖 AI 也能用
语义问答 BGE + ChromaDB + DeepSeek 提供 Q&A,回答标注来源章节
透明溯源 每条回答附带 [来源 N,章节 X],点击跳转到原文锚点
增量式编译 sync_*_to_wiki.py 脚本 + onboard_company.py 管线,新内容一键编译
人机协作 反馈板让 LAN 用户提交建议,管理员审核改进

和 Karpathy 原始方案的不同之处

  • Karpathy 完全由 LLM 写入和维护 Wiki,人类不直接编辑
  • FSSC Wiki 以人工审核过的业务手册为源头,AI 负责问答而非写入
  • 增加了跨公司导航、表格索引、全文搜索等企业级功能

四、为什么选择这条路

RAG 适合海量、非结构化、不需要精确溯源的内容(如全网搜索、开放域问答)。

但审核手册这个场景不同:

  • 精确性优先 — 审核规则一个字都不能错,向量检索的近似匹配不够可靠
  • 人类可读 — 审核员需要自己翻手册确认,不能只依赖 AI 的"黑箱答案"
  • 增量积累 — 新公司、新业务不断加入,知识库需要持续生长而非每次重建
  • 可追溯 — 每一条审核规则的出处都要能追溯到原始文档的具体段落

LLM Wiki 的"先编译成可读文档,再基于文档做问答"恰好匹配这些需求。FSSC Wiki 是这一理念在企业内部知识管理场景的首次完整落地。


参考:Andrej Karpathy 2026年4月 X 帖子「LLM Knowledge Bases」;VentureBeat 报道「Karpathy shares LLM Knowledge Base architecture that bypasses RAG」