Andrej Karpathy 的 LLM Wiki 模式

Karpathy Wiki

这是一份聚焦版指南,解释什么是由大模型持续维护的 wiki:原始资料持续输入,页面持续重写,答案持续回流,知识库会随着时间越用越准。

持续沉淀

不是每次问答都从零开始,而是先写成页面,再在后续资料进入时持续修订。

人机分工

人类负责找资料、定方向、做判断,模型负责整理、串联、归档和维护。

资料优先

原始文件保持不动,wiki 作为工作层去吸收摘要、链接、对比和结论。

Karpathy Wiki 知识地图插图

关键区别

RAG 负责检索,Karpathy Wiki 负责沉淀。

真正的变化不只是召回更准,而是把跨资料综合这件事写进一个持续维护的产物里,让模型下次直接站在上一次整理过的结果上继续工作。

维度传统 RAGKarpathy Wiki 模式
知识状态大多在提问时才从原始切片里重新拼出来。以互相链接的 markdown 页面形式长期保留下来,并持续演进。
跨源综合每次提问都要重新做一遍。第一次写进 wiki,后续在已有页面上持续修订。
矛盾信息除非当前提示词刚好覆盖,否则很容易漏掉。可以直接记在相关页面里,后续维护时持续回看。
答案复用高质量回答常常只留在聊天记录里。有价值的回答可以回填成 wiki 的新页面或新段落。
维护成本最终仍要靠人手工整理和对账。模型可以一次性更新多页,把簿记工作接过去。
LLM Wiki 三层工作流示意图

运行方式

三层结构,三类循环操作。

Karpathy 的做法之所以实用,是因为它没有把系统做得很重:原始资料层、wiki 层、schema 层,再加上 ingest、query、lint 三个持续循环。

原始资料

文章、笔记、论文、图片、播客转录等原始材料,模型会读取,但不会直接改写。

Wiki 层

模型负责创建、修订、互相链接的 markdown 页面,新的材料进入后会持续更新。

Schema 层

一份给代理看的说明文件,定义结构、命名规则、工作流和长期维护习惯。

Ingest

读取新资料,生成摘要,更新相关页面,并把这次变更记录到日志里。

Query

先从 wiki 回答问题,再把高价值答案回填到知识库,让下一次回答更完整。

Lint

定期检查过时结论、弱链接、孤儿页面和待验证的问题,推动下一轮修订。

FAQ

关于这套模式的常见问题

Karpathy Wiki 到底是什么?

它是一种工作模式:在原始资料和你的问题之间,放一层由大模型维护的 markdown wiki。人类负责整理资料和提出问题,模型负责写摘要、补链接、对齐冲突并保持页面一致。

它和普通的 RAG 有什么本质区别?

普通 RAG 往往在每次提问时临时从原始语料中检索片段,再现算一次综合结果。LLM Wiki 则把综合层保留下来,所以摘要、交叉引用和矛盾点会先存在页面里,再被后续问题复用。

为什么很多人会把 Obsidian 和 LLM Wiki 放在一起谈?

因为 Obsidian 天然就是一套可浏览的 markdown 工作区,有反链、图谱和插件生态。人类适合在那里看页面,模型也适合直接维护这些文件。

要起步是不是需要很复杂的基础设施?

不需要。Karpathy 给出的起点其实很轻:一些 markdown 文件、一份 schema 说明、再加上在规模变大后才逐步引入的搜索或索引能力。

这种模式最适合什么场景?

最适合那些资料会不断增长、而你又希望综合结果和复用答案能越积越多的场景,比如长期研究、读书笔记、尽调、团队知识库和专题资料库。