返回

让 AI 帮我建一个会自己生长的知识库

21

我在 Obsidian 里积累了三年的笔记。文章收藏、读书笔记、博客草稿、日记……每一类都不少,但它们彼此之间几乎没有联系。像一个堆满货物的仓库,什么都在,但找不到东西,也不知道哪些东西之间其实有关联。

直到我看到了 Andrej Karpathy 的一个 gist,描述了一种他称之为”LLM Wiki”的模式,我才意识到,这件事可以让 AI 来做。


问题:笔记多,但不生长

收藏了一篇文章,存进了 Obsidian。读了一本书,记了笔记。写了一篇博客,发布,然后就没有然后了。

每一篇内容都是一个孤岛。即使我知道”结构化拖延”和”知行合一”讲的其实是同一件事,即使我知道日记里反复出现的某个困境在某篇读书笔记里有正面回答——但这些连线从未被明确建立过。它们只是模糊地存在于我脑子里,时不时浮现,然后消散。

这就是笔记系统最常见的失败形态:有输入,没输出;有存档,没沉淀


灵感:Karpathy 的 LLM Wiki 模式

Karpathy 在那篇 gist 里描述的思路很简单,但很有力:

让 LLM 作为一个持续的维护者,从你的原始资料里提炼结构化的知识网络。原始资料是只读的,知识网络由 LLM 持续构建和更新。

关键有三点:

一、不动原始资料。 你的文章收藏、博客文章、日记,永远保持原始状态,不修改、不整理。LLM 只是读取它们,然后把提炼出的内容写入另一个地方。

二、Wiki 层由 LLM 维护。 概念页面(concepts/)、来源摘要(sources/)、个人成长模式(personal/)——这一层完全由 LLM 负责,人不直接编辑。

三、Schema 驱动操作。 通过写在 CLAUDE.md 里的结构规范,告诉 LLM 每种操作(ingestlintquery)该怎么做、产出什么格式。LLM 按规范行事,结果可预期、可重现。

这个模式的本质是:你继续像以前一样生活和记录,LLM 帮你把散落的碎片连接起来


实施:三层结构

我在自己的 Obsidian vault 里按照这个思路搭建了一套系统,分三层:

原始资料层(只读)
├── clip/       外部文章(浏览器剪藏)
├── blog/       自己的博客文章
├── diary/      日记
└── docs/       技术规范、标准文档

Wiki 层(LLM 维护)
└── wiki/
    ├── index.md          总索引
    ├── _overview.md      知识域概述 + 统计
    ├── log.md            操作日志(append-only)
    ├── concepts/         概念页面
    ├── entities/         实体页面(人物、工具、项目)
    ├── sources/          来源摘要
    │   ├── clips/
    │   ├── posts/
    │   ├── diary/
    │   └── docs/
    └── personal/         个人成长模式与跨域连线

Schema 层
└── CLAUDE.md             操作规范(ingest/lint/query 的 SOP)

CLAUDE.md 里写的是规则,比如:

ingest:clip — 读取源文件 → 创建摘要页 → 更新/创建相关概念页 → 更新索引 → 追加日志

LLM 每次操作都按这个规范执行,wiki 的结构保持一致。


过程:从零到 83 个摘要页

整个搭建过程大约用了两天,分几个阶段:

第一阶段:搭框架。 创建目录结构,写好 CLAUDE.md,用一篇 PKI 文章做第一次 ingest 测试,验证流程可行。

第二阶段:批量 ingest。 按顺序处理每类原始资料:

第三阶段:lint 检查。 对 wiki 做健康检查:找孤儿页面、重复条目、过期占位符、缺失的交叉引用。

现在的 wiki 状态:


意外收获:那些隐藏的连线

这是整个过程里最让我兴奋的部分。

当所有内容都被结构化之后,有些东西浮现出来了——它们一直在那里,但从未被明确说出来。

“知行分离”是出现频率最高的主题。 日记里反复出现”知道要做但做不到”;博客《活成自己讨厌的样子》分析了梦想坍塌的机制;读书笔记《人生只有一件事》给出了操作路径(修愿意,从最小的不愿意入手);外部文章里”结构化拖延”和”最低有效剂量”是绕过这个障碍的实用策略。四类来源,指向同一个核心问题,给出互补的答案。

Naval 的”专有知识”和日记里的”深度焦虑”是同一件事的两面。 日记里有一条记录:“前端后端都会一点,看似什么都懂,其实什么都浅。“而 Naval 在另一篇文章里说:专有知识来自真诚的好奇心,不能被培训复制,它是不可替代性的来源。两个本来不在一起的内容,在 wiki 里变成了同一个主题的两个切面。

项飙的”内卷”分析和《被规则规训》是一套东西。 单一评价体系导致的零和竞争,内化外部规则是最隐蔽的不自由——这两篇文章来自不同作者,存入 Obsidian 的时间相差很远,但它们诊断的是同一件事。

PKI 和个人身份之间有一条意想不到的线。数字证书本质上是在回答”你是谁,我怎么信任你”——这个问题和人在现实世界里建立信任、确立自我的过程,其实结构上是同构的。这条线在 wiki 的”隐藏连线”页面里被单独记录了下来。

这些连线,没有一条是我主动去找的。它们是在 LLM 把全部内容结构化之后,自然浮现的。


反思:这个系统的本质是什么

用了几天之后,我越来越觉得,这个系统解决的不是”记录”的问题——我本来就在记录——它解决的是沉淀的问题。

记录很容易,沉淀很难。沉淀需要回顾、需要连线、需要把零散的观察提炼成洞察。这件事人做起来很慢,也很容易拖延(讽刺的是,这本身就是一个”知行分离”的例子)。而 LLM 不会拖延,它只需要你给出规范,然后喂进内容,它就会执行。

当然,这个系统也有它的局限。LLM 提炼的是它能”看见”的结构,那些只存在于情绪和身体感受里的东西,它捕捉不到。日记里最真实的内容往往不是可以被结构化的,ingest:diary 只能提取主题和模式,那些细腻的感受只能留给日记本身。

但即使如此,这已经是我这三年里,第一次清楚地看见自己的知识和思考在整体上是什么形状。


如果你也想试试

这套系统对 vault 结构有一定要求,也需要在 CLAUDE.md 里写好操作规范(我后面可以单独整理一篇 schema 示例)。但核心的思路并不复杂:

  1. 保持原始资料不动,只读取、不修改
  2. 另建一个 wiki 层,专门用来存 LLM 提炼的结构化内容
  3. 用 schema 约束 LLM 的操作,确保每次 ingest 输出格式一致
  4. 定期 lint,检查 wiki 的健康状态,修复断链和过期内容

最重要的一点:不要期待一次性完成。这是一个持续生长的系统,每次有新内容进来,wiki 就更新一次。它的价值不在于某一次的 ingest,而在于积累足够多之后,那些隐藏连线浮现的瞬间。


笔记整理自个人实验,2026 年 4 月。



上一篇
【每周一书】戒糖:改变一生的科学饮食法
下一篇
认识数字证书