Karpathy分享用LLM構建個人知識庫工作流:token大頭不再花在寫程式碼,而是操作知識
律律动
OpenAI 聯合創始人 Andrej Karpathy 在 X 上分享了他近期的一個發現:用 LLM 構建個人知識庫,比用它寫程式碼更有價值。他目前的大部分 token 消耗已從操作程式碼轉向操作知識。
完整工作流分五步:
1. 資料攝入:將文章、論文、程式碼倉庫、資料集、圖片等源文件索引到 raw/ 目錄,用 LLM 增量「編譯」成一個 markdown wiki,包含摘要、反向連結、概念分類和文章互聯。
2. 瀏覽介面:用 Obsidian 作為前端檢視原始資料、編譯後的 wiki 和衍生視覺化,wiki 內容完全由 LLM 維護,人幾乎不直接編輯。
3. 問答查詢:當 wiki 積累到一定規模(他的一個研究方向已有約 100 篇文章、40 萬字),可以向 LLM 提出複雜問題,LLM 自行檢索 wiki 內容作答。他原以為需要 RAG,但 LLM 自動維護的索引檔案和摘要在這個規模下已經夠用。
4. 輸出迴流:查詢結果以 markdown、Marp 幻燈片或 matplotlib 圖表形式生成,在 Obsidian 中檢視後歸檔回 wiki,讓個人探索持續沉澱。
5. 質量巡檢:用 LLM 定期對 wiki 做「健康檢查」,發現資料不一致、補全缺失資訊、挖掘跨概念關聯,增量提升資料完整性。
Karpathy 稱他還額外開發了一些工具,比如一個簡易的 wiki 搜尋引擎,既可以自己在網頁介面上用,也可以作為命令列工具交給 LLM 處理更大的查詢。他認為這套工作流目前還只是「一堆指令碼的拼湊」,但背後藏著一個「不可思議的新產品」機會。
更遠的設想是:每一個向前沿模型提出的問題,都可以派出一組 LLM 自動構建一個臨時 wiki、做質量巡檢、迭代數輪,最終輸出一份完整報告,「遠超一次 .decode()」。
[1M AI News]