

Andrej Karpathy Chia Sẻ: Dùng LLM Xây Dựng Knowledge Base Cá Nhân, Không Cần RAG
Andrej Karpathy, cựu Giám đốc AI tại Tesla và đồng sáng lập OpenAI, vừa chia sẻ một quy trình làm việc cực kỳ thú vị: dùng LLM để xây dựng knowledge base (cơ sở tri thức) cá nhân cho nghiên cứu. Thay vì chỉ dùng AI để viết code, Karpathy đang chuyển phần lớn "token throughput" sang việc xử lý và tổ chức tri thức.
📥 Thu thập dữ liệu thô
Bước đầu tiên là gom tất cả tài liệu nguồn vào thư mục raw/. Bao gồm bài báo, papers nghiên cứu, repos GitHub, datasets, hình ảnh. Karpathy dùng Obsidian Web Clipper để chuyển các bài web thành file .md, kèm hotkey tải ảnh liên quan về local để LLM dễ tham chiếu.
Điểm quan trọng: không cần format hay sắp xếp gì cả. Cứ ném hết vào raw/, phần còn lại để LLM xử lý.
🔄 LLM "biên dịch" thành wiki
Đây là bước hay nhất. LLM đọc toàn bộ raw data rồi tự động "compile" thành một wiki, thực chất là tập hợp file .md có cấu trúc thư mục. Wiki này bao gồm:
→ Tóm tắt từng tài liệu trong raw/ → Backlinks liên kết giữa các bài → Phân loại dữ liệu theo khái niệm (concepts) → Viết bài giải thích cho từng khái niệm → Liên kết chéo giữa tất cả các bài
Bạn hầu như không bao giờ chỉnh sửa wiki trực tiếp. Đó là "lãnh thổ" của LLM.
🖥️ Obsidian làm giao diện xem
Karpathy dùng Obsidian như một IDE "frontend" để xem raw data, wiki đã biên dịch, và các visualization. Obsidian hiển thị markdown rất tốt, hỗ trợ backlinks, graph view, và nhiều plugin hữu ích. Ví dụ plugin Marp để render slides trực tiếp trong Obsidian.
🔍 Hỏi đáp trực tiếp trên wiki
Khi wiki đủ lớn (ví dụ wiki nghiên cứu của Karpathy có khoảng 100 bài viết và 400,000 từ), bạn có thể hỏi LLM agent đủ loại câu hỏi phức tạp. LLM sẽ tự tìm kiếm, đọc các bài liên quan, và tổng hợp câu trả lời.
Điều bất ngờ: không cần RAG phức tạp. LLM tự duy trì các file index và tóm tắt ngắn cho mọi tài liệu. Ở quy mô nhỏ (~100 bài), LLM đọc và xử lý dữ liệu liên quan khá dễ dàng.
📊 Xuất kết quả và lưu ngược vào wiki
Thay vì nhận câu trả lời dạng text trong terminal, Karpathy yêu cầu LLM render thành:
→ File markdown → Slide shows (định dạng Marp) → Biểu đồ matplotlib → Và nhiều format visual khác
Tất cả đều xem được trong Obsidian. Điều thú vị là kết quả này thường được "file" ngược vào wiki để làm giàu cho các truy vấn sau. Mọi khám phá và câu hỏi đều "tích lũy" trong knowledge base.
🧹 LLM "Health Check" dữ liệu
Karpathy chạy các bước kiểm tra sức khỏe wiki bằng LLM:
→ Tìm dữ liệu mâu thuẫn giữa các bài → Bổ sung dữ liệu thiếu (dùng web search) → Phát hiện kết nối thú vị cho bài viết mới → Dọn dẹp và nâng cao tính toàn vẹn dữ liệu
LLM rất giỏi trong việc gợi ý thêm câu hỏi để nghiên cứu sâu hơn.
🛠️ Công cụ bổ sung
Karpathy tự viết thêm tools để xử lý dữ liệu. Ví dụ, anh "vibe coded" một search engine nhỏ cho wiki, vừa dùng trực tiếp qua web UI, vừa cung cấp cho LLM qua CLI như một tool cho các truy vấn lớn hơn.
Hướng phát triển tiếp theo: synthetic data generation + fine-tuning để LLM "biết" dữ liệu trong weights thay vì chỉ qua context window.
💡 Tóm lại quy trình
Raw data từ nhiều nguồn → LLM biên dịch thành wiki .md → LLM vận hành wiki qua CLI để hỏi đáp và cải thiện liên tục → Tất cả xem được trong Obsidian. Bạn hầu như không bao giờ viết hay sửa wiki trực tiếp, đó là việc của LLM.
Karpathy nhận định: "Có chỗ cho một sản phẩm tuyệt vời ở đây, thay vì một bộ scripts lộn xộn." Đây có thể là tương lai của việc quản lý tri thức cá nhân.
#AI #LLM #KnowledgeBase #AndrejKarpathy #Obsidian #VibeAICoder #learnontiktok


