🤖 AI Tự Đánh Giá Bản Thân Là Thứ Dẫn Đến Sản Phẩm Tệ: Anthropic Có Cách Fix

🤖 AI Tự Đánh Giá Bản Thân Là Thứ Dẫn Đến Sản Phẩm Tệ: Anthropic Có Cách Fix

Anthropic vừa công bố cách họ xây dựng AI agent có thể tạo ra sản phẩm thực sự tốt, không phải sản phẩm "ổn cũng được". Vấn đề cốt lõi là AI tự khen mình quá dễ.

😵 Context Degradation Là Gì

Khi bạn chạy Claude trên các tác vụ dài và phức tạp, model bắt đầu mất mạch. Khi context window gần đầy, Claude Sonnet 4.5 có hiện tượng "context anxiety", tự động kết thúc công việc sớm dù chưa xong. Kết quả là sản phẩm dở dang.

Vấn đề thứ hai còn tệ hơn: AI tự đánh giá sản phẩm của mình quá tốt. Hỏi nó "code này chạy được không?", nó bảo "có, tốt lắm". Nhưng thực ra game bị broken hoàn toàn.

🔧 Giải Pháp: Tách Generator Và Evaluator

Anthropic áp dụng kiến trúc lấy cảm hứng từ GAN networks. Thay vì một AI làm tất cả, họ tách ra 3 agent. Planner chuyển prompt ngắn thành spec chi tiết. Generator code ứng dụng bằng React, FastAPI, SQLite. Evaluator dùng Playwright chạy thật trên trình duyệt, click từng nút, rồi chấm điểm theo 4 tiêu chí: design quality, originality, craft, và functionality.

Vòng lặp này chạy 5 đến 15 lần cho đến khi sản phẩm đạt yêu cầu.

📊 Kết Quả Thực Tế

Khi test với retro game maker, chạy đơn lẻ mất 20 phút, tốn 9 USD nhưng game bị broken, entity-runtime wiring lỗi. Chạy với harness mất 6 tiếng, tốn 200 USD nhưng ra game hoàn chỉnh, UI đẹp, Claude agent tích hợp để tạo sprite qua prompt.

Một điểm thú vị: trong một lần chạy, Generator tự phá bỏ thiết kế museum website thông thường và tái tạo thành spatial 3D experience với CSS perspective. Đây là loại sáng tạo chỉ xuất hiện khi có vòng lặp feedback, không thể có trong single-pass generation.

Với Claude Opus 4.6, họ đã bỏ bớt scaffolding vì model tự lên plan tốt hơn. Sprint decomposition không còn cần thiết. QA cũng chuyển sang single-pass thay vì per-sprint.

💡 Bài Học Quan Trọng

Kiến trúc harness cần thích nghi liên tục theo sức mạnh của model. Khi model giỏi hơn, bỏ đi những phần không còn cần thiết và thêm khả năng mới. Không gian harness thú vị không thu hẹp khi model mạnh hơn, nó chỉ dịch chuyển.

Nếu bạn đang build AI agent và thấy sản phẩm ra "ổn ổn" nhưng không bao giờ thực sự tốt, đây là lý do. AI cần một agent khác để phản hồi thật sự, không phải tự khen mình.

#AI #Anthropic #MultiAgent #AIEngineering #VibeAICoder #learnontiktok

Bài viết liên quan