🔬 Nghiên Cứu Mới Từ MIT: AI Skills Có Thực Sự Giúp Agent Thông Minh Hơn?

🔬 Nghiên Cứu Mới Từ MIT: AI Skills Có Thực Sự Giúp Agent Thông Minh Hơn?

Bạn nghĩ cho AI agent thêm nhiều skills sẽ giúp nó giải quyết vấn đề tốt hơn? Nghiên cứu mới nhất từ UC Santa Barbara và MIT vừa chứng minh điều ngược lại.

🧪 Thí Nghiệm Quy Mô Lớn

Nhóm nghiên cứu thu thập 34,000 skills từ các repo open-source và kiểm tra xem chúng có thực sự cải thiện khả năng của AI agent hay không. Kết luận khiến nhiều người bất ngờ: lợi ích cực kỳ mong manh, thậm chí có thể phản tác dụng.

⚠️ Vấn Đề Với Benchmark Cũ

Các benchmark trước đây đánh giá skills theo cách quá lý tưởng. Skills được viết tay cho từng task cụ thể, gần như là hướng dẫn giải bài từng bước. Agent được cho sẵn đúng skill cần dùng. Nhưng trong thực tế thì sao? Agent phải tự tìm skill phù hợp từ hàng nghìn lựa chọn. Đó mới là bài toán thực sự khó.

📉 Kết Quả Trên Claude Opus 4.6

Con số nói lên tất cả. Cho sẵn skills đúng đạt 55.4% pass rate. Agent tự chọn skill giảm xuống 51.2%. Thêm skills nhiễu vào thì giảm còn 43.5%. Phải tự tìm kiếm chỉ còn 40.1%. Không có skills viết tay thì đạt 38.4%, gần bằng mức không dùng skills nào là 35.4%. Nói cách khác, skills gần như không tạo ra khác biệt nếu agent không được "mớm" sẵn đáp án.

🔑 Hai Nút Thắt Và Giải Pháp

Vấn đề nằm ở hai điểm chính. Thứ nhất, agent không biết skill nào đáng dùng. Chỉ 49% trường hợp Claude load đủ skills cần thiết. Thứ hai, nội dung skills quá nhiễu, thiếu thông tin chính xác cho task cụ thể. Giải pháp được đề xuất là query-specific refinement: agent thử giải task trước, tự đánh giá rồi tinh chỉnh skills. Kết quả khá ấn tượng. Claude tăng từ 40.1% lên 48.2% trên SkillsBench, trên TerminalBench 2 tăng từ 57.7% lên 65.5%.

🗡️ Skills Là Con Dao Hai Lưỡi

Phát hiện quan trọng nhất: model yếu như Qwen bị skill sai làm giảm hiệu suất xuống dưới mức không dùng skills. Chỉ model mạnh như Claude mới đủ khả năng bỏ qua skills nhiễu và không bị ảnh hưởng tiêu cực. Bài học rõ ràng: đừng ném hàng đống skills vào agent và kỳ vọng phép màu. Chất lượng quan trọng hơn số lượng rất nhiều.

Bạn đang dùng skills cho AI agent của mình theo cách nào? Chia sẻ ở phần bình luận nhé!

#learnontiktok #AIagent #AIskills #claudeai #nghiencuuAI

Bài viết liên quan