🚨 Sốc: AI viết code siêu đỉnh nhưng bảo trì siêu "đuối"

16 tháng 3, 2026

Bạn nghĩ AI đã sẵn sàng thay thế lập trình viên để duy trì mã nguồn lớn? Nghĩ lại đi! Benchmark SWE-CI mới công bố từ Alibaba và các cộng sự đang đưa ra một cảnh báo mạnh mẽ về khả năng bảo trì mã nguồn của các mô hình AI hiện nay. Đừng chỉ nhìn vào khả năng viết code ngắn, sự thật về bảo trì dài hạn sẽ khiến bạn phải cân nhắc kỹ.

🤖 Benchmark SWE-CI là gì?

Khác với các bài kiểm tra "một lần" (one-shot), SWE-CI không chỉ kiểm tra việc sửa lỗi mà còn đánh giá cách AI duy trì mã nguồn qua một thời gian dài. Nó mô phỏng một quy trình phát triển phần mềm thực tế dựa trên Vòng lặp Tích hợp Liên tục (CI loop). Để đánh giá khách quan, nghiên cứu đã sử dụng 100 kho lưu trữ (repositories) thực tế từ GitHub, được lọc kỹ càng với các tiêu chuẩn cao: hơn 500 stars và duy trì hơn 3 năm, đảm bảo tính thực tế của mã nguồn và quy trình bảo trì. Mỗi repository được theo dõi trung bình qua 233 ngày phát triển với khoảng 71 commit liên tục cho mỗi nhiệm vụ, một khối lượng công việc không hề nhỏ. Phương pháp mô phỏng này sử dụng mô hình Dual-Agent (Kiến trúc sư - Lập trình viên). "Kiến trúc sư" đóng vai trò phân tích lỗi và lập kế hoạch, còn "Lập trình viên" thực hiện viết mã, mô phỏng cách một đội ngũ phát triển thực tế làm việc. Các số liệu cụ thể này giúp bạn hiểu rõ mức độ thực tế và quy mô của benchmark, tất cả đều được biểu diễn trực quan trong infographic.

⚠️ Kết quả sốc: AI vẫn 'đuối' dài hạn.

Dù các mô hình AI hiện nay rất giỏi viết các đoạn mã ngắn, nghiên cứu cho thấy chúng gặp khó khăn lớn khi phải bảo trì hệ thống mà không làm hỏng các tính năng cũ. Tỷ lệ không gây lỗi (Zero-regression rate) của đa số 18 mô hình tham gia thử nghiệm (từ 8 nhà cung cấp lớn như OpenAI, Anthropic, Alibaba, Zhipu AI...) có điểm số dưới 25%. Điều này có nghĩa là trong 75% trường hợp, khi AI cập nhật code mới, nó vô tình làm hỏng (break) các bài kiểm tra (test) của những tính năng đã tồn tại trước đó. Điều này đòi hỏi lập trình viên phải cực kỳ cẩn thận khi sử dụng code do AI tạo ra, đặc biệt là trong các dự án lớn. Những cái tên dẫn đầu chỉ có Claude Opus (phiên bản 4.6) của Anthropic và GLM-5 của Zhipu AI (Trung Quốc) vượt qua được ngưỡng 50%. Một số báo cáo thậm chí ghi nhận Claude Opus 4.6 đạt tới 76% ở một số tiêu chí cụ thể, cho thấy một tia hy vọng về sự cải thiện trong tương lai. Nhưng nhìn chung, con số 25% vẫn là một thách thức lớn.

💻 Vấn đề mới: Legacy code từ AI.

AI cũng biết tạo "nợ kỹ thuật"! Các nhà phát triển nhận xét rằng AI đang tạo ra một loại "legacy code" mới, tức là mã chạy được ngay lúc đó nhưng rất khó bảo trì hoặc gây lỗi tiềm ẩn cho các bản cập nhật sau này. Đây là một khái niệm rất đáng quan tâm đối với bất kỳ ai đang sử dụng AI để hỗ trợ phát triển phần mềm. Việc không chú trọng đến kiến trúc và khả năng mở rộng lâu dài có thể dẫn đến hậu quả nghiêm trọng về sau, khiến cho việc bảo trì trong tương lai trở nên khó khăn và tốn kém hơn. Điều này càng cho thấy tầm quan trọng của việc kiểm tra và review code do AI tạo ra.

🧑‍💻 Ý nghĩa với kỹ sư phần mềm.

Nghiên cứu này củng cố quan điểm rằng AI chưa thể thay thế hoàn toàn con người trong tương lai gần, đặc biệt là ở vai trò duy trì hệ thống lớn. Con người vẫn cực kỳ quan trọng trong việc Review, Kiểm thử (Testing) và xử lý các Edge Cases (trường hợp biên) mà AI thường bỏ qua khi hệ thống mở rộng. Các trường hợp biên có thể rất phức tạp và đòi hỏi kinh nghiệm thực tế của con người để xác định và xử lý. Lập trình viên đang chuyển dịch từ người viết từng dòng code sang người "nhạc trưởng" điều phối các Agent AI, tập trung vào kiến trúc hệ thống thay vì tiểu tiết. Điều này mở ra cơ hội mới cho các kỹ sư phần mềm chuyển dịch sang các vai trò quản lý và kiến trúc hệ thống thay vì chỉ tập trung vào việc viết code. Các thông số đánh giá chính như EvoScore (tính chính xác trên các sửa đổi tương lai) và tỷ lệ hồi quy (regression) cũng được nêu chi tiết để bạn có cái nhìn toàn diện hơn về cách thức đánh giá này, giúp bạn có thêm thông tin kỹ thuật để hiểu rõ hơn về benchmark.

Bạn có nghĩ AI sẽ sớm cải thiện vấn đề này? Bình luận cho tôi biết nhé!

#learnontiktok #aicoding #sweci #programming #ainews

🚨 Sốc: AI viết code siêu đỉnh nhưng bảo trì siêu "đuối"

🤖 Benchmark SWE-CI là gì?

⚠️ Kết quả sốc: AI vẫn 'đuối' dài hạn.

💻 Vấn đề mới: Legacy code từ AI.

🧑‍💻 Ý nghĩa với kỹ sư phần mềm.

Bài viết liên quan

🤯 Cursor "lật kèo": Model tự train mạnh hơn Claude 4.6 mà giá rẻ giật mình!

🔥 Claude Code bỏ luật "Avoid over-engineering" — Cộng đồng dev đang tranh cãi kịch liệt

🚀 Tính năng mới ra mắt của Claude Code: AUTO MODE