

🚀 Claude Opus 4.7 ra mắt: Model Opus mạnh nhất từ trước đến nay, vượt mặt GPT-5.4 và Gemini 3.1 Pro
Anthropic vừa thả bom với Claude Opus 4.7, phiên bản Opus xịn nhất từ trước đến giờ. Nếu bạn đang code, làm research, hay build agent, bài này dành cho bạn đấy.
🧠 Thông minh hơn, tự giác hơn, ít cần nhắc nhở
Opus 4.7 xử lý tác vụ dài hạn chặt chẽ hơn hẳn, follow instructions chính xác tới từng chi tiết. Điểm đỉnh nhất là nó tự verify output trước khi báo cáo kết quả, tức là bạn đỡ phải soi lại từng dòng như trước.
Supervision giảm đáng kể, nghĩa là bạn có thể giao việc rồi đi làm chuyện khác mà vẫn yên tâm. Đây là bước nhảy lớn về độ tin cậy, đúng chuẩn "giao việc là xong".
Về vision, model nhìn ảnh với độ phân giải gấp 3 lần phiên bản cũ. Kết quả là khi bạn bảo nó tạo interfaces, slides, docs, chất lượng đầu ra sắc nét và chuyên nghiệp hơn rõ rệt.
⚡ API có thêm vũ khí mới cực bá
Anthropic thêm một effort level mới tên là "xhigh", nằm giữa high và max. Đây là chế độ hoàn hảo cho các bài toán khó, bạn kiểm soát được reasoning và latency tốt hơn mà không phải đẩy model lên mức max tốn kém.
Bên cạnh đó, Task budgets đang ở bản beta đã xuất hiện. Tính năng này giúp Claude tự ưu tiên công việc và quản lý chi phí trong các long runs. Với anh em build agent hay chạy batch job lớn, đây là tính năng đáng đồng tiền bát gạo.
Nói ngắn gọn, bạn có thêm hai cần gạt để tinh chỉnh model theo đúng nhu cầu, thay vì chỉ bật tắt như trước.
🛠️ Claude Code có lệnh /ultrareview và Auto mode xịn hơn
Trong Claude Code, Anthropic ra mắt lệnh /ultrareview cực đáng thử. Đây là review session chuyên dụng, Claude sẽ đọc qua toàn bộ thay đổi của bạn và flag ra những gì một reviewer kỹ tính sẽ bắt. Nghĩ đi, có một staff engineer ảo review PR cho bạn 24/7, quá ngon.
Auto mode cũng được mở rộng cho Max users. Các tác vụ dài chạy ít gián đoạn hơn, giảm số lần bạn phải quay lại confirm từng bước. Workflow code mượt hẳn, đặc biệt khi refactor codebase lớn hay migrate framework.
Hai nâng cấp này đều nhắm vào việc cho dev làm việc nhanh hơn, ít ngắt quãng hơn, mà vẫn đảm bảo chất lượng.
📊 Benchmark đập tan mọi đối thủ
Con số mới là phần hấp dẫn nhất. Trên SWE-bench Pro, Opus 4.7 đạt 64.3%, trong khi Opus 4.6 chỉ 53.4%, GPT-5.4 được 57.7%, và Gemini 3.1 Pro được 54.2%. Bỏ xa không thương tiếc.
SWE-bench Verified vọt lên 87.6% so với 80.8% của Opus 4.6. Terminal-Bench 2.0 đạt 69.4%, cho thấy khả năng xử lý terminal cực mạnh.
Ở Humanity's Last Exam, Opus 4.7 được 46.9% không tool và 54.7% có tool. MCP-Atlas đạt 77.3%, dẫn đầu và bỏ xa đối thủ. OSWorld-Verified được 78.0%, còn Finance Agent v1.1 đạt 64.4% cũng dẫn đầu.
Về kiến thức học thuật, GPQA Diamond được 94.2%, CharXiv Reasoning đạt 82.1% không tool và 91.0% có tool, MMMLU được 91.5%. Nói thật, model này đang viết lại tiêu chuẩn cho cả ngành.
💡 Có đáng để chuyển sang dùng ngay không?
Nếu bạn đang làm coding agent, automation, hay long-running tasks, câu trả lời là có, chuyển ngay. Chênh lệch 10 điểm phần trăm trên SWE-bench Pro là khác biệt giữa "dùng được" và "dùng sướng".
Với dev hay vibe code, lệnh /ultrareview thôi đã đủ lý do để nâng cấp. Bạn bắt được bug trước khi merge, đỡ đau đầu sau này nhiều lắm.
Còn bạn thì sao, đã thử Claude Opus 4.7 chưa? Comment xuống cho mình biết benchmark nào làm bạn ấn tượng nhất nhé!


