

🚨 Sốc: Anthropic khai tử 1M context Sonnet 4.5 hôm nay, team RAG phải migrate gấp
Đúng hôm nay 30/4/2026, Anthropic chính thức retire 1M token context window beta của Claude Sonnet 4.5 và Sonnet 4. Nếu bạn đang chạy long-context pipeline trên Sonnet rẻ, đọc ngay kẻo API trả lỗi giữa production.
💥 Chuyện gì vừa xảy ra?
Từ hôm nay, 1M context beta trên Sonnet 4.5 và Sonnet 4 đã bị khai tử. Mọi request có input vượt 200K token sẽ nhận về lỗi 400 invalid_request_error ngay lập tức.
Đây là cú đánh trực diện vào các team đang chạy long-context RAG, codebase analysis quy mô monorepo, hoặc legal document review trên Sonnet vì giá rẻ. Hiện tại trong dòng API chính thức, chỉ còn Opus 4.7 (giá $5/$25 per MTok) là có 1M context, còn Sonnet 5 vẫn chưa public mức này.
🔀 Ba lựa chọn migrate ngay trong tuần
Bạn không có nhiều thời gian, đây là ba con đường khả thi.
Option 1: Nhảy lên Opus 4.7. Giá đắt gấp 5 lần Sonnet, nhưng được full 1M context kèm prompt caching 1H giảm 70% chi phí. Phù hợp với job nặng, cần độ chính xác cao và không thể chia nhỏ input.
Option 2: Chia chunk 200K + recursive summary. Giữ được Sonnet giá rẻ, nhưng phải code thêm khoảng 2 ngày cho pipeline chunk và summary đệ quy. Đánh đổi: chất lượng giảm rõ rệt do summary loss, đặc biệt với code review hoặc tài liệu pháp lý cần ngữ cảnh xuyên suốt.
Option 3: Câu giờ qua AWS Bedrock. Bedrock vẫn còn tier 1M Sonnet 4.5 đến tháng 6, đủ thời gian cho team chuẩn bị migrate dài hạn mà không gãy production.
🛡️ Best practice: Đừng để bị khóa vendor
Bài học lớn nhất từ vụ retire này: đừng hard-code model name vào core logic. Hãy viết một abstract layer model-agnostic ngay từ đầu, kiểu một interface chung cho mọi LLM provider.
Khi đó, đổi từ Sonnet 4.5 sang Opus 4.7, hay sau này nhảy sang Sonnet 5, bạn chỉ cần đổi một dòng config, không phải refactor toàn bộ pipeline. Đây là kỹ năng kiến trúc cơ bản mà rất nhiều team bỏ qua, để rồi trả giá đắt mỗi lần provider thay đổi.
🧠 Mẹo bù đắp khi buộc phải lên Opus 4.7
Anthropic gợi ý combo ba thứ để giảm chi phí và giữ chất lượng:
- Memory tool: lưu context dài hạn ngoài prompt, không cần nhồi hết vào input.
- Extended thinking: cho model suy luận sâu hơn, bù lại việc context bị cắt.
- Prompt caching 1H: tái sử dụng phần system prompt và document tĩnh, giảm tới 70% chi phí mỗi call.
Kết hợp ba thứ này, chi phí thực tế trên Opus 4.7 có thể về gần mức Sonnet cũ trong nhiều use case lặp lại.
⚠️ Hành động ngay nếu đang ở production
Đừng đợi user báo lỗi. Hãy làm ngay ba việc.
Thứ nhất, scan toàn bộ log xem có request nào input vượt 200K không. Thứ hai, bật alert cho lỗi 400 invalid_request_error trên monitoring. Thứ ba, chạy thử migration trên môi trường staging với cả ba option ở trên để chọn phương án phù hợp ngân sách.
Vendor lock-in là rủi ro thật, và hôm nay là lời cảnh tỉnh đắt giá cho cả ngành.
Team bạn đang dùng option nào để migrate? Comment chia sẻ kinh nghiệm thực chiến nhé!


