🚀 GPT-5.4 Pro vượt người trên OSWorld với context 1.05 triệu token

🚀 GPT-5.4 Pro vượt người trên OSWorld với context 1.05 triệu token

OpenAI vừa thả bom đúng nghĩa: GPT-5.4 Pro ra mắt chỉ 1 ngày sau GPT-5.5, và lần đầu tiên có một model AI vượt mặt con người trên benchmark thao tác máy tính.

🧠 GPT-5.4 Pro là gì và vì sao đáng chú ý

GPT-5.4 Pro là model mới nhất trong dòng Pro của OpenAI, được thiết kế tập trung cho agentic tasks (các tác vụ tự hành như duyệt web, dùng tool, vận hành máy tính). Điều bất ngờ là nó được tung ra chỉ một ngày sau GPT-5.5 thường, cho thấy OpenAI đang tăng tốc cuộc đua model.

Điểm gây sốc nhất nằm ở context window 1.05 triệu token, lớn nhất mà OpenAI từng release thương mại. Với mức này, bạn có thể nhét nguyên một codebase trung bình, một quyển sách dày, hoặc nhiều giờ transcript vào cùng một prompt mà không cần chia nhỏ.

🏆 Variant Thinking vượt mặt con người trên OSWorld

Đây là phần thật sự gây tranh cãi. Variant GPT-5.4 Pro Thinking tích hợp test-time compute (model dành thêm thời gian suy luận trước khi trả lời) và đạt 75.0% trên OSWorld-Verified, trong khi điểm trung bình của con người chỉ khoảng 72%.

OSWorld là benchmark đánh giá khả năng thao tác máy tính thật như mở app, click chuột, điền form, đọc kết quả. Lần đầu một model vượt human-level ở đây nghĩa là cánh cửa cho AI agent thực sự dùng máy tính thay bạn đã mở.

📉 Sai sót giảm mạnh so với GPT-5.2

OpenAI công bố con số rất ấn tượng: GPT-5.4 Pro giảm 33% sai sót cấp claim18% sai sót cấp response so với GPT-5.2. Tức là model vừa nói ít sai vặt, vừa hạn chế các câu trả lời tổng thể bị lệch hướng. Với agentic workflow nơi một bước sai có thể phá hỏng cả chuỗi, đây là cải tiến cực kỳ giá trị.

📊 Bảng xếp hạng: ai đang dẫn đầu

Composite benchmark score của các flagship model hiện tại:

GPT-5.4 Pro đạt 92, cao nhất bảng. Gemini 3.1 Pro theo sau với 87, Claude Opus 4.6 đứng thứ ba với 85. Tuy nhiên Anthropic cũng vừa tung Claude Opus 4.7 và model này đứng đầu mảng coding với SWE-Bench 80.9%, cho thấy mỗi nhà có thế mạnh riêng.

💸 Cái giá phải trả

Sức mạnh đi kèm hóa đơn. Giá API của GPT-5.4 Pro tăng 30% so với GPT-5.5 thường. Với những team làm sản phẩm agentic, con số này không nhỏ và cần cân nhắc kỹ giữa chất lượng output và budget. OpenAI cũng vừa đăng tip prompting cho dòng GPT-5.5 trên cookbook chính thức, đáng đọc trước khi nâng cấp.

Bạn sẽ thử GPT-5.4 Pro hay đợi giá hạ? Comment ý kiến của bạn nhé!

#VibeAICoder #GPT54Pro #OpenAI #OSWorld #AIBenchmark

Bài viết liên quan

🚀 GPT-5.4 Pro vượt người trên OSWorld với context 1.05 triệu token | Vibe AI Coder