Anthropic hôm nay đã phát hành Opus 4.5, mô hình tiên tiến hàng đầu của họ, và nó mang đến những cải tiến về hiệu suất coding, cũng như một số cải tiến trải nghiệm người dùng khiến nó cạnh tranh hơn với các mô hình tiên tiến mới nhất của OpenAI.
Có lẽ thay đổi nổi bật nhất đối với hầu hết người dùng là trong trải nghiệm ứng dụng tiêu dùng (web, di động và desktop), Claude sẽ ít có xu hướng dừng đột ngột các cuộc trò chuyện vì chúng chạy quá lâu. Cải tiến về bộ nhớ trong một cuộc trò chuyện duy nhất không chỉ áp dụng cho Opus 4.5, mà cho bất kỳ mô hình Claude hiện tại nào trong các ứng dụng.
Người dùng gặp phải kết thúc đột ngột (mặc dù vẫn còn chỗ trong phiên và ngân sách sử dụng hàng tuần) đã chạm vào cửa sổ ngữ cảnh cứng (200.000 token). Trong khi một số triển khai mô hình ngôn ngữ lớn đơn giản bắt đầu cắt bỏ các tin nhắn trước đó khỏi ngữ cảnh khi cuộc trò chuyện vượt quá tối đa trong cửa sổ, Claude đơn giản kết thúc cuộc trò chuyện thay vì cho phép người dùng trải nghiệm một cuộc trò chuyện ngày càng mất mạch lạc nơi mô hình sẽ bắt đầu quên mọi thứ dựa trên độ cũ của chúng.
Bây giờ, Claude sẽ thay vào đó trải qua một quá trình hậu trường tóm tắt các điểm chính từ các phần trước của cuộc trò chuyện, cố gắng loại bỏ những gì nó cho là không cần thiết trong khi giữ lại những gì quan trọng.
Các nhà phát triển gọi API của Anthropic có thể tận dụng các nguyên tắc tương tự thông qua quản lý ngữ cảnh và nén ngữ cảnh.
Hiệu Suất Opus 4.5
Opus 4.5 là mô hình đầu tiên vượt qua điểm chính xác 80% — cụ thể là 80,9% trong benchmark SWE‑Bench Verified, vượt qua một cách sít sao GPT‑5.1‑Codex‑Max của OpenAI (77,9%) và Gemini 3 Pro của Google (76,2%). Mô hình hoạt động đặc biệt tốt trong các benchmark coding tự động và sử dụng công cụ tự động, nhưng vẫn tụt hậu so với GPT‑5.1 trong lý luận thị giác (MMMU).
Anthropic cũng tuyên bố rằng Opus 4.5 ít bị tổn thương hơn nhiều trước các cuộc tấn công prompt injection so với các mô hình Claude trước đó, hoặc so với các mô hình cạnh tranh như GPT‑5.1 và Gemini 3 Pro. Tuy nhiên, không có mô hình nào trong số này có hiệu suất hoàn hảo về mặt đó.
Mặc dù những cải tiến về hiệu suất trong các benchmark đáng chú ý, cải tiến có ý nghĩa nhất trong Opus 4.5 có thể nói là nó hiệu quả hơn đáng kể với token. Bài đăng blog của Anthropic đưa ra các ví dụ:
Được đặt ở mức nỗ lực trung bình, Opus 4.5 phù hợp với điểm số tốt nhất của Sonnet 4.5 trên SWE‑Bench Verified, nhưng sử dụng ít hơn 76% token đầu ra. Ở mức nỗ lực cao nhất, Opus 4.5 vượt hiệu suất Sonnet 4.5 4,3 điểm phần trăm — trong khi sử dụng ít hơn 48% token.
Các Cập Nhật Khác
Việc ra mắt Opus 4.5 đi kèm với các tính năng mới khác cho nhà phát triển và người dùng.
Ví dụ, nền tảng nhà phát triển hiện bao gồm tham số “effort” mới, cho phép nhà phát triển điều chỉnh chính xác hơn sự cân bằng họ muốn giữa hiệu quả và sử dụng token.
Ngoài ra, Claude Code hiện có sẵn trong các ứng dụng Claude desktop. Trước đây, nó có sẵn qua dòng lệnh, tiện ích mở rộng IDE và web — một vài nơi, chỉ không phải các ứng dụng desktop gốc. Giao diện Claude desktop hiện được chia tab giữa trải nghiệm chat truyền thống và trải nghiệm Claude Code.
Và cuối cùng (và đối với một số người, quan trọng nhất), có một thay đổi giá lớn cho API cho Opus 4.5. Chi phí hiện là 5 đô la (đầu vào)/25 đô la (đầu ra) mỗi triệu token, giảm từ 15/75 đô la.







