Anthropic vừa chính thức ra mắt Claude Opus 4.8, phiên bản nâng cấp từ Opus 4.7 với giá không đổi. Điểm nhấn của bản cập nhật này không phải là hiệu năng hay benchmark, mà là khả năng tự nhận thức khi không chắc chắn – một vấn đề thường bị các công ty AI lảng tránh.
Cải thiện tính trung thực
Các mô hình AI thường có xu hướng báo cáo tiến độ lạc quan hơn thực tế, như khi viết code hoặc xử lý tác vụ phức tạp, chúng dễ thông báo đã hoàn thành dù còn lỗi. Anthropic gọi đây là vấn đề về tính trung thực và Opus 4.8 được tối ưu để giải quyết điều này.
Theo đánh giá nội bộ, Opus 4.8 ít bỏ qua lỗi trong code hơn khoảng 4 lần so với Opus 4.7. Thay vì tiếp tục khi gặp điểm chưa chắc chắn, mô hình mới có xu hướng dừng lại và báo hiệu vấn đề để người dùng kiểm tra.
Hành vi hỗ trợ và tôn trọng
Nhóm căn chỉnh của Anthropic ghi nhận Opus 4.8 đạt mức cao mới về hành vi hỗ trợ người dùng và tôn trọng quyền tự quyết. Tỉ lệ hành vi lệch lạc như lừa dối hay hợp tác với yêu cầu lạm dụng giảm đáng kể, đưa Opus 4.8 ngang tầm Claude Mythos Preview – mô hình được đánh giá căn chỉnh tốt nhất hiện tại.
Fast Mode rẻ hơn 3 lần
Fast Mode cho Opus 4.8 chạy nhanh gấp 2,5 lần so với mặc định, phù hợp cho tác vụ cần phản hồi nhanh hoặc xử lý bất đồng bộ. Giá Fast Mode giảm 3 lần so với phiên bản trước, xuống còn 10 USD cho mỗi triệu token đầu vào và 50 USD cho mỗi triệu token đầu ra. Giá thông thường không đổi: 5 USD cho mỗi triệu token đầu vào và 25 USD cho mỗi triệu token đầu ra.
Tính năng Effort Control
Tính năng mới Effort Control cho phép người dùng điều chỉnh mức độ nỗ lực của Claude trong mỗi phản hồi. Ở mức cao, mô hình suy nghĩ sâu hơn, kết quả tốt hơn nhưng tiêu tốn nhiều token và chậm hơn. Ở mức thấp, phản hồi nhanh và ít tốn hạn mức. Opus 4.8 mặc định ở mức cao, tiêu thụ token tương đương Opus 4.7 nhưng cho kết quả tốt hơn. Tính năng có trên mọi gói dịch vụ của claude.ai.
Tương lai với Claude Mythos
Anthropic đang hoàn thiện các biện pháp bảo vệ an toàn để sớm ra mắt Claude Mythos, thế hệ mô hình vượt trội hơn dòng Opus. Hiện tại, một số tổ chức dùng Mythos Preview cho tác vụ an ninh mạng trong Project Glasswing. Dự kiến, Mythos sẽ đến tay toàn bộ khách hàng trong vài tuần tới.



