Claude Opus 4.8 là mô hình thuộc dòng Opus mạnh nhất của Anthropic hiện nay, được phát triển dựa trên Claude Opus 4.7. Phiên bản này mang đến nhiều cải tiến quan trọng khi ra mắt, bao gồm Fast Mode (chế độ tốc độ cao trong giai đoạn nghiên cứu trên Claude API) và giảm độ dài tối thiểu của prompt có thể lưu cache xuống còn 1.024 token.

Mô hình mới

Mô hình	ID API	Mô tả
Claude Opus 4.8	claude-opus-4-8	Mô hình Opus mạnh nhất của Anthropic dành cho suy luận phức tạp, lập trình AI Agent dài hạn và các tác vụ tự chủ ở mức cao.

Claude Opus 4.8 hỗ trợ:

Cửa sổ ngữ cảnh 1 triệu token mặc định trên Claude API, Amazon Bedrock và Vertex AI.
200.000 token ngữ cảnh trên Microsoft Foundry.
Tối đa 128.000 token đầu ra.
Adaptive Thinking (tư duy thích ứng).
Hỗ trợ cùng bộ công cụ và tính năng nền tảng như Claude Opus 4.7.

Bảng giá các gói Claude AI

Các tính năng mới của Claude Opus 4.8

Claude Opus 4.8 mang đến bước nhảy vọt về sức mạnh mô hình AI, dẫn đầu các bài kiểm tra lập trình (SWE-bench Pro) và suy luận phức tạp. Các tính năng mới quan trọng bao gồm:

Hỗ trợ System Message giữa cuộc hội thoại

Claude Opus 4.8 cho phép thêm message có role: "system" ngay sau một tin nhắn của người dùng trong mảng messages (theo các quy tắc vị trí).

Điều này giúp:

Cập nhật hướng dẫn mới trong cuộc trò chuyện dài.
Không cần gửi lại toàn bộ system prompt.
Giữ nguyên hiệu quả của Prompt Cache.
Giảm chi phí token cho các vòng lặp AI Agent.

Không cần sử dụng beta header.

Chi tiết hơn khi từ chối yêu cầu (Refusal Stop Details)

Đối tượng stop_details khi mô hình từ chối trả lời hiện đã được tài liệu hóa chính thức.

Ngoài lý do từ chối hiện có, hệ thống còn cung cấp:

Phân loại cụ thể của việc từ chối.
Giúp ứng dụng phân biệt các loại yêu cầu bị từ chối.
Dễ dàng điều hướng người dùng sang bước xử lý phù hợp.

Không cần beta header.

Giá trị mặc định của Effort

Mặc định, effort = high trên tất cả nền tảng:

Claude API
Claude Code

Nếu trước đó ứng dụng đã chỉ định effort thì hành vi sẽ không thay đổi.

Fast Mode

Claude Opus 4.8 bổ sung Fast Mode dưới dạng bản xem trước nghiên cứu trên Claude API.

Chỉ cần thiết lập: speed: "fast"

Fast Mode mang lại:

Tốc độ sinh token nhanh hơn tới 2,5 lần.
Vẫn sử dụng cùng mô hình Opus 4.8.
Áp dụng mức giá cao hơn.

Giảm ngưỡng Prompt Cache

Độ dài prompt tối thiểu có thể lưu cache giảm xuống còn: 1.024 token, thấp hơn so với trên Claude Opus 4.7.

Điều này giúp:

Những prompt trước đây quá ngắn để cache giờ đây có thể được lưu.
Không cần thay đổi mã nguồn hiện có.

Các giới hạn API được kế thừa từ Claude Opus 4.7

Các ràng buộc này không thay đổi so với Claude Opus 4.7, vì vậy mã đã chạy trên Claude Opus 4.7 không cần sửa đổi. Chúng chỉ áp dụng cho API Tin nhắn; các Claude Managed Agent không bị ảnh hưởng.

Không hỗ trợ Sampling Parameters

Việc thiết lập temperature, top_p, hoặc top_k thành giá trị không mặc định sẽ trả về lỗi 400 trên Claude Opus 4.8, giống như trên Claude Opus 4.7. Hãy bỏ qua các tham số này và sử dụng lời nhắc để hướng dẫn hành vi của mô hình.

Adaptive Thinking là chế độ suy nghĩ duy nhất

Giống như Claude Opus 4.7, Claude Opus 4.8 không hỗ trợ ngân sách tư duy mở rộng. Thiết lập thinking: {"type": "enabled", "budget_tokens": N}trả về lỗi 400. Sử dụng tư duy thích ứng và tham số nỗ lực để kiểm soát độ sâu tư duy.

Python

# Before (Opus 4.6 or earlier)
thinking = {"type": "enabled", "budget_tokens": 32000}

# After (Opus 4.7 and later)
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

Các cải tiến về năng lực

Các khu vực cần cải thiện

So với Claude Opus 4.7, Claude Opus 4.8 hướng đến việc cải thiện hành vi trong các lĩnh vực sau:

Mã hóa tác nhân tầm nhìn dài hạn, bao gồm khả năng xử lý ngữ cảnh dài tốt hơn, ít thao tác nén hơn và khả năng phục hồi sau khi nén tốt hơn.
Hiệu chỉnh nỗ lực suy luận, với hành vi đáng tin cậy hơn ở mỗi mức độ nỗ lực trên nhiều lĩnh vực khác nhau.
Kích hoạt công cụ, giảm thiểu trường hợp bỏ qua lệnh gọi công cụ cần thiết cho tác vụ.

Tư duy thích ứng

Với khả năng tư duy thích ứng được kích hoạt, Claude Opus 4.8 chỉ kích hoạt quá trình suy luận khi đánh giá rằng lượt chơi cần đến nó. Đối với các thao tác tra cứu đơn giản và các bước tác vụ ngắn, nó phản hồi trực tiếp; đối với các vấn đề phức tạp nhiều bước, nó sẽ suy luận trước khi trả lời. Điều này giúp giảm thiểu lãng phí token suy nghĩ trong các tác vụ hai chiều so với Claude Opus 4.7 ở cùng mức độ nỗ lực. Giống như trên Claude Opus 4.7, quá trình suy nghĩ sẽ bị tắt trừ khi bạn thiết lập rõ ràng thinking:{type: "adaptive"} trong yêu cầu của mình.

Những thay đổi về hành vi

Đây không phải là những thay đổi gây ảnh hưởng đến API nhưng có thể yêu cầu cập nhật ngay lập tức.

Sẽ có ít lượt suy nghĩ bị lãng phí hơn ở cùng mức độ nỗ lực khi kích hoạt tư duy thích ứng, bởi vì mô hình sẽ quyết định xem có nên suy nghĩ hay không trong mỗi lượt.
Kích hoạt công cụ tốt hơn. Mô hình ít có khả năng bỏ qua lệnh gọi công cụ cho tác vụ cần thiết, một vấn đề mà một số người dùng đã báo cáo trên Claude Opus 4.7.
Khả năng xử lý nén tốt hơn và chất lượng ngữ cảnh dài hơn. Các chuỗi hành trình dài của tác nhân duy trì được nhiệm vụ với ít sự cố hơn sau khi nén.

Hướng dẫn nâng cấp

Anthropic cung cấp tài liệu Migrating to Claude Opus 4.8 với đầy đủ các bước chuyển đổi và checklist.

Nếu sử dụng:

Claude Code
Agent SDK

thì Claude API Skill có thể tự động áp dụng các bước chuyển đổi này cho codebase hiện có.

So sánh các mô hình mới nhất

Tính năng	Claude Opus 4.8	Claude Sonnet 4.6	Claude Haiku 4.5
Mô tả	Mô hình dòng Opus mạnh nhất của Anthropic dành cho suy luận phức tạp và lập trình AI Agent	Sự kết hợp tốt nhất giữa tốc độ và trí thông minh	Mô hình nhanh nhất với năng lực AI tiệm cận các mô hình hàng đầu
Claude API ID	`claude-opus-4-8`	`claude-sonnet-4-6`	`claude-haiku-4-5-20251001`
Claude API Alias	`claude-opus-4-8`	`claude-sonnet-4-6`	`claude-haiku-4-5`
AWS Bedrock ID	`anthropic.claude-opus-4-8`³	`anthropic.claude-sonnet-4-6`	`claude-haiku-4-5@20251001`
Vertex AI ID	`claude-opus-4-8`	`claude-sonnet-4-6`	`claude-haiku-4-5@20251001`
Giá sử dụng¹	5 USD / 1 triệu token đầu vào 25 USD / 1 triệu token đầu ra	3 USD / 1 triệu token đầu vào 15 USD / 1 triệu token đầu ra	1 USD / 1 triệu token đầu vào 5 USD / 1 triệu token đầu ra
Extended Thinking	Không	Có	Có
Adaptive Thinking	Có	Có	Không
Priority Tier	Có	Có	Có
Độ trễ (Latency)	Trung bình	Nhanh	Nhanh nhất
Cửa sổ ngữ cảnh (Context Window)	1 triệu token⁴	1 triệu token	200.000 token
Đầu ra tối đa	128.000 token	64.000 token	64.000 token
Mốc kiến thức đáng tin cậy	Tháng 1/2026²	Tháng 8/2025²	Tháng 2/2025
Mốc dữ liệu huấn luyện	Tháng 1/2026	Tháng 1/2026	Tháng 7/2025

Ghi chú:

Thông tin giá: Mức giá trên là mức giá của hãng chưa bao gồm các ưu đãi như giảm giá khi sử dụng Batch API hoặc Prompt Caching. Liên hệ Ngọc Thiên One 1900252388 để được tư vấn và báo giá tốt nhất.
Reliable Knowledge Cutoff: Là thời điểm mà kiến thức của mô hình được đánh giá là đầy đủ và đáng tin cậy nhất.
Training Data Cutoff là mốc dữ liệu huấn luyện rộng hơn được sử dụng để đào tạo mô hình.
Claude Opus 4.8 trên Amazon Bedrock: Có sẵn thông qua dịch vụ Claude in Amazon Bedrock sử dụng Messages API endpoint.
Claude Opus 4.8 trên Microsoft Foundry: Chỉ hỗ trợ cửa sổ ngữ cảnh 200.000 token, thay vì 1 triệu token như trên Claude API, Amazon Bedrock và Vertex AI.