OpenAI đã chính thức giới thiệu ChatGPT Images 2.0 – phiên bản nâng cấp vượt trội của công nghệ tạo ảnh AI được tích hợp trong ChatGPT. Không chỉ dừng lại ở khả năng tạo ảnh từ văn bản (text-to-image), Images 2.0 đánh dấu bước tiến mới với cơ chế suy luận trước khi tạo hình (reasoning-to-image), giúp hình ảnh đạt độ chính xác cao, bố cục hợp lý và sẵn sàng ứng dụng ngay trong công việc thực tế. Hãy cùng khám phá chi tiết những cải tiến nổi bật của công nghệ này trong bài viết dưới đây.

ChatGPT Images 2.0 là gì?

ChatGPT Images 2.0 (hay ImageGen 2.0) là mô hình tạo ảnh AI thế hệ mới được OpenAI công bố vào tháng 4/2026, với những cải thiện đáng kể về hiểu biết thế giới, khả năng tuân thủ hướng dẫn, cũng như tạo ra các chi tiết và độ phức tạp cao như văn bản dày đặc.

Tính năng thinking mode mới được giới thiệu cùng với mô hình đã bổ sung khả năng suy luận và sử dụng công cụ vào quá trình tạo ảnh, cho phép hệ thống:

Tích hợp dữ liệu tìm kiếm web theo thời gian thực
Tạo nhiều hình ảnh từ một prompt duy nhất
Sử dụng hệ thống suy luận để chuyển một yêu cầu đơn giản thành hình ảnh hoàn chỉnh, được nghiên cứu và xây dựng kỹ lưỡng

ChatGPT Images 2.0 là gì? Mô hình tạo ảnh AI thế hệ mới

Hệ thống an toàn cốt lõi áp dụng cho ChatGPT Images 2.0 và thinking mode được xây dựng dựa trên nền tảng tương tự như hệ thống an toàn của phiên bản ChatGPT Images 1.5, đồng thời được bổ sung thêm các lớp bảo vệ nhằm xử lý những rủi ro mới phát sinh khi mô hình ngày càng mạnh mẽ hơn.

ChatGPT Images 2.0 có sẵn trong các gói ChatGPT nào?

ChatGPT Images 2.0 hiện có sẵn cho tất cả các gói người dùng ChatGPT (bao gồm Free, Plus, Pro, Team, Business, Enterprise).

Chi tiết khả năng sử dụng theo gói:

Tất cả người dùng (Free, Plus, Pro, Team, Business, Enterprise): Truy cập phiên bản cơ bản của ChatGPT Images 2.0 để tạo ảnh, chỉnh sửa và sử dụng các tính năng mới như tạo ảnh có chữ.
Người dùng trả phí (Plus, Pro, Business, Enterprise): Được quyền sử dụng “Images with Thinking” (ImageGen 2.0 Thinking), cho phép mô hình suy luận sâu, lập kế hoạch, tạo nhiều ảnh nhất quán (lên đến 8 ảnh), và tìm kiếm web để tạo ảnh chính xác hơn.

Bảng giá mua ChatGPT

ChatGPT Images 2.0 có sẵn trên web, iOS và Android.

Các tính năng chính của ChatGPT Images 2.0

ChatGPT Images 2.0 nổi bật với khả năng “suy nghĩ” (reasoning) trước khi vẽ, cho phép hiểu sâu ngữ cảnh và tạo ảnh chi tiết hơn. Phiên bản này cải thiện vượt trội về khả năng hiển thị văn bản (text rendering) chính xác, bao gồm tiếng Việt, cùng với độ phân giải cao (2K) và khả năng giữ nhất quán nhân vật. Dưới đây là các tính năng chính chi tiết:

Độ chính xác và khả năng kiểm soát cao hơn

ChatGPT Images 2.0 mang đến mức độ chi tiết và độ trung thực chưa từng có trong việc tạo hình ảnh. Không chỉ có khả năng hình dung những ý tưởng phức tạp hơn, mô hình còn hiện thực hóa chúng một cách hiệu quả, với khả năng:

Tuân thủ chính xác yêu cầu
Giữ nguyên các chi tiết được chỉ định
Tái hiện những yếu tố tinh vi mà các mô hình trước đây thường gặp khó khăn

Bao gồm:

Văn bản nhỏ (small text)
Biểu tượng (iconography)
Thành phần giao diện (UI elements)
Bố cục dày đặc (dense compositions)
Các ràng buộc phong cách tinh tế

Đồng thời hỗ trợ độ phân giải lên đến ~2K thông qua API.

Thay vì chỉ tạo ra hình ảnh “gần giống” với ý tưởng ban đầu, ChatGPT Images 2.0 mang lại kết quả chính xác, hoàn thiện và có thể sử dụng ngay trong thực tế.

Ví dụ prompt tạo ảnh chụp màn hình giao diện người dùng:

Ảnh chụp màn hình ChatGPT trong một trình duyệt trên macOS. Người dùng nhập “draw me a dog”, và ChatGPT vẽ một con chó bằng ký tự ASCII. Cửa sổ phía trước là ChatGPT, nhưng màn hình desktop khá lộn xộn với nhiều cửa sổ ngẫu nhiên đang mở (ví dụ: terminal), tất cả nằm ở phía nền.

Cải thiện mạnh mẽ khả năng đa ngôn ngữ

Cho đến nay, các mô hình tạo ảnh của OpenAI hoạt động ổn định hơn với tiếng Anh và các ngôn ngữ sử dụng bảng chữ cái Latin, nhưng kém chính xác hơn với các ngôn ngữ khác, đặc biệt khi nội dung văn bản phức tạp hoặc dày đặc.

ChatGPT Images 2.0 đã vượt qua rào cản này nhờ khả năng hiểu đa ngôn ngữ mạnh mẽ hơn và cải thiện đáng kể trong việc hiển thị các ngôn ngữ không dùng chữ Latin, đặc biệt là:

Tiếng Nhật
Tiếng Hàn
Tiếng Trung
Tiếng Hindi
Tiếng Bengali

Mô hình có thể tạo ra hình ảnh chứa văn bản không phải tiếng Anh không chỉ đúng về mặt hiển thị mà còn mạch lạc về ngôn ngữ.

Điều này không chỉ dừng lại ở việc dịch một vài nhãn, mà còn bao gồm việc tạo ra các sản phẩm hình ảnh hoàn chỉnh, nơi ngôn ngữ trở thành một phần của thiết kế, từ:

Poster
Nội dung giải thích (explainer)
Sơ đồ
Truyện tranh

Nhờ đó, mô hình trở nên hữu ích hơn trên phạm vi toàn cầu, giúp người dùng tạo ra hình ảnh phù hợp với chính ngôn ngữ mà họ sử dụng trong thực tế.

Ví dụ prompt tạo ảnh Nhà sách Ấn Độ:

Tôi muốn tạo một trang tạp chí với hình ảnh chụp thực tế chuyên nghiệp tại một hiệu sách ở Ấn Độ, nơi bán các đầu sách bằng nhiều ngôn ngữ khác nhau được sử dụng tại quốc gia này. Hình ảnh cần thể hiện các bìa sách bằng các ngôn ngữ: Hindi, Bengali, Marathi, Telugu, Tamil, Urdu, Gujarati, Kannada, Odia. Các cuốn sách phải là sách giả định (không có thật), với tiêu đề liên quan đến “nghệ thuật” trong các ngôn ngữ trên, nhưng thiết kế phải giống như bìa sách thật chứ không phải một bộ sưu tập mẫu. Nhà xuất bản phải là “OpenAI”. Tất cả văn bản phải hiển thị rõ ràng. Mục đích của hình ảnh là thể hiện sự đa dạng ngôn ngữ của Ấn Độ. Trang này phải hoàn toàn là hình ảnh, không có tiêu đề hay chữ mô tả bên ngoài. Tỷ lệ khung hình: 1440×2560 (dọc).

Độ tinh tế về phong cách và tính chân thực

ChatGPT Images 2.0 thể hiện sự cải thiện đáng kể về độ trung thực trên nhiều phong cách hình ảnh khác nhau. Mô hình có khả năng nắm bắt tốt hơn những đặc trưng cốt lõi của ảnh chụp thực tế – bao gồm cả những “khuyết điểm nhỏ” tạo nên cảm giác chân thật – cũng như các phong cách như:

Khung hình điện ảnh (cinematic stills)
Pixel art
Manga
Và nhiều ngôn ngữ hình ảnh đặc trưng khác

Tất cả đều được tái hiện với sự nhất quán cao hơn về:

Kết cấu (texture)
Ánh sáng (lighting)
Bố cục (composition)
Chi tiết tinh (fine detail)

Nhờ đó, mô hình có thể tạo ra hình ảnh bám sát phong cách được yêu cầu, thay vì chỉ mô phỏng gần giống như trước đây.

Điều này đặc biệt hữu ích trong:

Thiết kế game (game prototyping)
Storyboard
Sáng tạo nội dung marketing
Tạo tài nguyên theo phong cách hoặc thể loại cụ thể

Ảnh chân thực (Photorealism)

Ví dụ prompt tạo ảnh hội trường giảng đường:

Một giảng đường tại UBC năm 2015, với một giáo sư đang trình chiếu slide về GPT ImageGen 2, phong cách ảnh chân thực. Các slide hiển thị hình ảnh một giáo sư đang trình chiếu về GPT ImageGen 2, và cứ thế lặp lại đệ quy vô hạn.

Phong cách (Styles)

Ví dụ prompt tạo ảnh bảng nhân vật (Character sheet):

Dựa trên tất cả những gì bạn biết về tôi, hãy tạo một bảng nhân vật theo phong cách anime shonen của tôi, với tên là Adele.

Tỷ lệ khung hình linh hoạt

Mô hình mới cũng mang đến sự linh hoạt cao hơn trong cách xuất hình ảnh. Với khả năng hỗ trợ tỷ lệ khung hình từ ngang rộng 3:1 đến dọc cao 1:3, ChatGPT Images 2.0 có thể tạo ra các hình ảnh phù hợp với nhiều định dạng khác nhau như:

Banner ngang
Slide thuyết trình
Poster
Màn hình di động
Bookmark
Nội dung mạng xã hội

Bạn có thể yêu cầu tỷ lệ khung hình mong muốn ngay trong prompt hoặc chọn từ các tùy chọn có sẵn để tạo lại hình ảnh với kích thước mới.

Ví dụ prompt tạo ảnh sách truyện (Storybook):

Một bức ảnh rất cao và hẹp, trong đó có một con đường uốn lượn đi qua các nhân vật và chi tiết mang phong cách truyện thiếu nhi, kèm theo những cụm từ như “chưa phải lúc” (not yet), cho đến khi đi đến một kết thúc thỏa mãn ở phía dưới. Nền ảnh màu trắng, và con đường là một đường nét đen liền mảnh, uốn lượn xuyên suốt.

Hiểu biết thế giới thực

ChatGPT Images 2.0 mang đến khả năng hiểu biết cập nhật hơn về thế giới vào quá trình tạo ảnh, với mốc dữ liệu đến tháng 12/2025, giúp tạo ra các kết quả phù hợp và chính xác hơn về mặt ngữ cảnh. Điều này đặc biệt quan trọng đối với các dạng nội dung như:

Tài liệu giải thích (explainer)
Đồ họa giáo dục
Tóm tắt trực quan

Nơi mà độ chính xác và rõ ràng quan trọng không kém tính thẩm mỹ.

Nhờ khả năng “thông minh” này, mô hình có thể xử lý trọn vẹn toàn bộ quy trình:

Tổng hợp thông tin
Xây dựng nội dung
Sắp xếp bố cục

Với:

Cấu trúc rõ ràng
Khoảng trắng hợp lý
Dòng chảy thị giác mạch lạc

Giúp tạo ra những hình ảnh không chỉ đẹp mà còn có giá trị truyền tải thông tin cao.

Ví dụ prompt tạo ảnh phân tích màu sắc:

Sử dụng bức chân dung này, hãy tạo một sơ đồ phân tích màu sắc cá nhân. Chỉ ra những màu sắc trang phục nào phù hợp với người trong ảnh thông qua so sánh trực quan. Giữ văn bản ngắn gọn và tránh chia đoạn văn.

Đối tác tư duy hình ảnh

Khi chọn chế độ mô hình thinking trong ChatGPT, hệ thống sẽ dành nhiều thời gian hơn và thực hiện nhiều bước xử lý phía sau để hiểu và triển khai yêu cầu một cách toàn diện. Mô hình có thể:

Sử dụng web để tìm thông tin liên quan
Chuyển đổi tài liệu được tải lên thành nội dung trực quan rõ ràng
Phân tích và xây dựng cấu trúc hình ảnh trước khi tạo

Trong chế độ này, ChatGPT Images 2.0 hoạt động như một đối tác tư duy hình ảnh, giúp biến ý tưởng ban đầu thành sản phẩm hoàn chỉnh với ít công sức hơn từ phía người dùng.

Với khả năng suy luận, mô hình còn có thể tạo ra nhiều hình ảnh khác nhau cùng lúc – một bước đột phá trong tạo ảnh trên ChatGPT. Điều này mở ra các quy trình làm việc trước đây khá phức tạp, chẳng hạn:

Một chuỗi trang truyện manga
Bộ ý tưởng thiết kế cho từng phòng trong một ngôi nhà
Nhiều concept poster khác nhau
Bộ hình ảnh mạng xã hội với nhiều tỷ lệ và ngôn ngữ

Thay vì phải tạo từng hình ảnh riêng lẻ và tự ghép lại, bạn có thể yêu cầu một bộ hình ảnh hoàn chỉnh (tối đa 8 ảnh) trong một lần, với sự nhất quán về nhân vật, đối tượng và nội dung, được xây dựng liên kết logic với nhau.

Ví dụ prompt tạo ảnh tài sản mạng xã hội cho cửa hàng matcha:

Những hạn chế của ChatGPT Images 2.0

ChatGPT Images 2.0 là một bước tiến lớn, nhưng chưa phải là hoàn hảo. Mô hình vẫn có thể gặp khó khăn với các tác vụ đòi hỏi hiểu biết đầy đủ và nhất quán về thế giới vật lý, chẳng hạn như: