OpenAI ngày 21/4 (giờ địa phương) công bố Image 2.0, mô hình tạo ảnh mới cho ChatGPT, với trọng tâm là cải thiện khả năng hiển thị văn bản trong ảnh. Công ty cho biết mô hình này có thể hỗ trợ tốt hơn các tác vụ như thiết kế poster, mockup UI và hình ảnh dạng tài liệu.
Theo TechCrunch và một số hãng tin công nghệ, Image 2.0 đã khắc phục đáng kể hạn chế lâu nay của các mô hình AI tạo ảnh trong việc xử lý chữ. Trước đây, các mô hình dựa trên cơ chế khuếch tán thường mắc lỗi chính tả hoặc sắp xếp chữ thiếu tự nhiên. Cách đây hai năm, ngay cả những yêu cầu đơn giản như tạo hình ảnh thực đơn nhà hàng cũng thường xuất hiện tên món không có thật hoặc chữ sai. Với cùng một yêu cầu, kết quả từ Image 2.0 được đánh giá là khó phân biệt với sản phẩm do con người thiết kế.
Tại buổi briefing, OpenAI không tiết lộ chi tiết cấu trúc của mô hình. Tuy nhiên, công ty cho biết đã bổ sung “khả năng tư duy”, cho phép hệ thống thực hiện tìm kiếm web, tạo nhiều ảnh và tự kiểm chứng kết quả. Nhờ đó, mô hình có thể tạo bản phác thảo marketing với nhiều kích cỡ khác nhau hoặc truyện tranh gồm nhiều khung hình.
Khả năng xử lý văn bản của mô hình cũng được mở rộng sang nhiều hệ chữ ngoài Latin. OpenAI cho biết mức độ hiểu ngữ cảnh và độ chính xác khi hiển thị các ngôn ngữ như tiếng Nhật, tiếng Hàn, tiếng Hindi và tiếng Bengal đã được cải thiện rõ rệt. Theo công ty, người dùng tiếng Hàn có thể tận dụng tốt hơn mô hình này trong những tác vụ đòi hỏi độ chính xác cao về chữ và bố cục, như poster, thông báo hoặc thiết kế UI. Dù vậy, mốc kiến thức của mô hình chỉ được cập nhật đến tháng 12/2025, nên độ chính xác có thể giảm với các yêu cầu liên quan đến tin tức hoặc sự kiện mới.
Trong thông cáo, OpenAI nhấn mạnh Image 2.0 mang lại “mức độ cụ thể và độ trung thực chưa từng có”. Công ty cho biết mô hình có thể tái hiện chữ cỡ nhỏ, biểu tượng, thành phần UI, bố cục phức tạp và các ràng buộc phong cách chi tiết, với độ phân giải đầu ra tối đa 2K.
Đổi lại, tốc độ tạo ảnh sẽ chậm hơn. OpenAI cho biết mô hình khó cho ra kết quả gần như tức thì, nhưng vẫn có thể tạo những hình ảnh phức tạp gồm nhiều khung trong vòng vài phút.
Giới chuyên môn cũng chú ý đến hướng phát triển công nghệ phía sau AI tạo ảnh. Năm 2024, Asmelash Teka Hadgu, CEO của Lesan AI, nhận định rằng các mô hình khuếch tán tập trung học toàn bộ mẫu pixel thông qua cơ chế tái cấu trúc đầu vào, thay vì tối ưu cho những chi tiết nhỏ như chữ trong ảnh. Sau đó, giới nghiên cứu bắt đầu thử nghiệm hướng đi mới với các mô hình tạo ảnh tự hồi quy, tương tự cách vận hành của mô hình ngôn ngữ lớn.
OpenAI đồng thời mở rộng phạm vi tiếp cận của sản phẩm. Từ ngày 22/4, toàn bộ người dùng ChatGPT và Codex có thể sử dụng Image 2.0; trong đó, người dùng trả phí sẽ được tạo ảnh với chất lượng cao hơn. Công ty cũng cung cấp API mang tên gpt-image-2, với mức giá thay đổi tùy theo chất lượng đầu ra và độ phân giải.
Với các nâng cấp này, Image 2.0 được kỳ vọng không chỉ dừng ở vai trò công cụ tạo ảnh thông thường mà còn mở rộng sang các nhu cầu như hình ảnh dạng tài liệu, bản phác thảo marketing và mockup UI, những lĩnh vực đòi hỏi độ chính xác cao của văn bản và khả năng kiểm soát chi tiết.