OpenAI vừa ra mắt tính năng tạo ảnh mới ChatGPT Images 2.0. Trong một bài thử nghiệm dựng cảnh đám đông phức tạp theo phong cách “Where’s Wally?”, mô hình này cho thấy lợi thế rõ hơn so với các đối thủ ở khả năng sắp xếp bố cục và cài chi tiết ẩn theo đúng yêu cầu.
Theo Gigazine ngày 22/4 (giờ địa phương), kỹ sư phần mềm Simon Willison đã thử nhiều mô hình AI tạo ảnh bằng cùng một prompt theo phong cách “Where’s Wally?”.
Yêu cầu đặt ra là tạo một cảnh đám đông, trong đó người xem phải tìm ra một con mèo gấu trúc đang cầm bộ đàm. Mục tiêu của bài test không nằm ở việc tạo một bức ảnh đẹp đơn thuần, mà là kiểm tra liệu mô hình có thể giấu một đối tượng cụ thể một cách tự nhiên giữa dày đặc nhân vật và chi tiết hay không.
Với mô hình cũ gpt-image-1 của OpenAI, bức ảnh phần nào gợi được không khí của phong cách gốc nhưng còn hạn chế ở độ chi tiết. Gương mặt và hình thể nhân vật bị nhòe hoặc méo, trong khi chi tiết then chốt là “mèo gấu trúc cầm bộ đàm” cũng không hiện ra đủ rõ. Theo Willison, ngay cả khi quan sát kỹ, người xem vẫn khó xác định được đối tượng cần tìm.
Anthropic cũng được đưa vào phép thử với Claude Opus 4.7. Tuy nhiên, kết quả không cải thiện đáng kể. Mô hình chỉ cho thấy khả năng có mèo gấu trúc xuất hiện trong ảnh, nhưng không xác định rõ cá thể nào đang cầm bộ đàm. Điều này cho thấy hạn chế không chỉ nằm ở khâu tạo ảnh, mà còn ở khả năng thể hiện một chi tiết để người xem có thể thực sự nhận ra.
Các mô hình trong hệ sinh thái Google cũng gặp vấn đề tương tự. Nano Banana 2 dựa trên Gemini đặt một quầy radio nghiệp dư ở giữa ảnh và đưa mèo gấu trúc vào đó, nhưng cách bố trí này thiếu tự nhiên trong tổng thể đám đông. Nano Banana Pro thậm chí đưa một con mèo gấu trúc khổ lớn mặc áo sọc vào vị trí trung tâm, khiến nhân vật bị nhấn quá mạnh thay vì trở thành chi tiết ẩn đúng tinh thần “tìm người trong ảnh”.
Trái lại, ChatGPT Images 2.0 cho ra kết quả khác biệt. Trong ảnh độ phân giải 3840x2160, mô hình đặt con mèo gấu trúc cầm bộ đàm ở góc dưới bên trái một cách khá tự nhiên. Tỷ lệ nhân vật này so với những người xung quanh không quá lớn, không phá vỡ bố cục đám đông nhưng vẫn đủ để người xem có thể tìm ra.
Willison đánh giá đây là kết quả có độ hoàn thiện cao nếu đặt cạnh các mô hình AI tạo ảnh khác hiện nay. Ông cũng nhận xét những bài test có bố cục phức tạp như “Where’s Wally?” là cách kiểm tra hữu ích để đo khả năng mô hình chuyển prompt văn bản thành cấu trúc hình ảnh nhiều lớp và giàu chi tiết.
Về chi phí, lượng token đầu ra để tạo một ảnh vào khoảng 13.342 token, tương đương khoảng 0,4 USD mỗi ảnh.
Kết quả so sánh cho thấy cuộc cạnh tranh trên thị trường AI tạo ảnh không còn dừng ở độ nét hay khả năng mô phỏng phong cách. Trọng tâm đang chuyển sang năng lực dựng cảnh theo chỉ dẫn phức tạp một cách chính xác và tự nhiên. Ở tiêu chí này, mô hình mới của OpenAI đang thể hiện ưu thế trong giai đoạn đầu.