OpenAI được cho là đã lưu hành nội bộ một kỹ thuật tối ưu mới có thể cắt hơn một nửa chi phí suy luận AI. Theo một số nguồn tin, công nghệ này đã được áp dụng cho một phần hệ thống ChatGPT phục vụ người dùng guest, đồng thời giúp giảm đáng kể nhu cầu GPU Nvidia.
Ngày 1/7 (giờ địa phương), Gigazine dẫn lại thông tin từ The Information và một số nguồn tin quốc tế cho biết kỹ thuật trên bắt đầu được nhắc tới trong nội bộ OpenAI từ đầu tháng 6.
Chi phí suy luận là khoản chi phát sinh mỗi khi mô hình AI tạo phản hồi từ đầu vào của người dùng. Với các dịch vụ như chatbot, công cụ lập trình hay API, đây là chi phí vận hành lặp lại liên tục và được xem là yếu tố quan trọng ảnh hưởng trực tiếp tới biên lợi nhuận của các doanh nghiệp AI quy mô lớn.
Theo nguồn tin, các kỹ sư OpenAI đã thông báo với đồng nghiệp rằng họ tìm ra cách cắt hơn một nửa chi phí suy luận nhờ một kỹ thuật tối ưu mới. Phương pháp cụ thể chưa được công bố. Tuy nhiên, khi áp dụng cho nhóm người dùng guest của ChatGPT, số GPU Nvidia cần dùng được cho là giảm còn khoảng 200 GPU.
Thông tin này thu hút sự chú ý của thị trường bởi chi phí suy luận thường phát sinh liên tục trong giai đoạn vận hành dịch vụ, khác với chi phí huấn luyện vốn chủ yếu tập trung theo từng đợt đầu tư lớn. Trong khi đó, suy luận lại gắn với từng lượt hội thoại, từng yêu cầu API và các tác vụ của AI agent. Nếu chỉ nhờ tối ưu phần mềm mà vẫn có thể cắt mạnh mức sử dụng GPU ở phân khúc miễn phí, hiệu quả tiết kiệm chi phí vận hành có thể lớn hơn nhiều so với việc chỉ đàm phán lại hợp đồng phần cứng.
Áp lực chi phí của OpenAI trước đó cũng nhiều lần được thị trường nhắc tới. Nhà phân tích Edward Zitron từng ước tính công ty có thể đã chi hơn 5 tỷ USD cho suy luận chỉ trong nửa đầu năm 2025, cao hơn đáng kể so với doanh thu dự kiến cùng kỳ.
Giới quan sát hiện cũng chú ý tới loại tối ưu mà OpenAI có thể đã sử dụng. Một số giả thuyết cho rằng nền tảng của việc giảm chi phí nằm ở hiệu quả khai thác máy chủ, với các khả năng như xử lý theo lô hiệu quả hơn, tăng khả năng tái sử dụng bộ nhớ đệm, lượng tử hóa mô hình, hoặc chuyển các truy vấn đơn giản sang mô hình có chi phí thấp hơn. Dù vậy, đây mới chỉ là suy đoán từ bên ngoài và chưa xác nhận được tổ hợp kỹ thuật thực tế.
Hiện phạm vi áp dụng dường như vẫn còn hẹp. Nguồn tin cho biết mục tiêu trước mắt mới chỉ là một phần xử lý của ChatGPT dành cho người dùng guest. Chưa rõ kỹ thuật tương tự đã được áp dụng cho tài khoản miễn phí hoặc trả phí hay chưa. Thị trường đang theo dõi liệu OpenAI có mở rộng cách làm này ra toàn bộ dịch vụ và danh mục API hay không.
Nếu có thể nhân rộng, OpenAI sẽ có thêm dư địa lựa chọn. Một số nhận định cho rằng công ty có thể hạ giá dịch vụ hoặc tiếp nhận thêm các tác vụ agent mà chưa cần mua thêm chip. Trong bối cảnh cuộc đua giành trung tâm dữ liệu và chip AI ngày càng gay gắt, chiến lược nâng hiệu suất trên hạ tầng hiện có được đánh giá là có ý nghĩa lớn về mặt chi phí.
Diễn biến này cũng cho thấy OpenAI có thể giảm chi phí vận hành dịch vụ mà không cần tăng mạnh đầu tư phần cứng mới. Nếu công ty làm rõ thêm về kỹ thuật cũng như phạm vi triển khai, chính sách giá của ChatGPT, hạn mức sử dụng miễn phí và chiến lược đầu tư hạ tầng AI có thể tiếp tục thay đổi.