Chi phí triển khai trí tuệ nhân tạo trong doanh nghiệp đang tăng nhanh, buộc nhiều công ty xem xét lại chiến lược sử dụng mô hình AI và có xu hướng chuyển sang các mô hình nhỏ hơn để tiết giảm chi phí. Diễn biến này có thể làm suy yếu lợi thế vốn thuộc về các mô hình lớn.
Theo TechCrunch ngày 9/6 (giờ địa phương), trong giai đoạn đầu, nhiều công ty phát triển mô hình AI có thể giữ chi phí suy luận ở mức thấp nhờ dòng vốn đầu tư dồi dào. Điều đó giúp khách hàng doanh nghiệp tiếp cận các mô hình cao cấp với mức giá thấp hơn chi phí thực tế.
Tuy nhiên, khi AI được đưa vào vận hành trên diện rộng, tổng chi tiêu cho công nghệ này cũng tăng mạnh, khiến doanh nghiệp thận trọng hơn với ngân sách. Ngày càng nhiều công ty cho biết gánh nặng chi phí AI đang lớn dần.
Brian Armstrong, CEO sàn giao dịch tiền số Coinbase của Mỹ, dự báo trong 12-18 tháng tới, khoảng 80% khối lượng công việc sẽ được chuyển sang các mô hình có chi phí thấp hơn tới 99%. Theo ông, nhu cầu AI về cơ bản gần như không có giới hạn, nhưng chỉ khoảng 20% tác vụ thực sự cần đến các mô hình lớn mới nhất.
TechCrunch nhận định nếu kịch bản này xảy ra, bài toán kinh tế của ngành AI có thể thay đổi một cách căn bản.
Đến nay, các công ty cung cấp dịch vụ AI chủ yếu cạnh tranh bằng chất lượng và ưu tiên các mô hình tiên tiến nhất. Nhưng nếu mô hình nhỏ, giá rẻ có thể mang lại chất lượng tương đương, khoản tiết kiệm chi phí đó sẽ gây áp lực trực tiếp lên biên lợi nhuận của những hãng như OpenAI và Anthropic.
Theo TechCrunch, tác động có thể đặc biệt lớn khi cả OpenAI và Anthropic đều đang trong giai đoạn trước IPO. Nếu thị trường chứng minh rằng phần lớn công việc có thể được xử lý bằng mô hình nhỏ, việc chi hàng trăm tỷ USD để huấn luyện các mô hình frontier sẽ ngày càng khó thuyết phục hơn.
Một số doanh nghiệp đã ghi nhận hiệu quả rõ rệt sau khi tăng tỷ trọng dùng mô hình nhỏ. TechCrunch cho biết công ty legaltech Harvey đã hợp tác với nền tảng suy luận Fireworks AI, kết hợp Claude Opus của Anthropic với mô hình mã nguồn mở GLM 5.1 do công ty AI Trung Quốc ZhipuAI phát triển. Kết quả là chi phí suy luận giảm ba lần mà chất lượng không suy giảm.
Gabe Pereira, đồng sáng lập Harvey, cho rằng khái niệm “chất lượng” đang thay đổi, từ việc dùng mô hình mạnh nhất cho mọi tác vụ sang chọn mô hình tạo ra câu trả lời hiệu quả nhất.
TechCrunch cho biết nhiều ý kiến hiện xem đây là cuộc cạnh tranh giữa mô hình độc quyền và mã nguồn mở. Tuy nhiên, trọng tâm thực sự lại nằm ở câu hỏi nên dùng mô hình lớn hay mô hình nhỏ. Theo bài viết, việc chuyển từ GPT-5.5 sang DeepSeek v4 Flash có thể giúp giảm chi phí, trong khi đổi sang GPT-5.4-Mini cũng mang lại hiệu quả tương tự.
Lindy, nền tảng tác nhân AI no-code, là một ví dụ tiêu biểu khi thay mô hình nền tảng từ Anthropic sang DeepSeek v4.
Theo TheNewsStack, Flo Crivello, nhà sáng lập kiêm CEO Lindy, gần đây viết trên mạng xã hội X rằng công ty đã chuyển 100% lưu lượng sang DeepSeek v4. Ông cho biết quyết định này không chỉ giúp Lindy tiết kiệm hàng triệu USD mà còn cải thiện hiệu năng ở một số kịch bản sử dụng cốt lõi. Crivello gọi đây là một thay đổi mang tính cách mạng đối với doanh nghiệp.
Trước đó, Crivello từng cho biết vào tháng 4 rằng chi phí suy luận AI là khoản chi lớn nhất tại Lindy, thậm chí vượt cả chi phí nhân sự. Sau đó, công ty đã đánh giá các mô hình mã nguồn mở trong 6-9 tháng trước khi chọn DeepSeek v4.
Dù vậy, quá trình chuyển đổi không hề đơn giản và phức tạp hơn dự kiến. CEO Lindy nói khối lượng công việc thực tế “nhiều hơn 100 lần so với dự tính”, trong đó các hạng mục lớn bao gồm đánh giá hiệu năng mô hình trong môi trường thực tế và viết lại prompt. Lindy cũng để ngỏ khả năng tiếp tục thay đổi. Theo Crivello, nếu Anthropic giảm mạnh giá ở mô hình tiếp theo, công ty có thể quay lại.
Trong bối cảnh lo ngại về chi phí và bảo mật gia tăng, vai trò của PC như một nền tảng phần cứng để chạy AI cũng được nhấn mạnh hơn. Các công ty bán dẫn đang tăng đầu tư vào chip AI cho PC, trong khi các hãng sản xuất PC cũng đẩy nhanh kế hoạch liên quan và ngày càng nhiều tác nhân AI được triển khai trực tiếp trên thiết bị này.