Red Hat ngày 23/6 cho biết đang điều chỉnh chiến lược nền tảng cho kỷ nguyên AI agent, với định hướng xây dựng một stack AI mã nguồn mở full-stack, bao trùm từ phần cứng, hạ tầng, lớp suy luận cho đến dịch vụ agent.
Theo Techzine, Red Hat cho rằng bài toán AI trong doanh nghiệp không còn chỉ là tiếp cận mô hình, mà là kiểm soát chi phí và khả năng vận hành ở quy mô lớn. Vì vậy, hãng khuyến nghị doanh nghiệp giảm phụ thuộc vào API bên ngoài và từng bước tự vận hành AI trên chính hạ tầng của mình.
CTO của Red Hat, ông Chris Wright, cho biết đơn giá token AI hiện giảm 75-90% mỗi năm, nhưng lượng token tiêu thụ trong môi trường doanh nghiệp lại tăng hơn 500% mỗi năm. Theo ông, các mô hình suy luận cao cấp sử dụng lượng token cao gấp 10-20 lần mô hình tiêu chuẩn, còn các AI agent tự trị tiếp tục đẩy mức tiêu thụ lên cao hơn khoảng 5 lần nữa.
Ông Wright nhận định việc chỉ dựa vào API bên ngoài và các mô hình độc quyền tiên tiến sẽ khó bền vững cả về tài chính lẫn vận hành trong dài hạn. Muốn kiểm soát chi phí AI, doanh nghiệp cần chuyển từ vị thế chỉ trả tiền để sử dụng dịch vụ sang trực tiếp vận hành AI trên hạ tầng riêng.
Trong bối cảnh đó, Red Hat đặt trọng tâm vào bộ giải pháp “Red Hat AI Enterprise”, được giới thiệu là một stack AI end-to-end dành cho doanh nghiệp.
Theo Red Hat, Red Hat AI Enterprise được xây dựng theo 5 lớp, từ phần cứng đến agent. Ở lớp hạ tầng, Red Hat Enterprise Linux và OpenShift đóng vai trò nền tảng. Ở lớp suy luận, hệ thống sử dụng vLLM, một tiêu chuẩn mã nguồn mở phổ biến, cùng với llm-d, khung suy luận phân tán do Red Hat phát triển.
Công ty cho biết llm-d đã giúp tăng thông lượng xử lý token gấp 3 lần và rút ngắn thời gian phản hồi đầu tiên xuống còn 1/10 chỉ trong một năm.
Ở lớp dịch vụ mô hình, nền tảng này cung cấp MaaS, tức mô hình như một dịch vụ, để các mô hình AI có thể được dùng chung trong nội bộ tổ chức.
Red Hat hiện xác thực và hỗ trợ các mô hình mã nguồn mở như IBM Granite và Mistral. Theo cách tiếp cận này, doanh nghiệp không bị ràng buộc vào một mô hình duy nhất mà có thể lựa chọn nhiều mô hình tùy theo mục đích sử dụng.
Hãng cũng triển khai AI gateway để quản lý tập trung hạn mức token, quyền truy cập theo từng nhóm và mức độ ưu tiên. Mục tiêu là tránh tình trạng các dự án thử nghiệm nhỏ tiêu tốn quá nhiều GPU, làm ảnh hưởng đến các hoạt động cốt lõi.
Ở lớp cao nhất là dịch vụ agent. Ông Wright cho rằng thời điểm các tập đoàn vận hành đồng thời từ hàng nghìn đến hàng chục nghìn agent sẽ sớm trở nên phổ biến. Để đáp ứng xu hướng này, Red Hat áp dụng agentops nhằm gán danh tính số đã được xác thực cho từng agent, đồng thời triển khai quản lý phiên bản và kiểm thử bảo mật tự động.
Về phần cứng, Red Hat theo đuổi cách tiếp cận trung lập, hỗ trợ nhiều bộ tăng tốc khác nhau như Nvidia, AMD và Intel. Với Nvidia, hai bên đang cùng xây dựng AI factory và hỗ trợ trực tiếp GPU Blackwell.
Ông Wright cũng nhấn mạnh khoảng cách giữa mô hình mã nguồn mở và mô hình độc quyền đang thu hẹp nhanh. Nếu Meta Llama 2 mất 8 tháng để đạt mức tương đương ChatGPT giai đoạn đầu, thì DeepSeek-R1 chỉ mất 5 tháng để bắt kịp kể từ khi OpenAI-o1 ra mắt.
Từ đó, ông cảnh báo chiến lược AI phụ thuộc dài hạn vào một nhà cung cấp duy nhất là “rất rủi ro”.