Databricks cho rằng doanh nghiệp đang dần thay đổi cách triển khai AI, giảm phụ thuộc vào các mô hình SOTA và chuyển sang mô hình nhỏ, chuyên biệt để tối ưu chi phí và tốc độ xử lý trong vận hành thực tế.
Theo SCMP ngày 19/4 (giờ địa phương), trong một cuộc phỏng vấn gần đây, David Meyer, Phó chủ tịch cấp cao của Databricks, cho biết mô hình ngôn ngữ lớn (LLM) không phải lúc nào cũng là lựa chọn phù hợp cho các tác vụ văn phòng thường ngày.
Meyer lấy ví dụ từ bài toán phát hiện lỗi trên hóa đơn. Theo ông, khi yêu cầu một mô hình SOTA tìm ra con số sai, hệ thống thường tự động sửa luôn con số đó thay vì chỉ ra chính xác vị trí lỗi để con người hoặc hệ thống khác xử lý ở bước tiếp theo. Trong môi trường doanh nghiệp, việc xác định đúng mục có vấn đề để chuyển sang quy trình xử lý sau đó thường quan trọng hơn việc AI đưa ra ngay đáp án hoàn chỉnh.
Ông cho rằng hạn chế tương tự cũng xuất hiện trong các tác vụ kỹ thuật. Chẳng hạn, những mô hình mạnh như Claude của Anthropic có thể nổi trội ở lập trình, nhưng chưa chắc hiệu quả bằng các mô hình được huấn luyện bằng dữ liệu chuyên biệt khi xử lý công việc kỹ thuật dữ liệu. Các tác vụ này bao gồm chuyển đổi tập dữ liệu lớn, xử lý giá trị thiếu hoặc giá trị bằng 0. Theo Meyer, ngay cả mô hình AI SOTA cũng không thể làm tốt mọi việc như nhau.
Từ thực tế đó, cách tiếp cận AI trong doanh nghiệp cũng đang thay đổi. Meyer cho biết các mô hình mã nguồn mở cỡ nhỏ, được tinh chỉnh bằng học tăng cường, có thể xử lý tốt những tác vụ cụ thể với chi phí huấn luyện thấp hơn nhiều. Theo ông, cách làm này có thể kéo chi phí xuống thấp hơn nhiều bậc so với việc dùng các mô hình SOTA quy mô lớn.
Xu hướng này cũng thể hiện trong sản phẩm của Databricks. Trợ lý AI Genie, công cụ chuyển ngôn ngữ tự nhiên thành truy vấn dữ liệu, được xây dựng theo kiến trúc kết hợp nhiều tác nhân (agent) và nhiều mô hình AI. Dữ liệu sử dụng cho thấy doanh nghiệp trên thực tế có xu hướng ưu tiên các mô hình nhỏ hơn thay vì mô hình SOTA cỡ lớn. Với số lượng tham số ít hơn, các mô hình này có lợi thế rõ rệt về chi phí và độ trễ.
Meyer nói các mô hình nhỏ cho thời gian tạo token đầu tiên và thời gian phản hồi nhanh hơn đáng kể. Khi dịch vụ được mở rộng lên mức lưu lượng truy vấn mỗi giây rất cao, doanh nghiệp cần những mô hình có chi phí thấp nhưng vẫn đáp ứng được tải xử lý lớn. Điều đó cho thấy tiêu chí lựa chọn mô hình không chỉ nằm ở hiệu năng, mà còn ở tốc độ phản hồi và chi phí vận hành thực tế.
Tuy nhiên, theo Meyer, doanh nghiệp không phải lúc nào cũng có thể ngay lập tức triển khai mô hình vừa rẻ vừa có hiệu năng cao. Ông đánh giá dòng Qwen do Alibaba Cloud phát triển đang thu hút nhiều sự quan tâm, trong bối cảnh các mô hình mã nguồn mở từ Trung Quốc đã cải thiện đáng kể về hiệu năng, độ trễ và chi phí. Dù vậy, việc ứng dụng trong môi trường doanh nghiệp hiện vẫn bị hạn chế bởi rào cản pháp lý và yêu cầu tuân thủ.
Bất chấp những ràng buộc này, tốc độ triển khai AI trong doanh nghiệp vẫn đang tăng lên. Meyer cho biết nhiều công ty muốn đẩy nhanh ứng dụng AI vì lo ngại bị bỏ lại phía sau. Ông nói thêm rằng các doanh nghiệp niêm yết thận trọng hơn khi cân nhắc tác động của khoản đầu tư AI lên báo cáo tài chính, trong khi các doanh nghiệp chưa niêm yết có xu hướng mạnh tay chi tiêu hơn.
Theo Meyer, trọng tâm cạnh tranh trên thị trường AI doanh nghiệp đang dịch chuyển từ cuộc đua mô hình lớn nhất sang khả năng xử lý công việc thực tế nhanh hơn và rẻ hơn. Định hướng của Databricks cũng nghiêng về việc kết hợp đồng thời các mô hình đa dụng quy mô lớn với các mô hình nhỏ chuyên biệt.