Databricks ngày 16/6 (giờ địa phương) công bố kiến trúc dữ liệu mới mang tên LTAP, kết hợp xử lý giao dịch và phân tích trên cùng một nền tảng dữ liệu nhằm phục vụ các AI agent. Công ty đồng thời giới thiệu Lakehouse//RT, công cụ phân tích thời gian thực có độ trễ ở mức mili giây.
Tại hội nghị thường niên Data+AI Summit ở San Francisco, Databricks cho biết kiến trúc Lake Transactional/Analytical Processing (LTAP) cho phép hợp nhất dữ liệu giao dịch và dữ liệu phân tích trên data lake, thay vì phải tách riêng các hệ thống như mô hình truyền thống.
Theo công ty, LTAP có thể xử lý đồng thời tác vụ vận hành và phân tích trên cùng một bộ dữ liệu lưu trong data lake. Ứng dụng, hệ thống phân tích và AI agent vì vậy có thể truy cập cùng một nguồn dữ liệu. Mô hình này cũng loại bỏ nhu cầu xây dựng pipeline CDC (Change Data Capture), quy trình ETL (Extract, Transform, Load) để chuyển dữ liệu vận hành sang hệ phân tích, cũng như không cần duy trì các cơ sở dữ liệu sao chép.
Databricks cho rằng AI agent cần khả năng đọc, phân tích và thực thi gần như theo thời gian thực, trong khi kiến trúc dữ liệu truyền thống không còn đáp ứng tốt nhu cầu này.
Theo SiliconANGLE, ông Shanku Niyogi, Phó chủ tịch phụ trách quản lý sản phẩm của Databricks, nhận định: “Agent phải phân tích và thực thi nhanh hơn con người. Điều đó đang biến data stack thành nút thắt cổ chai.”
Doanh nghiệp lâu nay thường vận hành riêng hệ thống xử lý giao dịch và hệ thống phân tích. Các ứng dụng vận hành ghi dữ liệu vào cơ sở dữ liệu giao dịch, trong khi hệ phân tích sử dụng các bản sao dữ liệu được chuyển qua ETL và các pipeline CDC. Databricks cho rằng cấu trúc này làm tăng độ trễ, độ phức tạp và gánh nặng quản trị, đặc biệt khi số lượng ứng dụng AI ngày càng nhiều.
Ông Niyogi cho biết một khách hàng của hãng là một ngân hàng lớn hiện vận hành hàng trăm nghìn cơ sở dữ liệu PostgreSQL và phải dùng pipeline CDC riêng cho từng hệ thống để đưa dữ liệu vào lake.
LTAP được xây dựng trên Lakebase, nền tảng cơ sở dữ liệu mà Databricks ra mắt năm ngoái. Nền tảng này ghi trực tiếp dữ liệu giao dịch vào các định dạng cột mở như Delta Lake và Apache Iceberg, đồng thời vẫn tương thích với PostgreSQL.
Databricks cũng giới thiệu Lakehouse//RT, công cụ phân tích thời gian thực mới. Dựa trên công cụ thực thi Raiden, công ty cho biết các truy vấn quy mô nhỏ có thể đạt độ trễ thấp tới 10 mili giây, trong khi truy vấn lớn ở mức dưới 100 mili giây.
Theo Databricks, LTAP sẽ được cung cấp dưới dạng bản nâng cấp cho khách hàng Lakebase. Trong khi đó, Lakehouse//RT hiện ở giai đoạn beta và khách hàng Lakehouse hiện tại có thể sử dụng trong gói thuê bao sẵn có.