Snowflake mở rộng kiến trúc dữ liệu mở cho AI không cần di chuyển dữ liệu

Snowflake ngày 8/4 (giờ địa phương) công bố chiến lược “data autonomy”, với mục tiêu hạn chế tối đa việc di chuyển dữ liệu giữa các nền tảng, đồng thời đơn giản hóa quản trị và cải thiện khả năng tiếp cận dữ liệu của các hệ thống AI trong doanh nghiệp.

Theo Snowflake, chiến lược này hướng đến việc giúp các tổ chức có thể truy cập, quản lý và phân tích dữ liệu ở nhiều môi trường khác nhau mà không cần phải chuyển dữ liệu qua lại giữa các hệ thống.

Công ty cho rằng kiến trúc dữ liệu truyền thống thường buộc doanh nghiệp phải di chuyển dữ liệu, từ đó làm tăng độ phức tạp trong vận hành, chi phí và rủi ro bảo mật, đồng thời làm giảm hiệu quả của các tác vụ AI.

Một trọng tâm trong kế hoạch là mở rộng hỗ trợ Apache Iceberg V3. Iceberg V3 bổ sung kiểu dữ liệu Variant cho dữ liệu bán cấu trúc như JSON và XML, hỗ trợ dữ liệu không gian địa lý, truy vết nguồn gốc dữ liệu ở cấp hàng, cải thiện thao tác xóa thông qua deletion vector và hỗ trợ mốc thời gian với độ chính xác tới nano giây. Snowflake cho biết các tính năng này áp dụng cho cả bảng do hãng quản lý lẫn các catalog Iceberg bên ngoài, qua đó giúp dữ liệu có thể được sử dụng linh hoạt giữa nhiều môi trường.

Snowflake cũng mở rộng khả năng chuyển đổi của lớp quản trị dữ liệu. Công ty tận dụng Apache Polaris, dự án mã nguồn mở được giới thiệu cách đây hai năm, để các chính sách quản trị như kiểm soát truy cập và ngữ nghĩa đi kèm dữ liệu không bị khóa trong một nền tảng cụ thể mà có thể đi cùng dữ liệu.

James Rowland-Jones, Giám đốc quản lý sản phẩm của Snowflake, cho biết hiện nay cách duy nhất để chia sẻ dữ liệu an toàn với cơ chế kiểm soát truy cập chi tiết cho các engine bên ngoài là sử dụng API để trích xuất các kết quả trung gian. Theo ông, cách làm này kém hiệu quả và tốn kém, và Snowflake đang muốn thay đổi cách tiếp cận đó thông qua Polaris.

Thông báo lần này cũng bao gồm pg_lake, tiện ích mở rộng PostgreSQL mã nguồn mở được Snowflake công bố vào tháng 11 năm ngoái. Công cụ này cho phép cơ sở dữ liệu PostgreSQL truy vấn trực tiếp các tệp Parquet, CSV trong data lake và ghi dữ liệu vào bảng Iceberg mà không cần thông qua pipeline ETL.

Snowflake đồng thời cho biết sẽ hỗ trợ các tiêu chuẩn mới như OpenLineage để theo dõi quá trình di chuyển dữ liệu, và Open Semantic Interchange để chuẩn hóa các định nghĩa kinh doanh như chỉ số và dimension dữ liệu. Theo công ty, đây là một phần trong nỗ lực giúp AI diễn giải dữ liệu tốt hơn.

Snowflake cho biết đã thực hiện hơn 9.000 lượt đóng góp cho các dự án mã nguồn mở trong hai năm qua, đồng thời đang tham gia phát triển Iceberg phiên bản 4.

Chi-gyu Hwang delight@d-today.co.kr

Snowflake mở rộng kiến trúc dữ liệu mở cho AI không cần di chuyển dữ liệu

Chiến lược “data autonomy” tập trung tăng khả năng tương thích và đơn giản hóa quản trị dữ liệu

Đang tạo...

Tóm tắt AI

Snowflake công bố chiến lược “data autonomy” nhằm hạn chế tối đa việc di chuyển dữ liệu, đơn giản hóa quản trị và giúp hệ thống AI trong doanh nghiệp tiếp cận dữ liệu hiệu quả hơn.

Từ khóa