Snowflakeは8日(現地時間)、データ移動を最小限に抑えつつ、ガバナンスの簡素化とAIシステムによる企業データへのアクセス改善を進める「データ自律性(data autonomy)」戦略を発表した。プラットフォームをまたいだ相互運用性の強化が柱となる。
同戦略は、組織がデータを別の基盤へ移さなくても、必要な場所からアクセスし、管理・分析できる環境の実現を狙うものだ。
Snowflakeは、従来のアーキテクチャではデータ移動が前提となりやすく、運用の複雑化やセキュリティリスク、コスト増を招くほか、AIワークロードの効率も損なうと指摘している。
中核施策の1つが、Apache Icebergバージョン3への対応拡充だ。Iceberg V3は、JSONやXMLのような半構造化データ向けの「Variant」データ型、地理空間データ型、行レベルのリネージ追跡、削除ベクターによる削除処理の改善、ナノ秒単位のタイムスタンプのサポートなどを含む。
これにより、Snowflakeが管理するテーブルと外部のIcebergカタログの双方で利用でき、環境をまたいでもデータを一貫して扱いやすくなるとしている。
ガバナンス面では、2年前にオープンソースとして公開したApache Polarisを活用する。アクセス制御やセマンティックコンテキストといったガバナンスポリシーを特定のプラットフォームに閉じ込めず、データとともに適用できるよう支援する。
Snowflakeのプロダクト管理ディレクター、ジェームズ・ロールランド=ジョーンズ氏は「現時点で、きめ細かなアクセス制御を適用したデータを外部エンジンと安全に共有する唯一の方法は、APIで中間結果を具体化することだ」と説明。「それでは非効率でコストも高い。Polarisはこの構造を変えようとしている」と述べた。
併せて、Snowflakeが昨年11月に公開したオープンソースのPostgreSQL拡張機能「pg_lake」も今回の発表に含まれる。ETLパイプラインを介さずに、PostgreSQLデータベースからParquetやCSVなどのデータレイク形式を直接参照し、Icebergテーブルへ書き込めるようにする。
このほか同社は、データ移動を追跡するOpenLineageや、指標や次元といったビジネス定義を標準化するOpen Semantic Interchangeにも対応する。AIによるデータ解釈の精度向上を狙う。
同社によると、過去2年間でオープンソースプロジェクトに9000件以上の貢献を行っており、Icebergバージョン4の開発にも参加しているという。