写真=2025年末に米ラスベガスで開催されたAWS「re:Invent 2025」で、「Marengo 3.0」を紹介するTwelveLabsのイ・ジェソンCEO

TwelveLabsは7月1日(現地時間)、シリーズBラウンドで1億ドルを追加調達したと発表した。動画をネイティブに理解するマルチモーダル基盤モデルの開発を加速するとともに、Amazon Web Services(AWS)との協業も拡大する。

今回の資金調達はNEAとNaver Venturesが共同で主導した。Amazon、Radical Ventures、韓国投資パートナーズ、Index Ventures、Kadriyu Capital、Red Bull Venturesも参加した。これにより、同社の累計調達額は2億700万ドルを超えた。

共同創業者でCEOのイ・ジェソン氏は、「5年前、機械知能の基盤は言語ではなく、動く実世界の記録にあるという発想から出発した」と説明。「言語は理解の結果として生まれる副産物であり、動画こそ理解が向き合うべきデータだ」と述べた。

TwelveLabsは、動画理解に特化した基盤モデルの開発を進めてきた。単に動画を処理対象に加えた大規模言語モデル(LLM)ではなく、動画そのものをネイティブに理解するマルチモーダルモデルの構築を目指しているという。

主力製品は「Marengo」シリーズと「Pegasus 1.5」だ。

同社によると、2025年末に投入した「Marengo 3.0」は、動画、音声、テキストなどの情報を実世界に対応づけた埋め込み表現に変換する。多様なコンテンツを機械可読なデータ構造へ変換することで、AIモデルが大規模に情報を理解し、検索できるようにする。

「Pegasus」はMarengoと連携して動画を構造化データに変換する。シーンの切り替わりや登場オブジェクト、時間区間、出来事などを把握し、LLMが視覚情報を基に推論できるようにする。膨大な文書や画像をマークアップして要約・整理し、理解しやすくする手法に近いとしている。

同社は、既存のLLMは動画全体を一度に処理することが難しく、複数のスクリーンショットに分割して推論する必要があると説明する。これに対し、問い合わせのたびに失われない記憶を維持し、時間の流れをネイティブに理解する推論能力を構築したとしている。

こうした技術を基に、機械が動画を分析・検索し、実務で活用できる新たな動画認識の枠組みを主導する考えだ。

AWSとの連携も強化する。今回の出資にあわせて、動画推論ワークロードをAWSのAIチップ「Trainium」向けに最適化する複数年契約を締結した。今後の新たな基盤モデルについても、AWSで先行提供する予定だ。

キーワード

#TwelveLabs #AWS #生成AI #基盤モデル #マルチモーダル #動画理解 #LLM #Trainium
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.