写真=Shutterstock

CNBCが14日、Alibaba、ByteDance、Kuaishouなど中国テック企業が新たなAIモデルを相次ぎ発表したと報じた。ロボット向けの認識モデルから動画生成、多言語音声生成、オープンソースLLMまで、各社の投入領域は広がっている。

Alibaba傘下のDAMO Academyは、ロボットの周囲環境の認識と物体識別に対応するAIモデル「RynnBrain」を公開した。公開したデモ動画では、ロボットがオレンジをつかんでかごに入れたり、冷蔵庫から牛乳を取り出したりする様子を示した。

同社によると、RynnBrainは時空間認識能力を強化し、複雑な作業でも安定した性能を発揮できるよう設計したという。Hugging Faceの研究者アディナ・ヤケプは、単純な反応にとどまらず、事象が起きた時点や位置を踏まえて連続的に作業できると評価した。

ByteDanceは、テキスト入力だけで写実的な動画を生成できるAIモデル「Seedance 2.0」を発表した。ユーザーが提供した動画や画像も活用できる。AIコンテンツクリエイターのビリー・ボマンは、「2023年まではAI動画は短く品質も低かったが、今では現実感のある動画を容易に生成できる」とコメントした。なお、Seedance 2.0を巡っては、人物写真を基に音声を生成する機能が論争を呼び、ByteDanceは一部機能の提供を停止した。

Kuaishouは、15秒の写実的な動画と多言語オーディオを生成できる「Kling 3.0」を公開した。Seedance 2.0と競合するモデルと位置付けられ、Kuaishouの株価は最近では50%超上昇した。

このほか、Zhipu AIはコーディング能力を強化したオープンソースの大規模言語モデル「GLM-5」を発表した。MiniMaxも、AIエージェント機能を強化した「M2.5」のオープンソースモデルを披露した。

キーワード

#AI #Alibaba #ByteDance #Kuaishou #ロボティクス #動画生成 #オープンソースLLM #Zhipu AI #MiniMax
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.