Kraftonは4月2日、AIモデルブランド「Raon(ラオン)」を立ち上げ、4つのAIモデルをHugging Faceでオープンソース公開したと発表した。公開したのは、大規模言語モデル(LLM)関連の音声言語モデル、リアルタイム音声対話モデル、テキスト読み上げ(TTS)モデル、ビジョンエンコーダーの4種だ。
「Raon」は「楽しさ」を意味する固有語(固有の言葉)に由来する名称。Kraftonによると、データ収集からモデル学習、性能評価まで、ファウンデーションモデル開発の全工程を自社で一貫して手がけたという。
公開モデルは「Raon-Speech」「Raon-SpeechChat」「Raon-OpenTTS」「Raon-VisionEncoder」の4つ。
Raon-Speechは、テキスト中心の言語モデルを拡張し、音声の理解と生成に対応した音声言語モデル。90億パラメータ規模で、100億パラメータ未満の公開音声言語モデルの中では、英語・韓国語評価で首位の性能を達成したとしている。評価は、音声認識、音声合成、音声ベースの質問応答など7タスク・40ベンチマークの総合結果に基づく。
Raon-SpeechChatは、会話中の割り込みに対応できるフルデュプレックス方式のリアルタイム双方向対話技術を採用したモデルだ。同社によると、双方向対話モデル向けの3種類の評価ベンチマークで、相づち、割り込み処理、応答遅延など13タスク平均でトップクラスの性能を記録した。
Raon-OpenTTSは、公開音声データを学習に用いたTTSモデル。一部データは同社が独自に収集・精製して公開し、学習データ全体もオープンソースとして提供する。
Raon-VisionEncoderは、画像をAIが扱える情報表現へ変換するビジョンエンコーダー。事前学習済みモデルは使わず、自社で学習したという。複数の視覚認識タスクで、Googleのビジョンエンコーダー「SigLIP2」を上回る、または90%超の性能を示したとしている。同技術は、同社の「独自AIファウンデーションモデル」プロジェクトに活用する予定だ。
Kraftonの最高AI責任者(CAIO)、イ・ガンウク氏は「今回のRaonモデルシリーズ公開は、当社のAI技術力を蓄積していく過程の一環だ。学習データや中核モデルをオープンソースで共有し、研究者や開発者が活用できる環境を整えることで、国内AIエコシステムの成長に貢献したい」とコメントした。
Kraftonはこのほか、2025年に個人向けAIアシスタント「KIRA」を発表。2026年3月には、AIエージェントの性能改善に向けた「Terminus-KIRA」技術もオープンソース公開している。