写真=Upstage

Upstageは1月2日、同社の大規模言語モデル「Solar Open 100B」を巡り、中国企業製LLMを複製して微調整したのではないかとの指摘を否定した。ソウル・江南のオフィスで説明会を開き、学習ログやチェックポイントなどの開発データを公開して、一連の疑念に反論した。

Solar Open 100Bは、政府主導の独自ファウンデーションモデル事業の選定対象となっている。パラメータ数は1000億規模だ。

同日の説明会には業界関係者や政府関係者ら約70人が参加した。YouTubeでも同時配信し、同時視聴者数は約2000人だった。Upstageのキム・ソンフン代表は、一連の主張は事実に反するとして謝罪を求めた。

キム代表は、Solar Open 100Bについて「重みをゼロから自社で学習した、フロムスクラッチのモデルだ」と強調した。そのうえで、モデル構造の発想や推論コードの書き方を参考にすることはあり得る一方、他社の学習済みモデルの重みをそのまま使えばフロムスクラッチとは言えないと述べた。

他モデルの重みを再利用した根拠として指摘されたLayerNormの類似性については、「統計的な錯視にすぎない」と反論した。問題視された部分はモデル全体の約0.0004%にとどまり、むしろSolar Openの大部分が他モデルと異なることを示していると主張した。

類似性の判断に使われたコサイン類似度についても、適切な比較基準ではないとした。コサイン類似度はベクトルの方向だけを見る単純な指標で、言語モデルのLayerNormは構造や特性が似通いやすいため、独立して学習したモデル同士でも高い類似度が出ることは珍しくないと説明した。

トークナイザーを他モデルからそのまま流用したとの指摘も否定した。キム代表は、問題となったモデルの語彙数が約15万語なのに対し、Solar Openは19万6000語で、共通語彙は約8万語、比率では41%にとどまると説明した。同系列のトークナイザーであれば通常は70%超が重複するとし、Solar Openが独自に構築した別のトークナイザーであることを示す材料になると述べた。

特定モデルと構造やコードが似ているとの指摘についても、技術的に現実的ではないとした。Upstageを含む主要なオープンソースLLM開発企業は学習用コードを外部に公開しておらず、公開済みのモデルカードや構造説明から研究の方向性を把握することはできても、非公開の学習コードを再利用してモデルを開発したとする主張は成り立ちにくいというのが業界の一般的な認識だと説明した。

特定モデルのコードを流用し、ライセンス表記を改ざんしたとの疑惑についても否定した。Upstageは、より多くの開発者がSolar Openを試せるよう推論コードを公開しており、その過程でサービング互換性を高めるため、Hugging Faceが公開したオープンソースのコードベースの一部を利用したという。いずれも誰でも利用可能なApache 2.0ライセンスに基づく一般的な利用で、ライセンスの出所をより正確に示すため表記を更新したと説明した。

今回の論争は1日、AIスタートアップのScionic AIのコ・ソクヒョン代表が、開発者向けプラットフォームのGitHubで「Solar Open 100Bは中国のZhipu AI『GLM-4.5-Air』を基にした派生モデルだ」と投稿したことをきっかけに広がった。

問題提起が出た時期は、独自ファウンデーションモデル開発事業に参加する5社の一次評価結果が1月中に公表される見通しのタイミングと重なった。一次評価では1社が選考から外れるため、Upstageは対応を急いだ。

AIコミュニティでも、コ・ソクヒョン代表の主張については、Solar Open 100BがGLM-4.5-Airの派生モデルだと断定するには根拠が弱いとの反応が目立った。Kakaoの機械学習研究員、ケビン・ゴ氏も、Solar Open 100BはGLM-4.5-Airの派生モデルではないとする見解を投稿した。

キム代表は「意見を交わす健全な議論は歓迎するが、このような虚偽を断定的に広める行為は、AI分野で世界3強を目指すUpstageと政府の努力の意味を大きく損なう」と述べた。そのうえで「今後も透明性の高い技術公開を通じて世界最高水準の技術力を示し、国内AIエコシステムの拡大に注力する」と語った。

キーワード

#Upstage #Solar Open 100B #LLM #AI #LayerNorm #トークナイザー #Hugging Face #Apache 2.0 #GitHub
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.