OpenAIは、生物学研究に特化した大規模言語モデル(LLM)「GPT-Rosalind」を発表した。主要な研究ワークフローや公的生物学データベースの活用方法を学習させたのが特徴で、経路提案や薬剤標的の優先順位付けなどを支援する。当面は、米国に本拠を置く機関に提供先を限定する。Ars Technicaが4月16日(現地時間)に報じた。
GPT-Rosalindは、汎用的な科学モデルとは異なり、生物学研究の進め方そのものに合わせて設計したという。OpenAIは、生物学の現場が抱える主な課題として2点を挙げている。
1つは、ゲノムシーケンシングやタンパク質の生化学データが数十年にわたって蓄積され、研究者個人では全体を把握し切りにくくなっていることだ。
もう1つは、分野ごとに用いる技術や専門用語の差が大きく、隣接領域の知見を取り込みにくい点だ。例えば、脳細胞で活性化する遺伝子を調べる遺伝学者にとって、神経生物学の膨大な文献を追い切るのは容易ではないとしている。
OpenAIでライフサイエンス製品を統括するユンユン・ワン氏は記者説明会で、「生物学で一般的なワークフロー50種類をGPT-Rosalindに学習させたほか、主要な公的生物学データベースの活用方法も取り込んだ」と説明した。
同氏によると、追加学習を通じて、有力な生物学的経路の提案や、潜在的な薬剤標的の優先順位付けができるよう設計したという。
さらに、既知の経路や制御メカニズムを基に遺伝型と表現型を結び付け、タンパク質の構造的・機能的な特性も推論できるとした。OpenAIは、生物学的メカニズムの理解を実際の研究に生かすことに重点を置いたとしている。
OpenAIは、LLMに見られがちな、ユーザーの仮説に過度に同調したり、楽観的な回答に寄ったりする傾向の抑制も図ったとしている。不適切な薬剤標的については、否定的な評価を返しやすいよう調整したという。
同社はあわせて、GPT-Rosalindの推論能力と専門家レベルの性能も強調した。推論能力については、複雑な多段階プロセスを実行する力と定義し、専門家レベルの性能については一部ベンチマークの結果を根拠に示した。
一方で、ハルシネーションをどこまで抑えられたかは明らかになっていない。LLMは、結論に至る過程の説明を求められた場合でも、誤った内容をもっともらしく生成することがある。
実運用では、予想外の関連性を見つけ出せるとの前向きな評価が出る可能性がある半面、明らかに誤った提案が混じる余地も残る。
提供は当面、限定的に運用する。OpenAIは、ウイルスの感染力を高める方向でモデルが悪用される可能性を懸念し、配布を慎重に進めている。
現時点では、米国に本拠を置く機関からの申請に限って受け付け、利用対象も別途選定する方針だ。
その一方で、より制限をかけたライフサイエンス研究向けプラグインについては、一般ユーザーにも公開する予定だとしている。ライフサイエンス向け機能を一度に全面開放するのではなく、リスクを切り分けながら段階的に提供する考えだ。
ライフサイエンス分野を狙ったAIモデルは他社も投入しているが、GPT-Rosalindは生物学により焦点を絞った点を打ち出す。ただ、こうした特化戦略が実際に研究効率の向上につながるかどうかは、現場での利用実績を見極める必要がある。