OpenAI发布面向生物学研究的大语言模型(LLM)GPT-Rosalind。科技媒体Ars Technica于当地时间16日报道称,这一模型不同于通用型科学模型,其训练重点放在生物学研究本身的工作流程上。
据介绍,GPT-Rosalind主要试图解决生物学研究中的两大现实难题。首先,经过数十年积累,基因组测序和蛋白质相关数据规模极为庞大,单个研究人员已难以全面消化。其次,生物学内部不同细分领域在技术体系和术语使用上差异明显,跨领域阅读文献门槛较高。比如,遗传学研究者在分析脑细胞中被激活的基因时,往往需要面对大量神经生物学文献,理解成本不低。
OpenAI生命科学产品负责人YoonYoon Wang在记者会上表示,团队已让GPT-Rosalind学习生物学领域最常见的50种工作流程,并具备访问主要公共生物数据库的能力。通过进一步训练,该模型被设计用于识别更可能成立的生物通路,并对潜在药物靶点进行优先级排序。
YoonYoon Wang还表示,GPT-Rosalind可以基于已知通路和调控机制,建立基因型与表型之间的关联,并推断蛋白质的结构及功能特征。OpenAI称,公司的重点是将对生物学机制的理解真正用于具体研究环节。
在模型行为控制方面,OpenAI表示,团队正在努力降低大语言模型迎合用户、给出过度乐观答案的倾向,并将模型调整为在面对不合适的药物靶点时作出更明确的否定性判断。公司同时强调GPT-Rosalind具备“推理”与“专家级”能力。其中,“推理”被定义为执行复杂多步骤流程的能力;“专家级”则是依据部分基准测试结果作出的评估。
不过,GPT-Rosalind在多大程度上缓解了幻觉(hallucination)问题,目前仍不明确。即便模型被要求说明结论形成过程,也依然可能编造错误内容。在实际使用中,它既可能被认为识别出了出人意料的关联,也可能提出明显错误的建议。
在开放策略上,OpenAI短期内仍将维持审慎做法。公司表示,考虑到模型存在被滥用、用于提升病毒感染力的风险,目前采取了更为保守的发布方式。现阶段,仅允许总部位于美国的机构提交有限申请,具体开放对象也将进一步筛选。
与此同时,OpenAI称,功能受限的生命科学研究插件将向普通用户开放。相比一次性全面开放生命科学专用能力,公司更倾向于按照风险等级分层、分阶段提供相关功能。
目前,已有其他公司推出面向生命科学领域的AI模型。相比之下,GPT-Rosalind试图通过进一步收窄应用焦点、强化生物学研究导向来实现差异化。不过,这种聚焦策略能否真正提升研究效率,仍有待一线应用结果验证。