韩国“自主AI基础模型”项目已进入第二阶段,随着4支团队正式展开研发,“自主性”将如何认定再度成为行业关注焦点。
根据目前安排,LG AI Research、SK Telecom和Upstage将在1月至6月开展研发,新加入第二阶段的Motif Technologies则于2月至7月开展研发工作。4支团队均将在8月初前后接受第二阶段评估,但截至目前,主管部门仍未公布自主性认定的具体细则。
在首轮评审中,韩国科学技术信息通信部提出了三项自主性标准:其一,单纯对海外AI模型进行微调的衍生模型不予认可;其二,若外部编码器权重未重新初始化,而是以冻结(frozen)状态直接使用,也不被视为符合标准;其三,要求从模型设计到预训练全过程实现独立开发,即“from scratch”。
以Naver Cloud为例,该公司基于中国的Alibaba的Qwen模型开发时,直接使用了未重新初始化的视频和音频编码器权重,因此未通过首轮评审。信息通信企划评价院(IITP)项目经理Jeong Hae-dong当时表示,问题在于直接使用冻结状态的编码器,内部据此判断该方案难以认定为自主模型。
对于第二阶段评估,韩国科学技术信息通信部表示,将进一步细化相关标准,但迄今尚未公开具体内容。
首轮评审结束后,韩国科学技术信息通信部第二次官Ryu Je-myeong表示,政府将听取学界、产业界及专家意见,进一步细化“from scratch”的差异化认定方式和评分标准,尽可能降低第二阶段初期的不确定性。人工智能政策室室长Kim Gyeong-man也在相关发布会上表示,主管部门将围绕自主性应评估到何种程度、争议焦点何在等问题,与4支核心团队展开更深入讨论,并同步征求产业界和学界专家意见。
不过,参与企业普遍认为,在研发进度需要加快的情况下,相关标准应尽快明确。
据业内消息,各联合体参与方目前已按“将现有自研技术整合至最终模型”的思路启动研发,但各方在项目中的具体分工及贡献范围尚未最终敲定。一位参与企业人士表示,在标准尚未细化的情况下,研发方向仍存在不确定性。换言之,在自主性认定本就相对模糊的情况下,各参与方的技术方案是否会触碰认定边界也并不清晰,但研发工作已经先行启动。
此外,开源使用的边界也成为争议之一。政府的基本立场是,使用开源方案本身较为普遍,但若直接采用已训练完成的模型权重,则不能视为自主模型。不过在实际研发过程中,这一标准边界仍不清晰。韩国科学技术信息通信部相关人士就开源标准表示,主管部门已经说明了自主性的最低标准,但细则仍将在后续进一步确定。