韩国科学技术信息通信部7日表示,将联合韩国智能信息社会振兴院(NIA)发布“AI训练数据再利用(Upcycling)”项目公告,对AI Hub既有训练数据进行再加工,使其更好适应生成式AI技术发展需求。
该项目将对截至2022年建成的AI Hub 691类数据进行全面分析,并在外部专家评审基础上最终选定30类。其中,LLM和物理AI领域各15类,项目规模为30亿韩元。韩国科学技术信息通信部表示,与从零构建新数据相比,此举有望在相同预算下进一步提升政策资金使用效率。
在LLM数据方面,项目将在既有文本数据基础上,补充“提问—依据审查—错误验证—答案确认”等推理过程,将数据重构为可支持多路径判断和自我验证训练的形态,而不再局限于单一标准答案。
在物理AI数据方面,项目将把现有图像和视频数据升级为融合视觉信息(V)、语言指令(L)以及行为与控制(A)的统一数据结构,使相关训练能力从单纯识别对象,扩展至理解随时间变化的情境、把握对象之间的交互关系,并据此生成面向目标的行动。
韩国科学技术信息通信部人工智能基础设施政策官Choi Dong-won表示,通过此次项目,即便在较低成本下,也有望获得符合最新生成式AI技术环境的AI训练数据,同时提升既有数据资产的利用价值,减少资源闲置和重复投入。
记者信息