数据正被视为未来的重要资源,但除个人信息领域外,围绕数据流通、利用和交易的相关规范与指引仍未完全标准化,数据质量也缺乏权威评估体系。对于AI而言,用于训练的数据规模庞大、覆盖面广,一旦样本本身存在偏差或误差,模型表现就会受到直接影响。更重要的是,数据本身也存在生命周期。
数据会随着时间推移而变化,因此需要持续更新。以餐厅营业信息为例,如果店家调整了休息时间却没有在官网及时更新,用户通过AI获取信息后按原时间前往或预约,就可能扑空。这类问题表面上看发生在AI应用端,根源往往却在数据本身。许多过去被归因于AI的失误,追根究底更可能是数据问题。正如人类入口之物必须是安全食品,AI用于机器学习的数据同样需要具备“安全性”。
韩国于2020年8月实施被称为“数据三法”的《个人信息保护法》《信息通信网法》《信用信息法》修订版,允许经假名化或匿名化处理、无法识别特定个人的数据在一定条件下对外提供和使用。这一制度安排既为数据流通与交易划定了法律边界,也提供了制度保障。要向AI提供充足且高质量的大数据,各参与方都必须更加重视数据质量。此前也曾出现过以外国人疾病资料训练的AI,在韩国实际应用中表现不佳的案例,这从侧面说明了数据质量的重要性。
自2022年启动以来,MyData强调个人应拥有对自身数据的控制权,相应的责任与管理也应更多由个人承担。随着个人对数据价值的认知提升,汇聚而成的数据即便经过去标识化处理,仍可能具备相当高的市场价值。以大学升学咨询企业为例,这类机构掌握升学相关信息,并向考生收费提供咨询服务;其基于历年招生数据和政府推进的招生政策建立录取指导模型,数据在转化为信息与知识的过程中实现增值。
在这一过程中,数据可以被视为一种资产,并可能在财务报表中按照有形资产、无形资产或其他资产等类别进行确认和管理,进而成为折旧或摊销对象。企业也可能在法律允许范围内,将数据使用权推向市场进行交易。
进入AI时代后,几乎所有信息都具备被利用的可能。但当数据被视为可交易标的时,市场逻辑也随之改变。只要能够提升AI性能,即便数据量不大,AI企业也愿意为高价值数据支付高成本。当前,Microsoft、Google、Meta等企业正持续在数据标注环节投入巨额资金。与此同时,市场也需要建立一套能够衡量并有效传导常规数据价值的机制。
仅凭原始数据,第三方往往很难迅速判断其实际价值。企业使用数据开展项目时,在正式分析和解读之前,通常都要先经历大量预处理工作。因此,进入交易环节的数据,应尽可能完成充分预处理,并配套完整的元数据说明;同时,若能以最佳实践形式呈现可创造附加价值的应用案例,数据的可交易性也将显著提升。数据越能被有效转化为信息、知识和洞察,其价值就越高。
韩国数据产业协会2025年发布的《韩国数据产业的现状与未来展望、全球动向》显示,韩国数据交易市场规模已超过30万亿韩元,年均增长率为12.7%。与数据生成量的快速攀升相比,仍处于起步阶段的数据交易市场未来还有进一步加速增长的空间。为应对这一趋势,韩国政府已着手培养工程师级数据交易师,目前累计培养人数已超过1000名。随着市场逐步成熟,各类机构和企业普遍引入数据交易师的阶段也正在临近。
在作者看来,数据与AI正成为企业乃至国家竞争力的核心组成部分。韩国正在形成中的数据交易生态,未来也有望成为全球可资借鉴的案例。