数据平台公司Cloudera表示,企业可借助合成数据,降低大语言模型(LLM)应用过程中的隐私风险。
Cloudera指出,AI正加速融入企业运营,LLM已被用于客户支持、数据分析、开发效率提升和知识管理等多个场景。随着AI代理兴起,AI的角色也正从信息检索与推理,进一步延伸至执行实际业务任务。
不过,随着AI应用范围不断扩大,企业对隐私风险的担忧也在升温。用于训练和优化模型的数据,往往来自客服对话、交易明细、运营日志等真实业务记录,其中可能包含个人可识别信息(PII)、受监管数据以及企业特有的业务上下文。
在这一背景下,合成数据被视为兼顾开发效率与数据安全的可行方案。此类数据由算法生成,能够保留真实数据集的关键模式,但不会还原真实记录,从而在减少敏感信息暴露的同时,支持企业推进AI开发和测试。
Cloudera表示,合成数据的用途已不再局限于简单的表格数据生成。如今,企业还可以在不直接使用原始数据的情况下,生成贴近真实业务流程的合成指令数据、合成对话数据、合成工单数据和合成问答数据。
在Cloudera看来,合成数据在企业AI开发中的价值,主要体现在三类场景。
首先是监督微调(Supervised Fine-Tuning,SFT)和领域适配。企业若希望模型在特定行业或业务场景中按预期运行,就需要让模型理解组织内部的专有术语、政策规则、产品目录结构以及升级处理流程等内容。但这类训练数据通常涉及敏感信息,使用限制较多。Cloudera称,合成数据集既能保留真实业务意图和数据格式,又能尽可能降低个人信息暴露风险,为模型训练提供更安全的数据基础。
其次是模型评估。Cloudera指出,企业AI项目的瓶颈往往出现在评估阶段。团队需要在日常问题、边界场景、故障场景以及合规敏感主题等多种情境下测试模型表现。
与人工构造测试任务相比,合成数据能够更快生成覆盖范围更广、且可重复使用的评估数据集。Cloudera表示,若方法得当,这不仅有助于在模型上线前提升企业对其行为表现的信心,也能减少测试过程中对敏感原始数据的依赖。
第三是RAG与AI代理相关的数据治理。Cloudera认为,RAG系统和代理式工作流的效果,高度依赖知识库质量以及测试提示词设计。合成数据可用于生成更接近真实使用情境的查询、变体表达和多轮交互样本,从而更严格地验证检索效果和工具调用行为,减少将真实敏感对话数据直接用于测试的需要。
Cloudera CTO Sergio Gago表示,在经过系统化管理后,合成数据可以成为一项兼顾模型开发与个人信息保护的有效工具。随着LLM和代理式AI部署规模持续扩大,合成数据有望成为企业降低对敏感个人信息依赖的现实选择。
Cloudera Korea负责人Choi Seung-cheol表示,近期接连发生的大规模数据泄露事件,正让韩国企业面临一项现实课题:如何在严格遵守数据安全要求的前提下推进AI创新。合成数据有望在尽可能降低数据安全风险的同时,成为提升AI竞争力的战略手段。