Cloudera：合成数据可帮助企业降低LLM隐私风险

Cloudera CTO Sergio Gago（图片来源：Sergio Gago的X账号，原推特（Twitter））

数据平台公司Cloudera表示，企业可借助合成数据，降低大语言模型（LLM）应用过程中的隐私风险。

Cloudera指出，AI正加速融入企业运营，LLM已被用于客户支持、数据分析、开发效率提升和知识管理等多个场景。随着AI代理兴起，AI的角色也正从信息检索与推理，进一步延伸至执行实际业务任务。

不过，随着AI应用范围不断扩大，企业对隐私风险的担忧也在升温。用于训练和优化模型的数据，往往来自客服对话、交易明细、运营日志等真实业务记录，其中可能包含个人可识别信息（PII）、受监管数据以及企业特有的业务上下文。

在这一背景下，合成数据被视为兼顾开发效率与数据安全的可行方案。此类数据由算法生成，能够保留真实数据集的关键模式，但不会还原真实记录，从而在减少敏感信息暴露的同时，支持企业推进AI开发和测试。

Cloudera表示，合成数据的用途已不再局限于简单的表格数据生成。如今，企业还可以在不直接使用原始数据的情况下，生成贴近真实业务流程的合成指令数据、合成对话数据、合成工单数据和合成问答数据。

在Cloudera看来，合成数据在企业AI开发中的价值，主要体现在三类场景。

首先是监督微调（Supervised Fine-Tuning，SFT）和领域适配。企业若希望模型在特定行业或业务场景中按预期运行，就需要让模型理解组织内部的专有术语、政策规则、产品目录结构以及升级处理流程等内容。但这类训练数据通常涉及敏感信息，使用限制较多。Cloudera称，合成数据集既能保留真实业务意图和数据格式，又能尽可能降低个人信息暴露风险，为模型训练提供更安全的数据基础。

其次是模型评估。Cloudera指出，企业AI项目的瓶颈往往出现在评估阶段。团队需要在日常问题、边界场景、故障场景以及合规敏感主题等多种情境下测试模型表现。

与人工构造测试任务相比，合成数据能够更快生成覆盖范围更广、且可重复使用的评估数据集。Cloudera表示，若方法得当，这不仅有助于在模型上线前提升企业对其行为表现的信心，也能减少测试过程中对敏感原始数据的依赖。

第三是RAG与AI代理相关的数据治理。Cloudera认为，RAG系统和代理式工作流的效果，高度依赖知识库质量以及测试提示词设计。合成数据可用于生成更接近真实使用情境的查询、变体表达和多轮交互样本，从而更严格地验证检索效果和工具调用行为，减少将真实敏感对话数据直接用于测试的需要。

Cloudera CTO Sergio Gago表示，在经过系统化管理后，合成数据可以成为一项兼顾模型开发与个人信息保护的有效工具。随着LLM和代理式AI部署规模持续扩大，合成数据有望成为企业降低对敏感个人信息依赖的现实选择。

Cloudera Korea负责人Choi Seung-cheol表示，近期接连发生的大规模数据泄露事件，正让韩国企业面临一项现实课题：如何在严格遵守数据安全要求的前提下推进AI创新。合成数据有望在尽可能降低数据安全风险的同时，成为提升AI竞争力的战略手段。

Chi-gyu Hwang delight@d-today.co.kr

关键词