Cisco公布了一项利用生成式AI撰写安全事件响应演练报告的试验结果。结论是,大语言模型能够提升写作效率,但在准确性和稳定性方面仍存在明显风险。
据The Register报道,Cisco Talos事件响应团队高级事件指挥官Nate Fours在一篇博客文章中表示,大语言模型(LLM)在生成篇幅较长的技术文档时,容易出现明显失实、结论异常以及文风不统一等问题。
Talos总结称,LLM在生成此类报告时的主要问题集中在四个方面。其一,同一个问题在不同轮生成中可能引用不同数据,结果难以复现;其二,即便基于相同数据,模型也可能得出不同结论。以数据泄露事件为例,模型有时建议所有员工重置密码,有时又仅建议部分对象重置;其三,文档结构和格式会随着每次生成发生变化;其四,模型可能遗漏部分数据,导致关键信息缺失。
针对上述问题,Talos也总结出了一套改进方法。Cisco表示,如果只让LLM处理报告中的某个具体模块,并围绕单一任务设置提示词,幻觉和内容错误会明显减少。与此同时,提前限定可引用的信息来源,并统一文体和格式要求,也被证明能够提升输出质量。
在这套方法下,Cisco将安全事件响应演练报告初稿的撰写时间缩短了约50%。在后续质量评审中,同侪评审、专业编辑和管理人员在未被告知报告由AI参与生成的情况下,仍给出了正面评价;也有反馈认为,相关报告中的拼写和语法错误明显少于平均水平。
不过,Cisco也发现,如果在同一会话中连续编辑多份报告,前一份报告的内容可能混入下一份报告。Talos因此建议,每撰写一份新报告都应开启新的会话,并重新输入提示词。
此外,Cisco还尝试用提示词让LLM执行拼写和语法检查。但测试结果显示,模型经常会虚构并不存在的语法问题,同时又漏掉真实错误。Cisco称,这一方法的成功率不足50%,因此“并不适合用于实际业务”。
Nate Fours表示,这套方法也可以推广至其他网络安全报告场景。但他同时强调,最终交付的报告必须由撰写者逐句核实并负责;如果缺少人工复核,最终文本可能出现重复、无关甚至不可执行的建议。