AI编程工具普及催热Harness Engineering：让LLM更可控地执行任务

随着AI编程工具加速普及，Harness Engineering这一概念正在开发者社区快速升温。它本质上是在回答“如何把AI用好”这一问题，但其定义和边界并不容易一眼说清。

为厘清这一概念，记者采访了Asteromorph 研究工程师 An Subin。按照他的说法，Harness Engineering可以理解为“给AI工作装上手脚”。据介绍，Asteromorph目前正在开发AI科学家模型。

Harness Engineering一词源自“harness”。从字面看，它有“马具”之意；放在AI语境中，则更强调为模型设定约束、工具和执行框架，使其按照预期方式完成任务。

要理解这一概念，首先需要看清AI任务的基本结构。通常而言，AI执行任务可分为四个部分：大脑，即LLM as brain；规划，即Planning；记忆，即Memory；以及工具使用，即Tool use。前OpenAI研究副总裁Lilian Weng曾在2023年的博客文章《LLM Powered Autonomous Agents》中系统梳理这一框架。在这套机制中，开发者更像是流程设计者，负责告诉LLM做什么、如何做，以及按什么顺序执行。

这些指令主要通过LLM的上下文窗口传递，而不是直接改动模型训练本身。开发者既可以通过系统提示词设定固定规则，也可以借助检索增强生成（RAG）限定信息检索范围；还可以调用搜索、计算器、API、代码执行器、日历等外部工具，并将结果再反馈给LLM；甚至还能够把其他代理的输出继续输入给模型。Harness Engineering所指的，正是围绕这一整套流程进行的设计与编排。

与之相近但外延更广的概念，是“上下文工程（Context Engineering）”。如果说Harness Engineering更强调搭建AI任务的运行环境，那么上下文工程则更聚焦于设计所有会传递给LLM的输入内容。

随着相关方法不断沉淀，Harness Engineering的经验也开始被封装成可复用的“Skill”。An Subin表示，这相当于把编码规范、提示词结构、上下文信息等开发实践中的隐性经验，转化为可以重复调用的显性知识。

今年1月，Vercel推出Skills平台（skills.sh），推动Skill在开发者社区加快传播。在此之前，Anthropic已于2025年12月将Skill格式作为开放标准对外发布。近期，业内还出现了用于“生成Skill的Skill”——“Skill Creator”。这类工具能够分析既有工作模式或提示词，并自动将其打包为可复用的形式。Codex、Claude Code等AI编程工具也通过插件提供了相关能力。

与此同时，开发者群体中也出现了从Skill转向“模型本身”的倾向，以提升AI任务执行效果。部分观点认为，Skill最终仍受限于模型能力，因此AI使用方法正在从“如何控制LLM行动”转向“如何组合模型能力”。

这一变化也推动“多代理（Multi-agent）”概念持续升温，即由多个承担不同角色的代理协同完成任务。其实现方式并不只有一种。Anthropic官方提出的模式是“Orchestrator-Workers（编排者-执行者）”，即由主代理接收任务后再分派给子代理；在目标明确的情况下，AI会自行判断更适合采用哪种工作流模式。除此之外，提示词链、路由、并行化、评估—优化等也都是常见方案。

还有部分开发者提出，“Harness”的时代或许正走向尾声，接下来可能进入“Ralph Wiggum Loop”时代。这一技巧由开发者Geoffrey Huntley于2025年7月提出，名称取自动画《辛普森一家》中的角色Ralph Wiggum。其方法论并不追求复杂流程设计，而是反复执行同一任务，直到满足停止条件，以此获得期望结果。

Seulgi Son sageson@d-today.co.kr

关键词