AI圈吵翻了：到底是大模型吃掉一切，还是Harness才是真护城河？

先讲一个金融圈的老争论。

一个交易员，一年纯赚300万美金。问题来了：到底是因为她个人操盘能力极其牛逼，还是因为她坐的那个交易席位，本身就拥有顶级的系统资源、信息渠道和资本规模？

换句话说，换个同样合格的人坐上去，是不是也能赚差不多的钱？

这个“个人能力 vs 系统位置”的争议，最近在AI Agent圈子里，一模一样地吵起来了。

一个Agent表现好，到底是因为底层模型智商碾压，还是因为外围包裹的那层工程架构搭得好？

这背后，是两个正在较劲的技术派系：Big Model派和Big Harness派。

01. 什么是Harness？先讲个马的故事

在说清楚这场争论之前，得先弄明白一个词：Harness。

这个词直译过来，叫“挽具”。就是套在马身上的那套皮具——缰绳、笼头、肚带。它不替马奔跑，也不替马拉车，但它能把马的力量稳定地传递出来，控制方向和节奏。没有这套东西，再烈的马也拉不动一辆车，更别提跟其他马协作。

在AI Agent的体系里，Harness就是Agent的运行时系统。它负责连接各个组件、保护系统、编排整个工作流程，但通常不直接完成核心任务本身。

它是那个“不下场干活”的角色。但它决定了下场干活的家伙，能不能把活儿干利索。

02. 大模型派：模型越强，需要的外挂越薄

先看Big Model派的观点。

以Claude Code为代表。它的主创Boris和CatWu反复强调过一点：他们的Harness被刻意设计成最薄的一层wrapper。主要工作就是尽量别干预模型，让模型自己去发挥全部能力。而且他们认为，只有模型的制造者，才最清楚如何释放模型的能力。

一些测试数据似乎也在支持这个观点。在Scale AI的SWE-Atlas基准测试中，Claude的Opus 4.0模型在SWE-Agent harness下表现稍微好一点，但关键是，这个分差非常小，基本在误差范围之内。

翻译成人话就是：当模型足够强的时候，你选哪种脚手架来编排流程，对最终跑分的影响，可能只是环境噪音级别的差别。

o1推理模型的核心作者Noam Brown讲得更直接。他说，在推理模型出现之前，为了让GPT-4表现出类似推理的能力，工程师们在外围写了大量复杂的重试逻辑、Agent状态循环和prompt。但现在，底层的reasoning model自己就能完成很多推理步骤。如果你还强行塞一堆复杂脚手架进去，反而可能拖慢模型的表现。

模型越强，需要的“套壳”代码就越薄。一旦基座模型迭代升级，你辛辛苦苦写的几万行编排代码，可能很快就会变成历史遗产。

这是Big Model派的底气。

03. Big Harness派：别怪飞行员，是起落架坏了

但另一边，Big Harness派完全不认这个账。

LlamaIndex的创始人Jerry Liu的观点很直接：今天我们已经拥有很强的模型，也拥有很多优秀的工具，但企业真正难解决的问题，从来不是模型够不够聪明，而是你有没有能力把你业务里的上下文，正确地组织并喂给模型。

举个最直观的例子。你想用Claude Code去自动处理公司的客户流程，你必须先花大量时间把公司的业务类型、流程规范、权限规则全部写成清晰的文档。一份标准SOP，光是把规则描述清楚，往往就要反复修改和优化几个小时。这件事，模型很难自动帮你完成。

而这，正是Harness的价值所在。

所以你会发现，现在的AI创业公司开始分成两个方向。一种做垂直领域的专属Agent，直接帮用户把工作流程、数据结构和上下文全部打包好，用户进来就能用。另一种做“Context as a Service”，帮企业把内部复杂的文档、销售数据和代码库，整理成Agent可以直接理解和调用的结构化上下文。

Jerry Liu的结论是：未来几乎所有AI产品，本质上都在做两件事——提供上下文，或者提供工作流。

还有一个实验特别有意思。

一位开发者维护着一个开源编程Agent，叫Pi。有一天下午，他只改了一件事——没有换模型，没有重新训练任何东西，只是调整了Harness里编辑代码的工具格式。

结果非常惊人：15个主流大模型，在他的编程基准测试里全部获得了明显提升。

他的结论很形象：模型出问题，很多时候不是因为它理解不了任务，而是因为它没有合适的“语言”来表达自己。你一直在怪“飞行员”，但其实是“起落架”坏了。

04. 到底谁对？一个正在被重新审视的“苦涩教训”

当然，有一点必须说清楚：Big Harness派想让你押脚手架，Big Model派想让你押模型。两边多少都有点“屁股决定脑袋”。

AI圈其实一直有个调和的说法，叫Compound AI——模型有价值，系统工程也有价值，两边都别吵了。

但这次的情况，可能有点不一样。

技术社区Latent Space最近发了一篇文章，叫《Is Harness Engineering Real?》，专门讨论这场争论。文章里提到一个很有意思的转变。

他们一直非常尊重AI历史上那个著名的“苦涩教训”（Bitter Lesson）。这个教训告诉我们：几乎所有人工设计的精巧策略，最终都会被更大的算力和更强的模型所取代。

但随着Cursor估值突破500亿美元，随着越来越多企业Agent真正落地，他们开始承认：Harness Engineering可能真的有长期价值。那种认为“所有套壳工程最终都会消失”的判断，正在被市场慢慢挑战。

甚至在欧洲的AI Europe人工智能工程大会上，已经正式开设了全球第一个Harness Engineering专属赛道。

不仅是战胜也是共生

说了这么多，到底该怎么看？

我更喜欢那个金融圈例子的结尾：交易员的能力和交易席位的资源，不是谁对谁错的问题，而是谁在什么时候更重要的问题。

同样，今天的AI Agent：

模型是马，Harness是挽具。模型决定能跑多快，Harness决定力量能不能传递出去。

未来AI的竞争，不是Model VS Harness，而是Model × Harness。

你觉得呢？押模型还是押架构？评论区聊聊。

你用过Cursor或者Claude Code吗？有没有遇到过“模型很强但就是干不好活”的情况？来聊聊你的经历。

01. 什么是Harness？先讲个马的故事

02. 大模型派：模型越强，需要的外挂越薄

03. Big Harness派：别怪飞行员，是起落架坏了

04. 到底谁对？一个正在被重新审视的“苦涩教训”

不仅是战胜也是共生

全部回复（2）

参与讨论