AI圈吵翻了:到底是大模型吃掉一切,还是Harness才是真护城河?

AI圈吵翻了:到底是大模型吃掉一切,还是Harness才是真护城河?

作者头像
小糖豆呢
2026年3月24日 10:15 天津市

image-20260324100549644

先讲一个金融圈的老争论。

一个交易员,一年纯赚300万美金。问题来了:到底是因为她个人操盘能力极其牛逼,还是因为她坐的那个交易席位,本身就拥有顶级的系统资源、信息渠道和资本规模?

换句话说,换个同样合格的人坐上去,是不是也能赚差不多的钱?

这个“个人能力 vs 系统位置”的争议,最近在AI Agent圈子里,一模一样地吵起来了。

一个Agent表现好,到底是因为底层模型智商碾压,还是因为外围包裹的那层工程架构搭得好?

这背后,是两个正在较劲的技术派系:Big Model派和Big Harness派。

image-20260324100654412

01. 什么是Harness?先讲个马的故事

在说清楚这场争论之前,得先弄明白一个词:Harness。

这个词直译过来,叫“挽具”。就是套在马身上的那套皮具——缰绳、笼头、肚带。它不替马奔跑,也不替马拉车,但它能把马的力量稳定地传递出来,控制方向和节奏。没有这套东西,再烈的马也拉不动一辆车,更别提跟其他马协作。

在AI Agent的体系里,Harness就是Agent的运行时系统。它负责连接各个组件、保护系统、编排整个工作流程,但通常不直接完成核心任务本身。

它是那个“不下场干活”的角色。但它决定了下场干活的家伙,能不能把活儿干利索。

02. 大模型派:模型越强,需要的外挂越薄

image-20260324100810227

先看Big Model派的观点。

以Claude Code为代表。它的主创Boris和CatWu反复强调过一点:他们的Harness被刻意设计成最薄的一层wrapper。主要工作就是尽量别干预模型,让模型自己去发挥全部能力。而且他们认为,只有模型的制造者,才最清楚如何释放模型的能力。

一些测试数据似乎也在支持这个观点。在Scale AI的SWE-Atlas基准测试中,Claude的Opus 4.0模型在SWE-Agent harness下表现稍微好一点,但关键是,这个分差非常小,基本在误差范围之内。

翻译成人话就是:当模型足够强的时候,你选哪种脚手架来编排流程,对最终跑分的影响,可能只是环境噪音级别的差别。

o1推理模型的核心作者Noam Brown讲得更直接。他说,在推理模型出现之前,为了让GPT-4表现出类似推理的能力,工程师们在外围写了大量复杂的重试逻辑、Agent状态循环和prompt。但现在,底层的reasoning model自己就能完成很多推理步骤。如果你还强行塞一堆复杂脚手架进去,反而可能拖慢模型的表现。

模型越强,需要的“套壳”代码就越薄。一旦基座模型迭代升级,你辛辛苦苦写的几万行编排代码,可能很快就会变成历史遗产。

这是Big Model派的底气。

03. Big Harness派:别怪飞行员,是起落架坏了

但另一边,Big Harness派完全不认这个账。

LlamaIndex的创始人Jerry Liu的观点很直接:今天我们已经拥有很强的模型,也拥有很多优秀的工具,但企业真正难解决的问题,从来不是模型够不够聪明,而是你有没有能力把你业务里的上下文,正确地组织并喂给模型

举个最直观的例子。你想用Claude Code去自动处理公司的客户流程,你必须先花大量时间把公司的业务类型、流程规范、权限规则全部写成清晰的文档。一份标准SOP,光是把规则描述清楚,往往就要反复修改和优化几个小时。这件事,模型很难自动帮你完成。

而这,正是Harness的价值所在。

所以你会发现,现在的AI创业公司开始分成两个方向。一种做垂直领域的专属Agent,直接帮用户把工作流程、数据结构和上下文全部打包好,用户进来就能用。另一种做“Context as a Service”,帮企业把内部复杂的文档、销售数据和代码库,整理成Agent可以直接理解和调用的结构化上下文。

Jerry Liu的结论是:未来几乎所有AI产品,本质上都在做两件事——提供上下文,或者提供工作流

还有一个实验特别有意思。

一位开发者维护着一个开源编程Agent,叫Pi。有一天下午,他只改了一件事——没有换模型,没有重新训练任何东西,只是调整了Harness里编辑代码的工具格式

结果非常惊人:15个主流大模型,在他的编程基准测试里全部获得了明显提升。

他的结论很形象:模型出问题,很多时候不是因为它理解不了任务,而是因为它没有合适的“语言”来表达自己。你一直在怪“飞行员”,但其实是“起落架”坏了。

image-20260324100920683

04. 到底谁对?一个正在被重新审视的“苦涩教训”

当然,有一点必须说清楚:Big Harness派想让你押脚手架,Big Model派想让你押模型。两边多少都有点“屁股决定脑袋”。

AI圈其实一直有个调和的说法,叫Compound AI——模型有价值,系统工程也有价值,两边都别吵了。

但这次的情况,可能有点不一样。

技术社区Latent Space最近发了一篇文章,叫《Is Harness Engineering Real?》,专门讨论这场争论。文章里提到一个很有意思的转变。

image-20260324100942777

他们一直非常尊重AI历史上那个著名的“苦涩教训”(Bitter Lesson)。这个教训告诉我们:几乎所有人工设计的精巧策略,最终都会被更大的算力和更强的模型所取代。

但随着Cursor估值突破500亿美元,随着越来越多企业Agent真正落地,他们开始承认:Harness Engineering可能真的有长期价值。那种认为“所有套壳工程最终都会消失”的判断,正在被市场慢慢挑战。

甚至在欧洲的AI Europe人工智能工程大会上,已经正式开设了全球第一个Harness Engineering专属赛道。

不仅是战胜也是共生

说了这么多,到底该怎么看?

我更喜欢那个金融圈例子的结尾:交易员的能力和交易席位的资源,不是谁对谁错的问题,而是谁在什么时候更重要的问题。

同样,今天的AI Agent:

模型是马,Harness是挽具。模型决定能跑多快,Harness决定力量能不能传递出去。

image-20260324101027806

未来AI的竞争,不是Model VS Harness,而是Model × Harness

你觉得呢?押模型还是押架构?评论区聊聊。


你用过Cursor或者Claude Code吗?有没有遇到过“模型很强但就是干不好活”的情况?来聊聊你的经历。

2

全部回复(2

登录后评论
用户头像
美少女战士 #3682
IP属地:天津市 电信 CN 2026-03-24 10:16

模型是马,Harness是挽具。模型决定能跑多快,Harness决定力量能不能传递出去。

用户头像
小糖豆呢 #3683
IP属地:天津市 电信 CN 2026-03-24 10:16
回复 @美少女战士

说的对