评测 · 模型
当龙虾的大脑:6 款模型怎么选最划算
OpenClaw 本身不带智商,它只是个会调工具、会循环执行的壳,真正干活的是你给它接的大模型。换个模型,同一只龙虾的表现能差出一截。所以“接哪个模型”是装好之后最该想清楚的事。这篇我们拿 6 款常见模型,按智能体真正吃重的几项横向比了一遍,再按预算、隐私、能力三条线给推荐。
智能体看模型,跟聊天不一样
平时聊天,模型会不会写诗、能不能逗你笑很重要;但当大脑时,最关键的是这三项:
- 工具调用稳定性:能不能按规矩调工具、参数不乱编。这一项崩了,再聪明也白搭。
- 长任务连贯性:十几步的活,中途记不记得自己在干嘛、错了会不会自己纠。
- 中文表现:理解中文指令、读中文网页不丢信息。
再叠上成本,就是下面这张表的四个维度。
6 款模型对比榜
⚠️ 下面是编辑部的主观档位,不是官方跑分。每一格给的是定性强弱(强 / 中上 / 中 / 偏弱),我们不打精确分数,因为没有谁做过这几款模型的统一官方基准。这是截至 2026-06 的编辑部观点,会随版本更新,口径和 AI 模型榜一致,方法写在 关于页。模型名做了泛化处理,对应市面上的几类。
| # | 模型(类型) | 工具调用 | 长任务 | 成本 |
|---|---|---|---|---|
| 1 | 旗舰闭源 A(API) | 强 | 强 | 较贵 |
| 2 | 旗舰闭源 B(API) | 强 | 中上 | 中等 |
| 3 | 国产旗舰 C(API) | 中上 | 中上 | 便宜 |
| 4 | 开源大杯 D(本地 70B) | 中上 | 中 | 本地免费 |
| 5 | 开源中杯 E(本地 14B) | 中 | 中 | 本地免费 |
| 6 | 开源小杯 F(本地 7B) | 偏弱 | 偏弱 | 本地免费 |
注:成本列里“本地免费”指没有 API 费用,但本地大模型吃显卡、有硬件门槛,详见硬件要求。
逐档说人话
旗舰闭源 A / B:能力天花板
复杂、多步、容错低的活交给它们最省心,工具调用几乎不出格、长任务也接得住。代价是按用量花钱,且数据要发出去。适合“任务价值高、不差这点 token 钱”的场景。
国产旗舰 C:性价比甜区
中文是它的主场,体感甚至反超闭源旗舰,工具调用也够稳,价格还便宜不少。日常中文为主的自动化,这档往往最划算。
开源 D / E:隐私党的主力
本地跑、数据不出门、长期零 API 费。70B 那档接近闭源中游,但要好显卡;14B 那档普通游戏显卡能带,做归类、抓数据这类活够用,复杂任务会偶尔掉链子。
开源小杯 F:能跑,但别指望太多
7B 模型胜在低配机也能动,但工具调用稳定性明显下滑,多步任务容易自己绕晕。当玩具体验、跑极简任务可以,正经活别靠它。
🦞 实际体会
拿一个固定的小任务(比如「打开本地一个 CSV,按某列分组求和,结果写回新文件」)多跑几遍对比,换脑的差距非常直接:旗舰闭源模型基本每次都稳、步数也短;国产旗舰也很可靠,偶尔会多绕一步;本地 14B 大多数能成,失败往往栽在第一步把列号数错;本地 7B 成功率明显偏低,容易调错工具或循环卡死。任务越规整、容错越高,越能往下选小模型;越复杂越该上旗舰。
按你的情况选
- 预算优先 / 中文为主:国产旗舰 C,便宜、中文强、调用稳,日常自动化首选。
- 隐私优先 / 数据不能出门:本地开源 D 或 E,配合 OpenClaw 自托管,全程离线。显卡够就上 70B,一般机器选 14B。
- 能力优先 / 任务复杂:旗舰闭源 A,贵但稳,关键活别省这个钱。
- 纯尝鲜 / 低配机:本地 7B 先跑通流程,体验过再升级。
下一步
选好脑子,去看怎么把它接进龙虾——接 API 还是接本地模型讲了两条路的取舍;接本地模型前先对一眼硬件要求,别买了模型带不动。整套部署流程在本地部署教程。
常见问题
- 给智能体选模型,最该看哪个指标?
- 工具调用稳定性。智能体靠调工具干活,这项不稳,模型再聪明也会在执行里翻车。其次是长任务连贯性和成本。
- 预算有限,本地模型够用吗?
- 归类、抓数据、简单批处理这类,14B 量级本地模型基本够,还零 API 费、数据不出门。复杂多步任务则闭源旗舰成功率更高。
- 这些档位能当官方排名看吗?
- 不能。这是编辑部用同一套任务自己跑出来的主观档位排序,不是精确分数、也没有官方基准,口径见关于页,仅供参考。