给智能体选模型，最该看哪个指标？

工具调用稳定性。智能体靠调工具干活，这项不稳，模型再聪明也会在执行里翻车。其次是长任务连贯性和成本。

预算有限，本地模型够用吗？

归类、抓数据、简单批处理这类，14B 量级本地模型基本够，还零 API 费、数据不出门。复杂多步任务则闭源旗舰成功率更高。

这些档位能当官方排名看吗？

不能。这是编辑部用同一套任务自己跑出来的主观档位排序，不是精确分数、也没有官方基准，口径见关于页，仅供参考。

评测 · 模型

当龙虾的大脑：6 款模型怎么选最划算

钳叔 · 龙虾AI 编辑部 · 2026-06 · 约 9 分钟

OpenClaw 本身不带智商，它只是个会调工具、会循环执行的壳，真正干活的是你给它接的大模型。换个模型，同一只龙虾的表现能差出一截。所以“接哪个模型”是装好之后最该想清楚的事。这篇我们拿 6 款常见模型，按智能体真正吃重的几项横向比了一遍，再按预算、隐私、能力三条线给推荐。

智能体看模型，跟聊天不一样

平时聊天，模型会不会写诗、能不能逗你笑很重要；但当大脑时，最关键的是这三项：

工具调用稳定性：能不能按规矩调工具、参数不乱编。这一项崩了，再聪明也白搭。
长任务连贯性：十几步的活，中途记不记得自己在干嘛、错了会不会自己纠。
中文表现：理解中文指令、读中文网页不丢信息。

再叠上成本，就是下面这张表的四个维度。

6 款模型对比榜

下面是编辑部的主观档位，不是官方跑分。每一格给的是定性强弱（强 / 中上 / 中 / 偏弱），我们不打精确分数，因为没有谁做过这几款模型的统一官方基准。这是截至 2026-06 的编辑部观点，会随版本更新，口径和 AI 模型榜一致，方法写在关于页。模型名做了泛化处理，对应市面上的几类。

#	模型（类型）	工具调用	长任务	中文	成本
1	旗舰闭源 A（API）	强	强	强	较贵
2	旗舰闭源 B（API）	强	中上	强	中等
3	国产旗舰 C（API）	中上	中上	强	便宜
4	开源大杯 D（本地 70B）	中上	中	中上	本地免费
5	开源中杯 E（本地 14B）	中	中	中上	本地免费
6	开源小杯 F（本地 7B）	偏弱	偏弱	中	本地免费

注：成本列里“本地免费”指没有 API 费用，但本地大模型吃显卡、有硬件门槛，详见硬件要求。

逐档说人话

旗舰闭源 A / B：能力天花板

复杂、多步、容错低的活交给它们最省心，工具调用几乎不出格、长任务也接得住。代价是按用量花钱，且数据要发出去。适合“任务价值高、不差这点 token 钱”的场景。

国产旗舰 C：性价比甜区

中文是它的主场，体感甚至反超闭源旗舰，工具调用也够稳，价格还便宜不少。日常中文为主的自动化，这档往往最划算。

开源 D / E：隐私党的主力

本地跑、数据不出门、长期零 API 费。70B 那档接近闭源中游，但要好显卡；14B 那档普通游戏显卡能带，做归类、抓数据这类活够用，复杂任务会偶尔掉链子。

开源小杯 F：能跑，但别指望太多

7B 模型胜在低配机也能动，但工具调用稳定性明显下滑，多步任务容易自己绕晕。当玩具体验、跑极简任务可以，正经活别靠它。

实际体会 拿一个固定的小任务（比如「打开本地一个 CSV，按某列分组求和，结果写回新文件」）多跑几遍对比，换脑的差距非常直接：旗舰闭源模型基本每次都稳、步数也短；国产旗舰也很可靠，偶尔会多绕一步；本地 14B 大多数能成，失败往往栽在第一步把列号数错；本地 7B 成功率明显偏低，容易调错工具或循环卡死。任务越规整、容错越高，越能往下选小模型；越复杂越该上旗舰。

按你的情况选

预算优先 / 中文为主：国产旗舰 C，便宜、中文强、调用稳，日常自动化首选。
隐私优先 / 数据不能出门：本地开源 D 或 E，配合 OpenClaw 自托管，全程离线。显卡够就上 70B，一般机器选 14B。
能力优先 / 任务复杂：旗舰闭源 A，贵但稳，关键活别省这个钱。
纯尝鲜 / 低配机：本地 7B 先跑通流程，体验过再升级。

下一步

选好脑子，去看怎么把它接进龙虾——接 API 还是接本地模型讲了两条路的取舍；接本地模型前先对一眼硬件要求，别买了模型带不动。整套部署流程在本地部署教程。另外，2026-07 新发布的 GPT-5.6 把定价拆成了三档，跑智能体该选哪档、成本怎么心算，我们单独算了笔账：跑龙虾该用哪档 GPT-5.6。

常见问题

给智能体选模型，最该看哪个指标？: 工具调用稳定性。智能体靠调工具干活，这项不稳，模型再聪明也会在执行里翻车。其次是长任务连贯性和成本。
预算有限，本地模型够用吗？: 归类、抓数据、简单批处理这类，14B 量级本地模型基本够，还零 API 费、数据不出门。复杂多步任务则闭源旗舰成功率更高。
这些档位能当官方排名看吗？: 不能。这是编辑部用同一套任务自己跑出来的主观档位排序，不是精确分数、也没有官方基准，口径见关于页，仅供参考。