🦞 龙虾AI · OpenClaw 智能体生态导航 龙虾AI(OpenClaw)中文资料与下载导航
🧠

评测 · 模型

当龙虾的大脑:6 款模型怎么选最划算

OpenClaw 本身不带智商,它只是个会调工具、会循环执行的壳,真正干活的是你给它接的大模型。换个模型,同一只龙虾的表现能差出一截。所以“接哪个模型”是装好之后最该想清楚的事。这篇我们拿 6 款常见模型,按智能体真正吃重的几项横向比了一遍,再按预算、隐私、能力三条线给推荐。

智能体看模型,跟聊天不一样

平时聊天,模型会不会写诗、能不能逗你笑很重要;但当大脑时,最关键的是这三项:

  • 工具调用稳定性:能不能按规矩调工具、参数不乱编。这一项崩了,再聪明也白搭。
  • 长任务连贯性:十几步的活,中途记不记得自己在干嘛、错了会不会自己纠。
  • 中文表现:理解中文指令、读中文网页不丢信息。

再叠上成本,就是下面这张表的四个维度。

6 款模型对比榜

⚠️ 下面是编辑部的主观档位,不是官方跑分。每一格给的是定性强弱(强 / 中上 / 中 / 偏弱)我们不打精确分数,因为没有谁做过这几款模型的统一官方基准。这是截至 2026-06 的编辑部观点,会随版本更新,口径和 AI 模型榜一致,方法写在 关于页。模型名做了泛化处理,对应市面上的几类。

#模型(类型)工具调用长任务中文成本
1旗舰闭源 A(API)较贵
2旗舰闭源 B(API)中上中等
3国产旗舰 C(API)中上中上便宜
4开源大杯 D(本地 70B)中上中上本地免费
5开源中杯 E(本地 14B)中上本地免费
6开源小杯 F(本地 7B)偏弱偏弱本地免费

注:成本列里“本地免费”指没有 API 费用,但本地大模型吃显卡、有硬件门槛,详见硬件要求

逐档说人话

旗舰闭源 A / B:能力天花板

复杂、多步、容错低的活交给它们最省心,工具调用几乎不出格、长任务也接得住。代价是按用量花钱,且数据要发出去。适合“任务价值高、不差这点 token 钱”的场景。

国产旗舰 C:性价比甜区

中文是它的主场,体感甚至反超闭源旗舰,工具调用也够稳,价格还便宜不少。日常中文为主的自动化,这档往往最划算。

开源 D / E:隐私党的主力

本地跑、数据不出门、长期零 API 费。70B 那档接近闭源中游,但要好显卡;14B 那档普通游戏显卡能带,做归类、抓数据这类活够用,复杂任务会偶尔掉链子。

开源小杯 F:能跑,但别指望太多

7B 模型胜在低配机也能动,但工具调用稳定性明显下滑,多步任务容易自己绕晕。当玩具体验、跑极简任务可以,正经活别靠它。

🦞 实际体会 拿一个固定的小任务(比如「打开本地一个 CSV,按某列分组求和,结果写回新文件」)多跑几遍对比,换脑的差距非常直接:旗舰闭源模型基本每次都稳、步数也短;国产旗舰也很可靠,偶尔会多绕一步;本地 14B 大多数能成,失败往往栽在第一步把列号数错;本地 7B 成功率明显偏低,容易调错工具或循环卡死。任务越规整、容错越高,越能往下选小模型;越复杂越该上旗舰。

按你的情况选

  • 预算优先 / 中文为主:国产旗舰 C,便宜、中文强、调用稳,日常自动化首选。
  • 隐私优先 / 数据不能出门:本地开源 D 或 E,配合 OpenClaw 自托管,全程离线。显卡够就上 70B,一般机器选 14B。
  • 能力优先 / 任务复杂:旗舰闭源 A,贵但稳,关键活别省这个钱。
  • 纯尝鲜 / 低配机:本地 7B 先跑通流程,体验过再升级。

下一步

选好脑子,去看怎么把它接进龙虾——接 API 还是接本地模型讲了两条路的取舍;接本地模型前先对一眼硬件要求,别买了模型带不动。整套部署流程在本地部署教程

常见问题

给智能体选模型,最该看哪个指标?
工具调用稳定性。智能体靠调工具干活,这项不稳,模型再聪明也会在执行里翻车。其次是长任务连贯性和成本。
预算有限,本地模型够用吗?
归类、抓数据、简单批处理这类,14B 量级本地模型基本够,还零 API 费、数据不出门。复杂多步任务则闭源旗舰成功率更高。
这些档位能当官方排名看吗?
不能。这是编辑部用同一套任务自己跑出来的主观档位排序,不是精确分数、也没有官方基准,口径见关于页,仅供参考。