小尺寸 Qwen 3.5 性能飞升：本地 AI 离“飞入寻常百姓家”还有多远？

前几天阿里千问发布了一堆 Qwen 3.5 系列小尺寸模型，其中 Qwen3.5-27B、Qwen3.5-35B-A3B 模型的性能按照官方评测数据已经接近去年初的 DeepSeek-R1。谁能想到现在 30B 左右参数量的模型已经可以挑战 1 年前 671B 参数量的模型。

但不要妄想小尺寸模型可以全方面赶超大尺寸模型，参数量的多少往往决定模型懂得的世界知识的多少。打个比方，大尺寸模型是武当派张三丰，百岁高龄，武功和见识最丰富，小尺寸模型算武当七侠，因为师傅牛且教得好，某套掌法、剑法使出来不比师傅张三丰差，足够行走江湖，但遇上玄冥二老这种超常规问题，还得张三丰出手。

小尺寸模型的优势在于，可本地运行，且大部分场景下性能够用。 下图中不同版本 Qwen 系列 30B 左右的模型的 MMLU-Pro 得分，能看出小尺寸模型的性能提升非常迅速，基本直线向上。

An image to describe post

是否能推论出：DeepSeek-R1 够用的场景，现在 Qwen3.5-27B、Qwen3.5-35B-A3B 也基本够用？

进一步推论：如果小尺寸模型性能继续提升至某个程度，等到可以流畅运行小尺寸模型的硬件设备价格降低到某个程度，家用本地 AI 会得到广泛普及， 『家里有个 24 小时干活的人工智能』成为普遍情况，就如当年电脑和智能手机走进千家万户，极大改变工作、生活和社会，那时候或许才是 AI 时代真正的面貌。

现阶段运行本地模型的硬件，对于普通用户仍然较贵。今年流行的 OpenClaw，已经有点 AI 走进千家万户的苗头了。OpenClaw 是个吃 token 大户，使用模型厂商 API 的费用很可观。下表对比本地运行模型与使用在线模型 API 的成本。

An image to describe post

表中计算的前提条件：

轻度、中度、重度使用 OpenClaw 的 token 用量参考文章：《OpenClaw 为什么这么费 Token？6 个原因分析与省钱攻略》，2026 年参考文中数量，后两年每年按照前一年 1.5 倍。
本地运行大模型的硬件按照 MAC Mini M4 Pro 48GB+512GB，运行成本按照 40W 功率全年运行的电费（电价 0.5 元/kWh）。
本地运行大模型按照 Qwen3.5-35B-A3B，阿里百炼的 API 价格大约为 4.9 元/百万 token，MAC Mini M4 Pro 生成速度约为 70 tokens/s，全年不停大概能生成 2200 百万个 token。
现在 AI 发展太快，成本计算按照未来 3 年粗算总费用。

仅通过表中粗算 3 年总成本费用，对于中轻度用户，直接使用模型厂商在线 API 服务更划算，重度用户自己电脑本地运行大模型服务可能更省钱。

但需注意，重度用户除了处理邮件、总结文章、安排进程这类普通办公场景，可能还需要 AI 具备编写代码、处理超大文本等高等技能。而 30B 尺寸模型在这类技能上的水平是不如大尺寸模型的。如果本地运行 100B 或 200B 模型，例如 MiniMax M2.5，硬件成本要飞起。这还没考虑高并发的需求。Mini M4 Pro 生成速度约为 70 tokens/s，全年不停大概能生成 2200 百万个 token，也不够重度用量的。

所以『家用本地 AI 会得到广泛普及』的来临，要期待中小参数量模型的性能继续提升，跑本地 AI 硬件设备的价格继续降低。

但按照目前内存、SSD 价格起飞态势，一两年内硬件设备怕是只会涨价😂。

#本地AI #小尺寸模型 #qwen