Thorium vs Vivaldi

前段时间发现一款以速度见长的浏览器 Thorium,于是想与一直在用的 Vivaldi 对比下,看看哪款更省内存。

首先要有内存使用数据。使用 Windows 10 系统自带的 perfmon 工具记录一段时间 Thorium 和 Vivaldi 两款浏览器的内存使用量,每隔 15 秒采集一次数据,记录 Working SetPrivate Bytes 两种内存用量,得到的数据文件为 CSV 格式。

记录期间,Thorium 和 Vivaldi 打开两个相同的标签页,安装 1 款相同的扩展,其他都维持浏览器默认设置。在两个电脑上记录了 Thorium 的数据,Vivaldi 只在一个电脑上记录,所以一共获得 3 个内存使用量的 CSV 文件。

其实目测记录数据就能发现 Thorium 内存用量更少,就懒得画图。但一想这不有 AI 嘛,让 AI 画图,顺便做个测试。

先看绘图成果,后面再说 AI 的测试情况。下面两张图都是『Antigravity+Claude Opus 4.5 Thinking』生成的。

An image to describe post

An image to describe post

上图折线图是浏览器的 Working SetPrivate Bytes 内存用量随时间的走势,下图箱线图是内存用量的分布统计。分析中位数可以看出:

  • 两台电脑上 Thorium 运行中占用的全部物理内存 Working Set 相比 Vivaldi 少 35%,独占内存 Private Bytes 相比 Vivaldi 少 65% 以上;
  • Thorium 自身的独占内存 Private Bytes 要比全部物理内存 Working Set 少 50%左右,说明 Thorium 占用的内存有一半属于共享内存,即与其他软件或者系统共同使用的内存,这样能减少对物理内存的整体消耗;
  • Vivaldi 自身的独占内存 Private Bytes 只比全部物理内存 Working Set 少 10%左右,说明 Vivaldi 消耗的大部分内存都是独占的,其他软件或系统用不了,不利于物理内存整体消耗的降低。

给 AI 的任务

测试任务是要求 AI 读取记录内存用量的 CSV 文件,然后绘制两幅图:

  • 3 个 CSV 文件的内存用量(Working SetPrivate Bytes)随时间的趋势图,子图上下排列;
  • 3 个 CSV 文件的内存用量(Working SetPrivate Bytes)的箱线图,包含 2 个子图,分别绘制 Working Set 使用分布、Private Bytes 使用分布。

给 AI 的首轮提示词都是:

当前目录中的 3 个 CSV 格式文件分别为使用 perfmon 监控记录的 3 款软件的内存占用(Working Set 和 Private Bytes),读取这 3 个文件,使用 Python 进行绘图:第一幅图包含 3 个子图,分别对应 3 个软件内存用量(Working Set 和 Private Bytes)随时间的变化,子图上下排列,时间轴不需要具体时间仅表示间隔即可;第二幅图为箱线图,包含 2 个子图,分别绘制 3 款软件的内存 Working Set 使用分布、Private Bytes 使用分布。内存用量单位转换为 MB。

任务难点大概如下:

  1. 记录数据的 CSV 文件中有空值,AI 读取后需要自行发现并清洗;
  2. 本例其实不算严格编程问题,就是用 Python 画个图,就看 AI 擅长不擅长 Python;
  3. Python 绘图中如果要显示中文需要特殊设置,否则乱码,不过提示词没有特别要求显示成中文,看 AI 自行判断了。

测试结果

以实现提示词中的成果为准,几个 AI Code Agent 的对话轮数如下。

AI Code Agent 对话轮数 结果评价
Antigravity+Gemini 3 Pro Low 1 绘制图像满足要求;有图名;轴名和图名采用英文;箱线图有中位数和数据量标签;
Antigravity+Gemini 3 Pro High 1 绘制图像满足要求;有图名;轴名和图名采用英文;
Antigravity+Claude Opus 4.5 Thinking 1 绘制图像满足要求;有图名;轴名和图名采用中文;箱线图有中位数、四分位和数据量标签;
MiniMax Agent 桌面版 2 绘制图像满足要求;有图名;轴名和图名采用中文;
Antigravity+Gemini 3 Flash 2 绘制图像满足要求;有图名;轴名和图名采用英文;
Claude Code+MiniMax-M 2.1 3 绘制图像满足要求;有图名;轴名和图名采用英文;
Antigravity+Claude Sonnet 4.5 Thinking 5 没有完成绘图,图上总是缺数据;
RooCode+PonyAlpha 推理强度中 4 绘制图像满足要求;有图名;轴名和图名采用中文;
RooCode+PonyAlpha 推理强度高 1 绘制图像满足要求;有图名;轴名和图名采用中文;

七个 AI Code Agent 中有 6 个完成了数据绘图任务,『Antigravity+Claude Sonnet 4.5 Thinking』的组合经过 5 轮对话,一直无法在箱线图中绘制出全部的数据,不断提示,但总是加上这个数据又丢了其他数据,最后放弃。这就让人很惊讶,这可是 Claude Sonnet 啊,一个 Python 画图的问题,按理说应该没啥难度,居然做不出来。

在此次测试中,体感很明显『MiniMax Agent 桌面版』比『Claude Code+MiniMax-M 2.1』好用。桌面版 1 轮后提示箱线图缺少数据,第 2 轮就修好了。『Claude Code+MiniMax-M 2.1』1 轮后提示图中数据搞反了,第 2 轮绘图依然搞反了其他数据。果然还是模型官方的工具更匹配模型。

所以对于 AI Agent,性能一方面取决于底层大模型的能力,一方面还在于上层工具对大模型的调用。


20260210 更新:

加测最近爆火的神秘的 Pony Alpha,采用『RooCode+PonyAlpha』,Openrouter 的 API。

在此测试中 Pony Alpha 没有表现出传说中的牛。推理强度设为中,经过 4 轮对话才绘制出正确的图,而且最后两轮出现的问题一样。推理强度设为高,虽然 1 轮搞定,但耗时很长,中间模型自己发现了错误然后改正,再发现再改正,不如 Gemini 3 Pro 和 Claude Opus 4.5 那般一发入魂。