Thorium vs Vivaldi
前段时间发现一款以速度见长的浏览器 Thorium,于是想与一直在用的 Vivaldi 对比下,看看哪款更省内存。
首先要有内存使用数据。使用 Windows 10 系统自带的 perfmon 工具记录一段时间 Thorium 和 Vivaldi 两款浏览器的内存使用量,每隔 15 秒采集一次数据,记录 Working Set、Private Bytes 两种内存用量,得到的数据文件为 CSV 格式。
记录期间,Thorium 和 Vivaldi 打开两个相同的标签页,安装 1 款相同的扩展,其他都维持浏览器默认设置。在两个电脑上记录了 Thorium 的数据,Vivaldi 只在一个电脑上记录,所以一共获得 3 个内存使用量的 CSV 文件。
其实目测记录数据就能发现 Thorium 内存用量更少,就懒得画图。但一想这不有 AI 嘛,让 AI 画图,顺便做个测试。
先看绘图成果,后面再说 AI 的测试情况。下面两张图都是『Antigravity+Claude Opus 4.5 Thinking』生成的。


上图折线图是浏览器的 Working Set、Private Bytes 内存用量随时间的走势,下图箱线图是内存用量的分布统计。分析中位数可以看出:
- 两台电脑上 Thorium 运行中占用的全部物理内存
Working Set相比 Vivaldi 少 35%,独占内存Private Bytes相比 Vivaldi 少 65% 以上; - Thorium 自身的独占内存
Private Bytes要比全部物理内存Working Set少 50%左右,说明 Thorium 占用的内存有一半属于共享内存,即与其他软件或者系统共同使用的内存,这样能减少对物理内存的整体消耗; - Vivaldi 自身的独占内存
Private Bytes只比全部物理内存Working Set少 10%左右,说明 Vivaldi 消耗的大部分内存都是独占的,其他软件或系统用不了,不利于物理内存整体消耗的降低。
给 AI 的任务
测试任务是要求 AI 读取记录内存用量的 CSV 文件,然后绘制两幅图:
- 3 个 CSV 文件的内存用量(
Working Set和Private Bytes)随时间的趋势图,子图上下排列; - 3 个 CSV 文件的内存用量(
Working Set和Private Bytes)的箱线图,包含 2 个子图,分别绘制Working Set使用分布、Private Bytes使用分布。
给 AI 的首轮提示词都是:
当前目录中的 3 个 CSV 格式文件分别为使用 perfmon 监控记录的 3 款软件的内存占用(Working Set 和 Private Bytes),读取这 3 个文件,使用 Python 进行绘图:第一幅图包含 3 个子图,分别对应 3 个软件内存用量(Working Set 和 Private Bytes)随时间的变化,子图上下排列,时间轴不需要具体时间仅表示间隔即可;第二幅图为箱线图,包含 2 个子图,分别绘制 3 款软件的内存 Working Set 使用分布、Private Bytes 使用分布。内存用量单位转换为 MB。
任务难点大概如下:
- 记录数据的 CSV 文件中有空值,AI 读取后需要自行发现并清洗;
- 本例其实不算严格编程问题,就是用 Python 画个图,就看 AI 擅长不擅长 Python;
- Python 绘图中如果要显示中文需要特殊设置,否则乱码,不过提示词没有特别要求显示成中文,看 AI 自行判断了。
测试结果
以实现提示词中的成果为准,几个 AI Code Agent 的对话轮数如下。
| AI Code Agent | 对话轮数 | 结果评价 |
|---|---|---|
| Antigravity+Gemini 3 Pro Low | 1 | 绘制图像满足要求;有图名;轴名和图名采用英文;箱线图有中位数和数据量标签; |
| Antigravity+Gemini 3 Pro High | 1 | 绘制图像满足要求;有图名;轴名和图名采用英文; |
| Antigravity+Claude Opus 4.5 Thinking | 1 | 绘制图像满足要求;有图名;轴名和图名采用中文;箱线图有中位数、四分位和数据量标签; |
| MiniMax Agent 桌面版 | 2 | 绘制图像满足要求;有图名;轴名和图名采用中文; |
| Antigravity+Gemini 3 Flash | 2 | 绘制图像满足要求;有图名;轴名和图名采用英文; |
| Claude Code+MiniMax-M 2.1 | 3 | 绘制图像满足要求;有图名;轴名和图名采用英文; |
| Antigravity+Claude Sonnet 4.5 Thinking | 5 | 没有完成绘图,图上总是缺数据; |
| RooCode+PonyAlpha 推理强度中 | 4 | 绘制图像满足要求;有图名;轴名和图名采用中文; |
| RooCode+PonyAlpha 推理强度高 | 1 | 绘制图像满足要求;有图名;轴名和图名采用中文; |
七个 AI Code Agent 中有 6 个完成了数据绘图任务,『Antigravity+Claude Sonnet 4.5 Thinking』的组合经过 5 轮对话,一直无法在箱线图中绘制出全部的数据,不断提示,但总是加上这个数据又丢了其他数据,最后放弃。这就让人很惊讶,这可是 Claude Sonnet 啊,一个 Python 画图的问题,按理说应该没啥难度,居然做不出来。
在此次测试中,体感很明显『MiniMax Agent 桌面版』比『Claude Code+MiniMax-M 2.1』好用。桌面版 1 轮后提示箱线图缺少数据,第 2 轮就修好了。『Claude Code+MiniMax-M 2.1』1 轮后提示图中数据搞反了,第 2 轮绘图依然搞反了其他数据。果然还是模型官方的工具更匹配模型。
所以对于 AI Agent,性能一方面取决于底层大模型的能力,一方面还在于上层工具对大模型的调用。
20260210 更新:
加测最近爆火的神秘的 Pony Alpha,采用『RooCode+PonyAlpha』,Openrouter 的 API。
在此测试中 Pony Alpha 没有表现出传说中的牛。推理强度设为中,经过 4 轮对话才绘制出正确的图,而且最后两轮出现的问题一样。推理强度设为高,虽然 1 轮搞定,但耗时很长,中间模型自己发现了错误然后改正,再发现再改正,不如 Gemini 3 Pro 和 Claude Opus 4.5 那般一发入魂。