一句话结论
大模型代理已经能以很高 token 成本显著扩大编译器 bug 搜索空间,过去几个月前还不可行的自动化代码审计,现在变成了“非常贵但可行”。
主要内容
- 作者曾做过机器学习编译器相关工作。2026 年 1 月,他用 Codex 为 LLVM instcombine 写 fuzzer,找到并修复 5 个问题。
- 2026 年 5 月加入 SemiAnalysis 后,他把类似思路用于 NVIDIA ptxas。虽然闭源二进制、缺少插桩、验证路径更长,但 3 天内找到了 40 个误编译程序,一周后约 80 个。
- 相关工具以 FuzzX 开源,核心工作流是让模型持续改写 fuzzer、缩小测试用例、选择新的 PTX 指令组合,并在无人值守时继续运行。
- 同样方法也用于 LLVM AMDGPU 后端,发现问题速度相近。作者认为 Opus 4.7 和 ChatGPT 5.5 都表现很好。
更重要的实验
当 fuzzer 逐渐变慢后,作者让 Claude 同时启动 50 个子代理直接阅读 LLVM 源码。这个方法约每 4 分钟发现 1 个问题;换到 x86 后端时,接近每分钟 2 个。代理读代码会有误报,平均严重性也低于可复现误编译,但能触及 fuzzing 难以覆盖的类别。
其中一个例子是 atomic store 被转换成两个 non-atomic store。这类问题在线上可能只在低概率下造成静默数据损坏,定位成本极高。
成本与启示
vibe-coded fuzzer 相对便宜,大致相当于把每月 200 美元的 ChatGPT Pro 周额度用到约两倍;按 token 计费的 Opus 4.7 几天约 1000 美元。大规模子代理读代码则非常昂贵,几小时超过 1 万美元。
文章的现实含义是:预算会成为研发能力边界的一部分。愿意购买大量推理 token 的团队,会进入其他团队无法覆盖的问题空间。