AI Agent 发现编译器误编译问题：SemiAnalysis 中文导读

一句话结论

大模型代理已经能以很高 token 成本显著扩大编译器 bug 搜索空间，过去几个月前还不可行的自动化代码审计，现在变成了“非常贵但可行”。

作者曾做过机器学习编译器相关工作。2026 年 1 月，他用 Codex 为 LLVM instcombine 写 fuzzer，找到并修复 5 个问题。
2026 年 5 月加入 SemiAnalysis 后，他把类似思路用于 NVIDIA ptxas。虽然闭源二进制、缺少插桩、验证路径更长，但 3 天内找到了 40 个误编译程序，一周后约 80 个。
相关工具以 FuzzX 开源，核心工作流是让模型持续改写 fuzzer、缩小测试用例、选择新的 PTX 指令组合，并在无人值守时继续运行。
同样方法也用于 LLVM AMDGPU 后端，发现问题速度相近。作者认为 Opus 4.7 和 ChatGPT 5.5 都表现很好。

当 fuzzer 逐渐变慢后，作者让 Claude 同时启动 50 个子代理直接阅读 LLVM 源码。这个方法约每 4 分钟发现 1 个问题；换到 x86 后端时，接近每分钟 2 个。代理读代码会有误报，平均严重性也低于可复现误编译，但能触及 fuzzing 难以覆盖的类别。

其中一个例子是 atomic store 被转换成两个 non-atomic store。这类问题在线上可能只在低概率下造成静默数据损坏，定位成本极高。

vibe-coded fuzzer 相对便宜，大致相当于把每月 200 美元的 ChatGPT Pro 周额度用到约两倍；按 token 计费的 Opus 4.7 几天约 1000 美元。大规模子代理读代码则非常昂贵，几小时超过 1 万美元。

文章的现实含义是：预算会成为研发能力边界的一部分。愿意购买大量推理 token 的团队，会进入其他团队无法覆盖的问题空间。