字节跳动BitsAI-CR：大模型两阶段审查，代码质量与效率双提升 - ListenHub

Cover

字节跳动BitsAI-CR：大模型两阶段审查，代码质量与效率双提升

Addsion Brain

3

7-30

字节跳动开发的BitsAI-CR是一个创新的自动化代码审查框架，通过结合基于大型语言模型（LLM）的两阶段审查流水线（RuleChecker和ReviewFilter）和数据飞轮机制，显著提升了代码审查的效率和准确性。该系统在大规模工业部署中表现出色，实现了高精确度和低“过时率”，有效帮助程序员提升代码质量并减轻人工审查负担。

BitsAI-CR核心组成与机制

两阶段审查意见生成流水线：
- 规则检查器 (RuleChecker)： 基于微调LLM，依据219条规则识别代码问题，包含规则类别阻止器。
- 审查过滤器 (ReviewFilter)： 独立的微调LLM，验证RuleChecker结果，解决“幻觉”和错误，显著提高精确度。
- 上下文准备与意见聚合： 对代码差异分块并扩展上下文，保留结构信息；使用余弦相似度聚合相似评论，避免信息过载。
代码审查规则分类法：
- 采用三层结构（审查维度、类别、规则），简化数据收集和模型优化，支持Go、JavaScript、TypeScript、Python和Java五种语言。
数据飞轮：持续改进：
- 通过挖掘审查规则、系统化数据集构建（抽样和标注）和在线用户反馈（点赞/点踩、过时率监控）驱动系统演进。

评估指标与性能表现

精确度 (Precision)： BitsAI-CR优先考虑的指标，峰值达到75.0%，避免开发者“警报疲劳”。
过时率 (Outdated Rate)： 衡量开发者采纳度的指标，Go语言审查中保持26.7%，显著低于人工审查的35%-46%。
离线评估： 基于分类法的BitsAI-CR版本精确度达57.03%，远超基线模型；ReviewFilter将精确度从54.50%提升至67.12%。
持续改进： 18周内每周精确度从约25%持续提升至75%；用户调查显示74.5%的用户肯定其价值。

大规模工业部署与经验教训

部署规模与用户留存： 已在字节跳动部署，服务超过12,000名周活跃用户，第二周留存率61.64%，八周后仍保持约48%。
关键经验教训：
- 明确的审查规则分类法是系统化问题分类和评估的基石。
- 两阶段审查意见生成（RuleChecker + ReviewFilter）对实现生产级可靠性至关重要，可有效缓解LLM幻觉。
- 精确度和过时率指标是建立用户信任和驱动持续优化的核心。
行业影响： LLM代码审查工具通常能减少15-30%的引入Bug和缩短20-40%的手动审查时间。

大纲

字节跳动开发的BitsAI-CR是一个创新的自动化代码审查框架，通过结合基于大型语言模型（LLM）的两阶段审查流水线（RuleChecker和ReviewFilter）和数据飞轮机制，显著提升了代码审查的效率和准确性。该系统在大规模工业部署中表现出色，实现了高精确度和低“过时率”，有效帮助程序员提升代码质量并减轻人工审查负担。

BitsAI-CR核心组成与机制

两阶段审查意见生成流水线：
- 规则检查器 (RuleChecker)： 基于微调LLM，依据219条规则识别代码问题，包含规则类别阻止器。
- 审查过滤器 (ReviewFilter)： 独立的微调LLM，验证RuleChecker结果，解决“幻觉”和错误，显著提高精确度。
- 上下文准备与意见聚合： 对代码差异分块并扩展上下文，保留结构信息；使用余弦相似度聚合相似评论，避免信息过载。
代码审查规则分类法：
- 采用三层结构（审查维度、类别、规则），简化数据收集和模型优化，支持Go、JavaScript、TypeScript、Python和Java五种语言。
数据飞轮：持续改进：
- 通过挖掘审查规则、系统化数据集构建（抽样和标注）和在线用户反馈（点赞/点踩、过时率监控）驱动系统演进。

评估指标与性能表现

精确度 (Precision)： BitsAI-CR优先考虑的指标，峰值达到75.0%，避免开发者“警报疲劳”。
过时率 (Outdated Rate)： 衡量开发者采纳度的指标，Go语言审查中保持26.7%，显著低于人工审查的35%-46%。
离线评估： 基于分类法的BitsAI-CR版本精确度达57.03%，远超基线模型；ReviewFilter将精确度从54.50%提升至67.12%。
持续改进： 18周内每周精确度从约25%持续提升至75%；用户调查显示74.5%的用户肯定其价值。

大规模工业部署与经验教训

部署规模与用户留存： 已在字节跳动部署，服务超过12,000名周活跃用户，第二周留存率61.64%，八周后仍保持约48%。
关键经验教训：
- 明确的审查规则分类法是系统化问题分类和评估的基石。
- 两阶段审查意见生成（RuleChecker + ReviewFilter）对实现生产级可靠性至关重要，可有效缓解LLM幻觉。
- 精确度和过时率指标是建立用户信任和驱动持续优化的核心。
行业影响： LLM代码审查工具通常能减少15-30%的引入Bug和缩短20-40%的手动审查时间。

脚本

子墨: 写代码的程序员朋友们估计都有一个共同的痛点，就是代码审查，也就是Code Review。这事儿不仅费时费力，有时候还容易因为代码风格问题，在同事间引发一场“技术辩论”。

晓曼: 没错，谁都觉得自己的代码写得最优雅。但现在，好像有公司想用AI来当这个“裁判”了。

子墨: 对，说的就是字节跳动最近推出的一个叫BitsAI-CR的自动化代码审查工具。它也是用的大模型，但核心是一个很聪明的两阶段审查流程。第一步，一个叫RuleChecker的模型会根据219条规则来检查代码，找出问题提建议。

晓曼: 嗯，先海选一遍。

子墨: 然后第二步，另一个叫ReviewFilter的模型会来验证第一步给出的这些建议，把那些AI“胡思乱想”产生的幻觉和事实错误给过滤掉。这么一套组合拳下来，据说审查意见的精确度能到75%，而且开发者也更愿意听AI的。

晓曼: 这个就有意思了。它不光是能更快地发现问题，关键是它给的建议更靠谱。这就直接解决了开发者的一个大痛点，就是“警报疲劳”。你想啊，如果一个工具天天给你报一堆假警报，你很快就不想理它了。现在这样，反而是建立了开发者对自动化工具的信任。

子墨: 没错，这种“先生成后过滤”的双保险模式，确实大大提高了审查的可靠性。那么，问题来了，BitsAI-CR用来审查的那两百多条规则，到底是怎么来的？又是怎么保证它能不断学习和进步的呢？

晓曼: 这就涉及到它背后的一套“内功心法”了。

子墨: BitsAI-CR用了一个三层的分类法来系统地管理这些规则，覆盖了从代码缺陷、安全漏洞到可维护性等好几个维度，而且还支持Go、JavaScript、Python这些主流的编程语言。

晓曼: 这个分类法本身就是个大工程了。

子墨: 更关键的是，它有一套数据飞轮机制。简单说，就是它会不断地从内部的规则库和优秀的人工审查评论里去挖掘新的规则，然后构建高质量的数据集，同时还结合线上用户的反馈，比如点赞点踩，还有一个叫“过时率”的指标，用这些数据去反复训练模型、调整规则。

晓曼: 我明白了，这就像一个能自我进化的智能学习系统。它不只是个死板的规则检查器，而是能通过开发者和系统的持续互动，不断地学习和进步。今天它可能还不太懂你的代码风格，但下周，它可能就成了最懂你的那个“人”。这让它的审查能力越来越强，也越来越贴近真实的开发场景。

子墨: 确实，这种持续进化的能力是它能取得这么好效果的关键。那在字节内部，这么大规模地铺开用，实际效果到底怎么样？有没有踩过什么坑，或者总结出什么经验？

晓曼: 这才是大家最关心的，理论说得再好，还得看疗效。

子墨: 效果相当惊人。这个工具在字节内部已经服务了超过一万两千名周活跃用户，而且用户的粘性还特别高，用了八周之后，还有差不多48%的人在继续用。

晓曼: 哇，这个留存率在企业级工具里算是非常高了。说明大家是真觉得它好用，不是为了完成任务才用的。

子墨: 是的。而且通过这次大规模的实践，团队也总结出了几条核心经验。首先，一个清晰的规则分类法是基础；其次，我们前面聊的两阶段审查流程，是保证生产环境可靠性的关键；最后，精确度和过时率这两个指标，是驱动整个系统迭代和建立用户信任的基石。

晓曼: 嗯，这些经验都非常实在。特别是他们提到的那个“过时率”指标，也就是开发者到底有没有采纳AI的建议。报告里说BitsAI-CR的过时率远低于人工审查，这其实说明了一个非常重要的点：开发者更信任AI给出的建议。

子墨: 哦？这背后有什么更深的原因吗？

晓曼: 当然！这说明当一个AI工具能提供高度精准、而且误报率极低的辅助时，它就不再是一个打扰你工作的烦人精，而是真正变成了开发者的得力助手，一个靠谱的副驾驶。这对于未来AI想在整个软件开发流程中扮演更重要角色，无疑是一个超级积极的信号。

子墨: 我明白了，AI的精准度和可靠性，是赢得开发者信任的唯一途径。总的来看，BitsAI-CR的实践确实为我们展示了大型语言模型在提升代码质量和开发效率方面的巨大潜力。

晓曼: 是的，总结一下，字节这个BitsAI-CR的实践，核心就是几个点：首先，他们用了一个很聪明的“检查员加审核员”的两阶段流程，来保证AI不乱说话。其次，它有一个能持续学习的数据飞轮，让规则和模型越来越聪明。最后，通过大规模的部署证明了，只要做得足够好，开发者是愿意相信并且依赖AI工具的。所以说，通过这种大模型两阶段审查，是真的能做到代码质量与效率双提升。