思知说念硅谷的格式员如何使用 AI 编程,被 2000 家公司使用的 AI 代码审查智能体 Greptile 基于每月用 AI 审核的的十亿行代码,发布了 AI 编程年度论说,揭示了使用 AI 编程后带来的坐褥率擢升,但对此格式员们却无法仁至义尽。
这份论说最让东说念主颠簸的小数,是指出了在 AI 编程的匡助下,工程师的代码坐褥量飞涨。
每位劝诱东说念主员,每月提交的代码行数从 4450 增长到 7839,增长幅度达到 76%,关于 6-15 东说念主的中型劝诱团队,每位劝诱者提交的代码量更是接近翻倍(擢升 89%),这意味着 AI 编程器用正成为一种效用倍增器。
更值得注目的是,格式员单次提派遣码时,每文献中变更的代码行数的中位数飞腾 20%(从 18 变为 22 行),意味着代码迭代不仅「更快」,且「变化更多」,这可能反应了 AI 编程器用能够修改的代码及支吾的需求正变的复杂。
不外关于论说提到的效用擢升,ycombinator 论坛上对该论说的研究,却大多是怀疑的声息。有东说念主说需要花多半时候成立 AI 生成的代码中的问题。
这些微细分别从未被这类方针所捕捉。更多的东说念主研究提交的代码数目增多,是不是等同于格式员信得过的责任效用擢升。
菜鸟格式员完成一个功能需要几十行代码,而资深格式员则只需要几行就能兑现。此外,由于引入了 AI 编程,代码被删除和重写的频率如何?这可能扼制易统计,但这却很能反应 AI 编程带来的责任效用擢升。
另一个更关于代码提交数目增多与责任效用擢升的不雅点是,假定职工之间具备同等的专科智商,那么坐褥力就取决于代码行数的产出。但事实上,有的任务很难,但不需要太多行代码,唯有资深格式员才气完成;而有些任务很恣意,却需要许多行代码。只看代码提交量,是将统统任务齐行动是中等难度的任务。
此外,不同格式员提交的代码质地不同,这小数在该论说中也莫得体现。从这个角度去看,每一滑代码齐应该被视为一种包袱,而不是财富。劝诱团队需格式域各人来判断到底需要几许行代码存在。
就像你可能分解过每小时搬运的物品数目来预计仓库职工的坐褥力。但若是有东说念主只是把东西简陋扔到仓库里,或者搬运本不需要挪动的东西,他们就会最大化这个方针。
AI 扶助下每个格式员能生成更多的代码了,但这些代码果然是完成对应任务所必须的吗?这不是业务方支吾辩论的问题,只是预计提交的代码数,可能会饱读吹无须要的重叠业绩。
从这个角度来看,粗略「裁剪行数」是更合适的评估格式职责任效用的方针。这么一来,通过重构来减少代码库限制的样式仍然不错被视为有坐褥力。每删除一滑代码得 1 分,每添加一滑代码也得 1 分。
OpenAI 依旧跨越,但差距在变小
效用跃升的背后,是复旧性技巧栈的强烈重构。论说以不同大模子提供商的 SDK 下载量为历练变量,发当今 AI 牵记模块中,mem0 以 59% 市占率一骑绝尘;而对比向量数据库「六强混战」(Weaviate 25% 跨越,Chroma/Pinecone/Qdrant 等紧咬)。
LLMOps 层,LiteLLM 增长 4 倍至 4100 万下载,LangSmith 借 LangChain 生态紧缚上位。这印证一个趋势,即模子调遣、监控、左迁已从「可选项」变为「基建标配」。
当编程调用的智能体数目越来越多,运维复杂度指数飞腾,LLMOps 正在接续曩昔 K8s 之于微服务的变装。
关于模子间的武备竞赛,该论说历练模子提供商从 2022 年 1 月到 2025 年 11 月的 SDK 下载量,主要玩家是 OpenAI、Anthropic 和 Google GenAI。OpenAI 以一条陡峻飞腾的绿色弧线主导市集。其下载量从 2022 岁首的险些为零,一起飙升至 2025 年 11 月的 1.3 亿次,配置了填塞的市集指令者地位。
Anthropic(红色折线)的增长轨迹号称「火箭式」。
诚然起步较晚且基数较小,但自 2023 年下半年运行,其下载量呈指数级爆发,到 2025 年 11 月已达到 4300 万次,兑现了自 2023 年 4 月以来 1547 倍的惊东说念主增长,Open AI 和 Anthropic 的比值已从 47:1 缩至 4.2:1 ——劝诱者正在用脚投票,向更通达、更可控、更可编程的接口转移。
而黄色弧线代表谷歌,其增长相对拖拉,在 2025 年 11 月的下载量约为 1360 万次,与前两者比拟存在权臣差距。
不同模子的参数决定模子的适配场景
这份论说还揭示了五大主流模子作为编码智能体后端的实测基准(历练方针包括第一个 token 出现需要恭候的时候、婉曲量、资本等),见下表。
通过该表,可看出 Claude Sonnet 4.5 与 Opus 4.5 只需要恭候不到 2.5 秒,就会复返第一个 token,权臣优于 GPT-5 系(>5 秒)。而在交互式编程中,2 秒是「心流」与「分神」的临界阈值。
而关于批量生成场景,GPT-5-Codex 与 GPT-5.1 的婉曲量断崖跨越,相宜后台 CI/CD 活水线中的大限制代码生成 / 测试用例填充。
Gemini 3 Pro 则在响应速率时权臣较慢,需要等 10 多秒才会复返第一个 token,每秒输出的 token 数也太少,不相宜交互式编程的使用场景。
该论说的终末部分,还给出了 2025 年基础模子及大模子编程欺诈规模的要道论文,这些筹商预示下一波冲突认识,举例 Self-MoA 颠覆传统多模子集成,评释单模子屡次采样 + 团聚可卓绝异构模子搀杂,这意味着「模子万般性」或让位于「推理旅途万般性」,而 Search-R1 用强化学习西宾模子「自主决定何时搜索」,将搜索引擎变为可学习的环境动作,而非静态的器用调用。RetroLM 更是在径直在 KV 层面检索,绕过原始文本,编削大模子组织牵记的样式。
不管用了几许 AI 扶助编程,提派遣码前仍需东说念主工审查。跟踪 AI 编程器用的使用数据,无法包含东说念主工审核的部分,这将难以信得过反应家具本体的使用体验和成果。不外若是你能评释 AI 编程器用有助于更快地发布功能,而不是只是允许更多的代码行数通过审查,那么你劝诱的 AI 编程器用将具有更强的可评释价值。
参考而已:免费会议直播系统






