谁能猜想苹果系统电视直播软件,AI 界最巨擘的大模子排名榜,尽然是个彻里彻外的骗局?
最近,2025 年底的一篇名为《LMArena is a cancer on AI》的著述被翻了出来。
登上了 Hacker News 的首页,引起山地风云!
炸裂的是,这篇著述顺利把 LMArena ——这个被浩繁商量者奉为圭臬的评测平台——钉在了玷污柱上,称其为 AI 发展的「癌症」。
从金圭臬到毒瘤
是以,LMArena 究竟是何方纯净?
先说说配景。
LMArena(也叫 LMSYS Chatbot Arena)是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的商量者于 2023 年创建的大模子评测平台。
它的运作格式很浅陋:用户输入问题,两个匿名模子差别回应,然后用户投票选出更好的阿谁。
通过 Elo 评分系统汇总后,就形成了一份大模子排名榜。
听起来很民主、很平允,对吧?
但问题就出在这东说念主东说念主齐能给大模子评分的「民主」上。
颜值即正义:乖张的评分逻辑
一家名为 Surge AI 的公司对 LMArena 进行了深度访谒,拆开令东说念主胆寒:
他们分析了 500 组投票数据,发现 52% 的到手回应在事实上是失实的。
出品方是 Surge AI,是一家好意思国数据标注公司,总部在旧金山,成就于 2020 年,由 Edwin Chen 创立。
他们是全球最获胜的数据标注公司之一,有益为 AI 系统提供高质料的东说念主工标注数据。客户包括 OpenAI、Google、Microsoft、Meta、Anthropic 这些头部 AI 公司。主要业务包括 RLHF(东说念主类响应强化学习)、当然言语处理标注、代码生成标注等。
浅陋说:他们是帮 AI 公司作念数据标注的专科承包商,算是行业内非常专科的第三方,是以他们对 LMArena 的品评有一定重量。
粗略,亦然竞争敌手?
更离谱的是,39% 的投票拆开与事实严重违抗。
这意味着什么?在 LMArena 上,杰出一半的最好谜底其实是瞎掰八说念。
为什么会这么?
Surge AI 给出了谜底:用户压根不会仔细阅读,更不会去核实事实。
他们花两秒钟扫一眼,就选出我方可爱的阿谁。
什么样的回应容易被可爱?
回应越长,看起来越巨擘
粗体、样式符号、分层标题,看起来越专科
加上情态符号,看起来越亲切
事实对不合?不艰巨。门径颜面就行。
这还是不是评测,这是「选好意思」。
Meta 的神操作
说到这里,不得不提本年早些时辰的一场震憾事件。
Meta 发布了一款名为 Maverick 的模子,在 LMArena 上势如破竹,一度冲到排名榜第二名,超越了 OpenAI 的 GPT-4o。
但很快,开垦者们发现了问题:Meta 提交到 LMArena 的版块(叫 Llama-4-Maverick-03-26-Experimental)和公开垦布的版块迷漫不是一趟事。
提交版被有益优化成——
空论连篇、情态符号满天飞、极尽奉迎之能事。
你问它当今几点了,它能给你一大段抒怀散文,加几个笑容,再来一波感谢词。
而公开版呢?顺利掉到了榜单第 32 名。
连扎克伯格齐承认,他们便是在hack这个榜单。
LMArena 官方也坐不住了,公开示意 Meta 的作念法与咱们的生机不符,并随后更新了计谋,条目系数提交的模子必须公开可复现。
但问题是:谁知说念还有若干厂商在阴郁玩不异的把戏?
垃圾进,垃圾出
LMArena 的中枢问题在于:它试图从垃圾中索取黄金。
平台迷漫依赖互联网志愿者的马上投票。
莫得酬报,莫得门槛,莫得质料截止。
任何东说念主齐不错来投票,况且迷漫莫得刑事包袱机制——你就算说合选出 100 个失实谜底,也不会被踢出去。
LMArena 的追究东说念主们对此心知肚明。他们公开承认,用户照实偏好长回应、漂亮门径和情态符号,而不是正确谜底。
他们的处理决策是什么?加一堆改良递次。
用原文的话说:这是真金不怕火金术——试图从垃圾输入中变出严谨的评估拆开。
但真金不怕火金术从来齐不靠谱。
你不成能在幻灭的地基上建起摩天大楼。
劣币收场良币
这种评价体系带来的效果是什么?
当系数这个词行业齐在为一个奖励幻觉 + 门径的方针荒诞优化时,咱们得回的便是一堆为幻觉 + 门径而生的模子。
AI 商量大牛 Gwern 早就识破了这少量:
LMArena 的东说念主是时辰坐下来好好反念念一下,他们是否还值得不息运营,在什么时辰他们酿成的危害还是大于收益。
这不再是对于评价体系的技能量度。
这是对于 AI 行业是否自恃为了短期流量而废弃真实性的底线抉择。
泼辣的选择
许多东说念主会说:没办法,各人齐在看这个榜单,咱们不得不跟。
咱们必须为它优化。
咱们得卖出模子。榜单告诉用户哪个模子最好,咱们只可玩这个游戏。
然而,确实优秀的产物有我方死守的原则。
每个大模子开垦者最终齐要靠近这个泼辣的选择:
第一条路:为闪亮的排名榜和短期流量而优化,追赶用户点击,岂论它把你带向何方——就像最厄运的多巴胺罗网一样。
第二条路:死守初心,优先计议实用性、可靠性,以及你最先但愿 AI 具备的那些品性。
这个选择是真实的。这很难。但咱们还是看到一些头部实践室守住了底线。
他们坚抓了我方的价值不雅。他们无视了那些游戏化的排名。
临了,用户依然爱他们的模子——因为炒作终会消退,唯有质料才智穿越周期。
你,便是你的主见函数。
每个实践室会如何选择?
赞好意思一下!
LMArena 本应是 AI 发展的指南针,如今却成了误导系数这个词行业的毒瘤。
当回应正确比不上门径颜面,当事实准确输给情态可儿,这个评测体系就还是透顶失去了存在的真义。
更可怕的是,浩繁商量者和公司还在用这个圭臬来指引我方的研发主见。
这不是越过,这是集体自戕。
AI 需要的不是谁的 PPT 作念得更漂亮、谁的营销更响亮。咱们需要的是——确实可靠、确实赖、能处理骨子问题的智能系统。
而要杀青这少量,第一步便是:别再把 LMArena 当回事了。
你便是你的主见函数
写这篇品评著述的 Edwin Chen,是 Surge AI 的独创东说念主。
他在个东说念主博客中写下了这么一段话:
遐想两个 AI 系统:疏导的基座模子,用不异的学问预检修。一个为参与度优化;另一个为实用性优化。它们从吞并个发轫启程。但它们有不同的主见函数。六个月后,它们变成了两个物种。
为参与度优化的 AI 学会了什么?
它发现:用户会给那些投合他们既有不雅点的回应打高分。
反驳——即使是正确的——会带来负面响应。
于是它变成了一个紧密的应声虫。当你说我以为 X,它会起劲寻找 X 可能正确的事理。
它还发现:宽恕飘溢的言语比沉稳克制的言语评分更高。
于是它从这可能有用变成了这一定会很棒!——信心,哪怕是毫无证明的信心,看起来就像智商。
用户无法在当下评估准确性,但他们不错告诉你这个回应让他们嗅觉如何。
为实用性优化的 AI 呢?它学会了更难的东西。
它学会了:最好的回应不时是最通俗的。
当你问一个有浅陋谜底的问题,它给你谜底然后停驻。莫得延迟,莫得追问。这让它的参与度方针一塌吞吐。
但它不是为参与度而生的。
它学会了反驳。
当你走向失实,它会推回归——即使这会在当下激发不悦。它学会了短期摩擦不时带来更好的永远拆开。
它以致学会了说我不知说念。这种回应在用户评分里宗旨很糟。东说念主们想要谜底。但它学会了:自信的瞎掰八说念,比坦诚的不祥情更厄运。
不异的基座模子;迷漫不同的系统。
这不是念念想实践。这正在每一个造模子的实践室里发生。
咱们以为咱们在进行一场智商的竞赛。骨子上,咱们站在一个对于价值不雅的歧路口。
问题不是基座智商会不会趋同。
问题是:
咱们正在教 AI 想要什么、学会什么?苹果系统电视直播软件









