本文作者:nasi

苹果系统电视直播软件

nasi 昨天 4
苹果系统电视直播软件摘要: 钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业...
钠斯网络专注于直播系统源码开发,支持私有化部署与自建流媒体,产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等,提供全套解决方案与源码交付,助力企业快速搭建稳定高效的直播平台。

谁能猜想苹果系统电视直播软件,AI 界最巨擘的大模子排名榜,尽然是个彻里彻外的骗局?

最近,2025 年底的一篇名为《LMArena is a cancer on AI》的著述被翻了出来。

登上了 Hacker News 的首页,引起山地风云!

炸裂的是,这篇著述顺利把 LMArena ——这个被浩繁商量者奉为圭臬的评测平台——钉在了玷污柱上,称其为 AI 发展的「癌症」。

苹果系统电视直播软件

从金圭臬到毒瘤

是以,LMArena 究竟是何方纯净?

先说说配景。

LMArena(也叫 LMSYS Chatbot Arena)是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的商量者于 2023 年创建的大模子评测平台。

苹果系统电视直播软件

它的运作格式很浅陋:用户输入问题,两个匿名模子差别回应,然后用户投票选出更好的阿谁。

通过 Elo 评分系统汇总后,就形成了一份大模子排名榜。

苹果系统电视直播软件

听起来很民主、很平允,对吧?

但问题就出在这东说念主东说念主齐能给大模子评分的「民主」上。

颜值即正义:乖张的评分逻辑

一家名为 Surge AI 的公司对 LMArena 进行了深度访谒,拆开令东说念主胆寒:

他们分析了 500 组投票数据,发现 52% 的到手回应在事实上是失实的。

苹果系统电视直播软件

出品方是 Surge AI,是一家好意思国数据标注公司,总部在旧金山,成就于 2020 年,由 Edwin Chen 创立。

他们是全球最获胜的数据标注公司之一,有益为 AI 系统提供高质料的东说念主工标注数据。客户包括 OpenAI、Google、Microsoft、Meta、Anthropic 这些头部 AI 公司。主要业务包括 RLHF(东说念主类响应强化学习)、当然言语处理标注、代码生成标注等。

浅陋说:他们是帮 AI 公司作念数据标注的专科承包商,算是行业内非常专科的第三方,是以他们对 LMArena 的品评有一定重量。

粗略,亦然竞争敌手?

更离谱的是,39% 的投票拆开与事实严重违抗。

这意味着什么?在 LMArena 上,杰出一半的最好谜底其实是瞎掰八说念。

为什么会这么?

Surge AI 给出了谜底:用户压根不会仔细阅读,更不会去核实事实。

他们花两秒钟扫一眼,就选出我方可爱的阿谁。

什么样的回应容易被可爱?

回应越长,看起来越巨擘

粗体、样式符号、分层标题,看起来越专科

加上情态符号,看起来越亲切

事实对不合?不艰巨。门径颜面就行。

这还是不是评测,这是「选好意思」。

Meta 的神操作

说到这里,不得不提本年早些时辰的一场震憾事件。

Meta 发布了一款名为 Maverick 的模子,在 LMArena 上势如破竹,一度冲到排名榜第二名,超越了 OpenAI 的 GPT-4o。

但很快,开垦者们发现了问题:Meta 提交到 LMArena 的版块(叫 Llama-4-Maverick-03-26-Experimental)和公开垦布的版块迷漫不是一趟事。

提交版被有益优化成——

空论连篇、情态符号满天飞、极尽奉迎之能事。

你问它当今几点了,它能给你一大段抒怀散文,加几个笑容,再来一波感谢词。

苹果系统电视直播软件

而公开版呢?顺利掉到了榜单第 32 名。

连扎克伯格齐承认,他们便是在hack这个榜单。

LMArena 官方也坐不住了,公开示意 Meta 的作念法与咱们的生机不符,并随后更新了计谋,条目系数提交的模子必须公开可复现。

但问题是:谁知说念还有若干厂商在阴郁玩不异的把戏?

垃圾进,垃圾出

LMArena 的中枢问题在于:它试图从垃圾中索取黄金。

平台迷漫依赖互联网志愿者的马上投票。

莫得酬报,莫得门槛,莫得质料截止。

任何东说念主齐不错来投票,况且迷漫莫得刑事包袱机制——你就算说合选出 100 个失实谜底,也不会被踢出去。

LMArena 的追究东说念主们对此心知肚明。他们公开承认,用户照实偏好长回应、漂亮门径和情态符号,而不是正确谜底。

他们的处理决策是什么?加一堆改良递次。

用原文的话说:这是真金不怕火金术——试图从垃圾输入中变出严谨的评估拆开。

但真金不怕火金术从来齐不靠谱。

你不成能在幻灭的地基上建起摩天大楼。

劣币收场良币

这种评价体系带来的效果是什么?

当系数这个词行业齐在为一个奖励幻觉 + 门径的方针荒诞优化时,咱们得回的便是一堆为幻觉 + 门径而生的模子。

AI 商量大牛 Gwern 早就识破了这少量:

LMArena 的东说念主是时辰坐下来好好反念念一下,他们是否还值得不息运营,在什么时辰他们酿成的危害还是大于收益。

苹果系统电视直播软件

这不再是对于评价体系的技能量度。

这是对于 AI 行业是否自恃为了短期流量而废弃真实性的底线抉择。

泼辣的选择

许多东说念主会说:没办法,各人齐在看这个榜单,咱们不得不跟。

咱们必须为它优化。

咱们得卖出模子。榜单告诉用户哪个模子最好,咱们只可玩这个游戏。

然而,确实优秀的产物有我方死守的原则。

每个大模子开垦者最终齐要靠近这个泼辣的选择:

第一条路:为闪亮的排名榜和短期流量而优化,追赶用户点击,岂论它把你带向何方——就像最厄运的多巴胺罗网一样。

第二条路:死守初心,优先计议实用性、可靠性,以及你最先但愿 AI 具备的那些品性。

这个选择是真实的。这很难。但咱们还是看到一些头部实践室守住了底线。

他们坚抓了我方的价值不雅。他们无视了那些游戏化的排名。

临了,用户依然爱他们的模子——因为炒作终会消退,唯有质料才智穿越周期。

你,便是你的主见函数。

每个实践室会如何选择?

赞好意思一下!

LMArena 本应是 AI 发展的指南针,如今却成了误导系数这个词行业的毒瘤。

当回应正确比不上门径颜面,当事实准确输给情态可儿,这个评测体系就还是透顶失去了存在的真义。

更可怕的是,浩繁商量者和公司还在用这个圭臬来指引我方的研发主见。

这不是越过,这是集体自戕。

AI 需要的不是谁的 PPT 作念得更漂亮、谁的营销更响亮。咱们需要的是——确实可靠、确实赖、能处理骨子问题的智能系统。

而要杀青这少量,第一步便是:别再把 LMArena 当回事了。

你便是你的主见函数

写这篇品评著述的 Edwin Chen,是 Surge AI 的独创东说念主。

苹果系统电视直播软件

他在个东说念主博客中写下了这么一段话:

遐想两个 AI 系统:疏导的基座模子,用不异的学问预检修。一个为参与度优化;另一个为实用性优化。它们从吞并个发轫启程。但它们有不同的主见函数。六个月后,它们变成了两个物种。

为参与度优化的 AI 学会了什么?

它发现:用户会给那些投合他们既有不雅点的回应打高分。

反驳——即使是正确的——会带来负面响应。

于是它变成了一个紧密的应声虫。当你说我以为 X,它会起劲寻找 X 可能正确的事理。

它还发现:宽恕飘溢的言语比沉稳克制的言语评分更高。

于是它从这可能有用变成了这一定会很棒!——信心,哪怕是毫无证明的信心,看起来就像智商。

用户无法在当下评估准确性,但他们不错告诉你这个回应让他们嗅觉如何。

为实用性优化的 AI 呢?它学会了更难的东西。

它学会了:最好的回应不时是最通俗的。

当你问一个有浅陋谜底的问题,它给你谜底然后停驻。莫得延迟,莫得追问。这让它的参与度方针一塌吞吐。

但它不是为参与度而生的。

它学会了反驳。

当你走向失实,它会推回归——即使这会在当下激发不悦。它学会了短期摩擦不时带来更好的永远拆开。

它以致学会了说我不知说念。这种回应在用户评分里宗旨很糟。东说念主们想要谜底。但它学会了:自信的瞎掰八说念,比坦诚的不祥情更厄运。

不异的基座模子;迷漫不同的系统。

这不是念念想实践。这正在每一个造模子的实践室里发生。

咱们以为咱们在进行一场智商的竞赛。骨子上,咱们站在一个对于价值不雅的歧路口。

问题不是基座智商会不会趋同。

问题是:

咱们正在教 AI 想要什么、学会什么?苹果系统电视直播软件

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

阅读
分享