苹果系统电视直播软件

nasi 昨天 4

默认

摘要： 钠斯网络专注于直播系统源码开发，支持私有化部署与自建流媒体，产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等，提供全套解决方案与源码交付，助力企业...

钠斯网络专注于直播系统源码开发，支持私有化部署与自建流媒体，产品涵盖短视频系统、语聊系统、教育直播、直播带货、体育赛事直播、IM即时通讯系统等，提供全套解决方案与源码交付，助力企业快速搭建稳定高效的直播平台。

谁能猜想苹果系统电视直播软件，AI 界最巨擘的大模子排名榜，尽然是个彻里彻外的骗局？

最近，2025 年底的一篇名为《LMArena is a cancer on AI》的著述被翻了出来。

登上了 Hacker News 的首页，引起山地风云！

炸裂的是，这篇著述顺利把 LMArena ——这个被浩繁商量者奉为圭臬的评测平台——钉在了玷污柱上，称其为 AI 发展的「癌症」。

从金圭臬到毒瘤

是以，LMArena 究竟是何方纯净？

先说说配景。

LMArena（也叫 LMSYS Chatbot Arena）是由加州大学伯克利分校、卡内基梅隆大学等顶尖学府的商量者于 2023 年创建的大模子评测平台。

它的运作格式很浅陋：用户输入问题，两个匿名模子差别回应，然后用户投票选出更好的阿谁。

通过 Elo 评分系统汇总后，就形成了一份大模子排名榜。

听起来很民主、很平允，对吧？

但问题就出在这东说念主东说念主齐能给大模子评分的「民主」上。

颜值即正义：乖张的评分逻辑

一家名为 Surge AI 的公司对 LMArena 进行了深度访谒，拆开令东说念主胆寒：

他们分析了 500 组投票数据，发现 52% 的到手回应在事实上是失实的。

出品方是 Surge AI，是一家好意思国数据标注公司，总部在旧金山，成就于 2020 年，由 Edwin Chen 创立。

他们是全球最获胜的数据标注公司之一，有益为 AI 系统提供高质料的东说念主工标注数据。客户包括 OpenAI、Google、Microsoft、Meta、Anthropic 这些头部 AI 公司。主要业务包括 RLHF（东说念主类响应强化学习）、当然言语处理标注、代码生成标注等。

浅陋说：他们是帮 AI 公司作念数据标注的专科承包商，算是行业内非常专科的第三方，是以他们对 LMArena 的品评有一定重量。

粗略，亦然竞争敌手？

更离谱的是，39% 的投票拆开与事实严重违抗。

这意味着什么？在 LMArena 上，杰出一半的最好谜底其实是瞎掰八说念。

为什么会这么？

Surge AI 给出了谜底：用户压根不会仔细阅读，更不会去核实事实。

他们花两秒钟扫一眼，就选出我方可爱的阿谁。

什么样的回应容易被可爱？

回应越长，看起来越巨擘

粗体、样式符号、分层标题，看起来越专科

加上情态符号，看起来越亲切

事实对不合？不艰巨。门径颜面就行。

这还是不是评测，这是「选好意思」。

Meta 的神操作

说到这里，不得不提本年早些时辰的一场震憾事件。

Meta 发布了一款名为 Maverick 的模子，在 LMArena 上势如破竹，一度冲到排名榜第二名，超越了 OpenAI 的 GPT-4o。

但很快，开垦者们发现了问题：Meta 提交到 LMArena 的版块（叫 Llama-4-Maverick-03-26-Experimental）和公开垦布的版块迷漫不是一趟事。

提交版被有益优化成——

空论连篇、情态符号满天飞、极尽奉迎之能事。

你问它当今几点了，它能给你一大段抒怀散文，加几个笑容，再来一波感谢词。

而公开版呢？顺利掉到了榜单第 32 名。

连扎克伯格齐承认，他们便是在hack这个榜单。

LMArena 官方也坐不住了，公开示意 Meta 的作念法与咱们的生机不符，并随后更新了计谋，条目系数提交的模子必须公开可复现。

但问题是：谁知说念还有若干厂商在阴郁玩不异的把戏？

垃圾进，垃圾出

LMArena 的中枢问题在于：它试图从垃圾中索取黄金。

平台迷漫依赖互联网志愿者的马上投票。

莫得酬报，莫得门槛，莫得质料截止。

任何东说念主齐不错来投票，况且迷漫莫得刑事包袱机制——你就算说合选出 100 个失实谜底，也不会被踢出去。

LMArena 的追究东说念主们对此心知肚明。他们公开承认，用户照实偏好长回应、漂亮门径和情态符号，而不是正确谜底。

他们的处理决策是什么？加一堆改良递次。

用原文的话说：这是真金不怕火金术——试图从垃圾输入中变出严谨的评估拆开。

但真金不怕火金术从来齐不靠谱。

你不成能在幻灭的地基上建起摩天大楼。

劣币收场良币

这种评价体系带来的效果是什么？

当系数这个词行业齐在为一个奖励幻觉 + 门径的方针荒诞优化时，咱们得回的便是一堆为幻觉 + 门径而生的模子。

AI 商量大牛 Gwern 早就识破了这少量：

LMArena 的东说念主是时辰坐下来好好反念念一下，他们是否还值得不息运营，在什么时辰他们酿成的危害还是大于收益。

这不再是对于评价体系的技能量度。

这是对于 AI 行业是否自恃为了短期流量而废弃真实性的底线抉择。

泼辣的选择

许多东说念主会说：没办法，各人齐在看这个榜单，咱们不得不跟。

咱们必须为它优化。

咱们得卖出模子。榜单告诉用户哪个模子最好，咱们只可玩这个游戏。

然而，确实优秀的产物有我方死守的原则。

每个大模子开垦者最终齐要靠近这个泼辣的选择：

第一条路：为闪亮的排名榜和短期流量而优化，追赶用户点击，岂论它把你带向何方——就像最厄运的多巴胺罗网一样。

第二条路：死守初心，优先计议实用性、可靠性，以及你最先但愿 AI 具备的那些品性。

这个选择是真实的。这很难。但咱们还是看到一些头部实践室守住了底线。

他们坚抓了我方的价值不雅。他们无视了那些游戏化的排名。

临了，用户依然爱他们的模子——因为炒作终会消退，唯有质料才智穿越周期。

你，便是你的主见函数。

每个实践室会如何选择？

赞好意思一下！

LMArena 本应是 AI 发展的指南针，如今却成了误导系数这个词行业的毒瘤。

当回应正确比不上门径颜面，当事实准确输给情态可儿，这个评测体系就还是透顶失去了存在的真义。

更可怕的是，浩繁商量者和公司还在用这个圭臬来指引我方的研发主见。

这不是越过，这是集体自戕。

AI 需要的不是谁的 PPT 作念得更漂亮、谁的营销更响亮。咱们需要的是——确实可靠、确实赖、能处理骨子问题的智能系统。

而要杀青这少量，第一步便是：别再把 LMArena 当回事了。

你便是你的主见函数

写这篇品评著述的 Edwin Chen，是 Surge AI 的独创东说念主。

他在个东说念主博客中写下了这么一段话：

遐想两个 AI 系统：疏导的基座模子，用不异的学问预检修。一个为参与度优化；另一个为实用性优化。它们从吞并个发轫启程。但它们有不同的主见函数。六个月后，它们变成了两个物种。

为参与度优化的 AI 学会了什么？

它发现：用户会给那些投合他们既有不雅点的回应打高分。

反驳——即使是正确的——会带来负面响应。

于是它变成了一个紧密的应声虫。当你说我以为 X，它会起劲寻找 X 可能正确的事理。

它还发现：宽恕飘溢的言语比沉稳克制的言语评分更高。

于是它从这可能有用变成了这一定会很棒！——信心，哪怕是毫无证明的信心，看起来就像智商。

用户无法在当下评估准确性，但他们不错告诉你这个回应让他们嗅觉如何。

为实用性优化的 AI 呢？它学会了更难的东西。

它学会了：最好的回应不时是最通俗的。

当你问一个有浅陋谜底的问题，它给你谜底然后停驻。莫得延迟，莫得追问。这让它的参与度方针一塌吞吐。

但它不是为参与度而生的。

它学会了反驳。

当你走向失实，它会推回归——即使这会在当下激发不悦。它学会了短期摩擦不时带来更好的永远拆开。

它以致学会了说我不知说念。这种回应在用户评分里宗旨很糟。东说念主们想要谜底。但它学会了：自信的瞎掰八说念，比坦诚的不祥情更厄运。

不异的基座模子；迷漫不同的系统。

这不是念念想实践。这正在每一个造模子的实践室里发生。

咱们以为咱们在进行一场智商的竞赛。骨子上，咱们站在一个对于价值不雅的歧路口。

问题不是基座智商会不会趋同。

问题是：

咱们正在教 AI 想要什么、学会什么？苹果系统电视直播软件

打赏

海报

阅读

苹果系统电视直播软件

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

相关推荐

乔韵直播秀场系统

网络直播系统解决方案

小猪电商直播系统源码

直播系统开发票

苹果系统电视直播软件

网校直播系统b超

电视台网络直播系统

搭建网络视频直播系统