这波融资由 Felicis 和加州大学投资公司 UC Investments 领投,Andreessen Horowitz、The House Fund 等机构跟投。
老本用真金白银投票,足以见得 AI 时期大模子评估这个赛谈有多香~
而这支 90 后华东谈主含量 99% 团队的走红之路,还得从 2023 年 ChatGPT 横空出世后提及。
从学术探索到买卖崛起
LMArena 的前身是也曾火爆 AI 圈的Chatbot Arena,最早由LMSYS这个自愿的开源组织创建。
组织的中枢成员全是来自 UC 伯克利、斯坦福、UCSD、CMU 等顶尖高校的学霸。
他们的开源推理引擎SGLang在业内初度罢判辨在 96 块 H100 上跑脱险些比好意思 DeepSeek 官方论说蒙胧量的开源决议。
咫尺 SGLang 照旧完了大限制部署,被 xAI、英伟达、AMD、谷歌云、甲骨文云、阿里云、好意思团、腾讯云等企业和机构采选。
不外,比起硬核时间,他们最主要也更出圈的职责是对大模子进行评估。
在 ChatGPT、Claude 一众模子刚刚面世之际,他们最初创办了 Chatbot Arena 这样一个第三方众包基准测评平台。
LMSYS 的创办东谈主之一、SGLang 主导者郑同情曾对咱们长远,其时之是以创建 Chatbot Arena,是因为他们我方测验了小羊驼 Vicuna 的开源模子。
其时他们合计我方模子还可以,但市面上已有的各式基准测试很难果然分袂出模子是"真好"照旧"假好"。
团队认为,评估模子最佳的样式便是将其放到网上,让用户试用并投票。于是乎他们就搞了个众包测试平台 Chatbot Arena,通过践诺的用户交互来评估模子性能。
效果没思到的是其后 Chatbot Arena 已零丁成一家公司,而小羊驼 Vicuna 等大模子的研发照旧停滞。
早期的 Chatbot Arena 搞的是双盲测试,让用户在不知谈模子身份的情况下盲选最优回应,这种方法眩惑了盛大 AI 有趣者来打卡。
其后,全球各地一有新模子更新王人会在内部暗暗测一把,Chatbot Arena 渐渐成为模子测评首选的排名榜。
这样的影响力让 Chatbot Arena 在 AI 界限崭露头角,赢得老本市集的认同。
它零丁出来成为一家买卖公司lmarena.ai,专注于 AI 模子评估。
2025 年 5 月,被曝获种子轮 1 亿好意思元投资,估值达到 6 亿好意思元。
动态竞技场
lmarena.ai 的主要样式便是如今全球大模子的动态竞技场 LMArena。
中枢评估规章围绕匿名对战、Elo 式评分和东谈主机协同框架伸开,样式也相比挑升义。
用户只有输入问题,系统就会速即匹配两个模子来作念匿名回应。
这时候民众无用管模子是谁,只需要笔据回应的横暴投票选出更优的阿谁,系统在投完票之后才会揭晓模子的真实身份。
在评分上,平台基于 Bradley – Terry 模子瞎想了 Elo 评分机制,每个模子王人有运行分数,赢了就加分,输了就扣分,跟着对战次数越来越多,分数会恬逸沉稳下来,最终造成及时更新的排名榜。
除此除外,平台还采选了东谈主机协同的评估方法,用东谈主类的真实投票来反馈民众对模子的偏好,再通过算法去均衡各个模子的出场次数、任务类型和样本溜达,幸免有的模子因为曝光多就被高估,草率因为曝光少就被低估,确保扫数评估流程自制客不雅。
就这样,LMArena 成了各家新模子"出谈"时的必测榜单。刻下 Gemini 3 Pro 以 1490 分位居榜首。
旧年拿到 1 亿好意思元种子轮融资后,LMArena 的发展速即超出预期。
在短期间内不仅累计了涵盖文本、视觉、聚积诞生等跨模态的 5000 万张投票,完成了 400 余种通达及特有模子的评估,还产出了笼罩文本、多模态、各人及管事等多个类别的 14.5 万个开源斗争数据点。
咫尺,LMArena 蓄意将新筹集的资金用于平台运营,确保平台沉稳且高效运行,栽培用户体验。同期扩大时间团队,为平台发展注入更多专科时间力量。
参考讨论:https://news.lmarena.ai/series-a/
一键三连「点赞」「转发」「贯注心」
宽贷在评述区留住你的思法!
— 完 —
量子位智库 2025 年度「AI 100」榜单厚爱开启招募!
和咱们扫数在日眉月异的 AI 居品市集中厘清背后眉目,把捏往常动向,找到果然代表中国 AI 实力的巅峰力量 � �
一键关爱 � � 点亮星标
科技前沿发扬逐日见西安互动直播系统下载







