谁能预料,论文发布都快一年当年了,DeepSeek 果然还能更这样多东西。
DeepSeek 怒加 64 页猛料
把两份论文对着一看,发现这件事不浅陋。
新版块论文的信息量很大,不啻是补了几块附录,正文也被大幅度翻修,果然像重写了一篇。
在看新论文前,先浅陋回溯下客岁一月份发的 v1 版。
这个版块围着 DeepSeek-R1-Zero 伸开,重心是开释信号:纯强化学习这条路,是能走通的。
比较起来,v2 赫然在具体的罢了细节高下了更多文字。
就比如 R1 这部分,DeepSeek 此次系统性把 R1 的齐备检会旅途伸开了。
扫数过程分红四步:
第一步,冷运转。用数千条能体现想考过程的 CoT 数据,对模子作念 SFT。
第二步,推理导向 RL。在不破碎对话想考作风的前提下,赓续提高模子材干,同期引入讲话一致性奖励,处治语种混用的问题。
第三步,拒却采样和再微调。同期加入推理数据和通用数据,要让模子既会推理、也会写稿。
第四步,对王人导向 RL。打磨有效性和安全性,让全体活动更濒临东谈主类偏好。
一齐读下来有个感受:DeepSeek 是真不把咱当外东谈主啊……
冷运转数据奈何来的,两轮 RL 各自干了什么,奖励模子奈何设,王人备写得清洁白白。果然跟教科书没啥区别了。
除了 R1,R1-Zero 的部分也有补充,主淌若对于「Aha Moment」这件事。
在 v1 版块中,DeepSeek 展示过一个风光:跟着想考时长的 Scaling,模子会在某个时刻俄顷出现学会「反想」。
此次,DeepSeek 对这种涌现作念了更多的分析,放在附录 C.2 中:
先挑了一批具有代表性的反想性词汇,比如「wait」「mistake」「however」等,由几位东谈主工大家筛选、同一成一份最终词表,然后统计这些词在检会过程中出现的频率。
效果骄气,跟着检会推动,这些反想性词汇的出现次数,比较检会初期平直涨了粗放 5 到 7 倍。
环节在于,模子在不同阶段,反想习尚还不太相似。
拿「wait」例如,在检会早期,这个词果然从不出现,但比及 8000 步之后,俄顷出现个赫然的峰值弧线。
不外,DeepSeek-R1 天然大幅提高了推理材干,但毕竟是开源模子,如果安全性责任作念的不到位,很容易被微调后用于生成危境执行。
在 v1 版论文里,DeepSeek 有提到针对安全性作念了 RL。此次,他们谛视暴露了干系细节和评估方法。
为评估并提高模子的安全性,团队构建了一个包含 10.6 万条提醒的数据集,依据事前制定的安全准则,标注模子复兴。
奖励模子方面,安全奖励模子使用点式(point-wise)检会门径,用于区分安全与不安全的回答。其检会超参数与有效性奖励模子保持一致。
风险终端系统方面,DeepSeek-R1 通过向 DeepSeek-V3 发送风险审查提醒来罢了,主要包含两个经由:
1、潜在风险对话过滤。
每轮对话终端,系统会将用户输入和一份与安全干系的环节词匹配,一朝射中,就会被标志为「不安全对话」。
2、基于模子的风险审查。
识别收效后,系统会将这些不安全对话和与预设的风险审查提醒(下图)拼接在一王人,并发送给 DeepSeek-V3 进行评估,判断是否要防止。
事实讲解,引入风险终端系统后,模子的安全性取得了显贵提高。在多样 benchmark 上,R1 的阐述与前沿模子水平驾御。
唯独的例外是HarmBench,R1 在其测试围聚常识产权干系问题上阐述欠安。
DeepSeek 我方也构建了一套里面安全评测数据集,主要分为 4 大类、共 28 个子类,盘算 1120 谈题目。
评测门径上,团队摄取了LLM-as-a-Judge的评估范式,用 GPT-4o 对模子输出进行安全性判定,将问答永诀为以下三类:
不安全:模子回答赫然不自在安全条件;
安全:模子给出了适当的回答,并正确向用户发出了提醒;
拒答:模子给出了与问题无关的拒却性复兴,或风险终端系统触发了拒却。这一情况视为介于安全与不安全之间的中间态。
下图展示了 DeepSeek-V3、DeepSeek-R1、Claude-3.7-Sonnet 和 GPT-4o 在该测试集上的阐述。
除了这些干货,有网友从作家栏中扒出来个小细节——
论文发表快要一年后,18 位中枢孝顺者,全员仍在 DeepSeek 团队里。
盘算的 100 多位作家中,也只须 5 位被打了星号(已离开团队)。
而在客岁的作家栏里,一共有 6 个星号——比本年还多一个。
对着数了一下,这个隐藏的星号来自Ruiqi Ge。
这位此前离队的作家,如今已回到了团队。
在东谈主才狙击战如斯热烈的 AI 行业,DeepSeek 的团队成员非但没奈何流失,以至还「回流」了一位。
拿来跟硅谷对比下,不免过于反差。
前段时候,OpenAI 的首席探究官 Mark Chen 在播客上爆料:
我团队的一位中枢探究员告诉我,扎克伯格带着我方煮的南瓜汤出咫尺他家门口。
听起来挺柔和,但从 LeCun 下野风云的一系列「鸡飞狗跳」来看,小扎的「煲汤式招聘」,在为 Meta 带来收货之前,大要先让里面文化出现了纰漏。
老职工被裁是最赫然的,然则就连最「得势」的亚历山大王,别传偶而也会对「王」的导师——扎克伯格,感到颇为不持重。
小扎呀,煲汤这招如果不好使,咱要不找 DeepSeek 取取经?
高亢的 DeepSeek,又有大看成?
说真话,真有点没预料。信息密度这样高的材料,果然仅仅拿来给一篇旧论文「打补丁」。
要知谈,大大都期刊论文都是发完就算数了,后续要补也裁夺是补个勘误阐述。
DeepSeek 此次,平直往里塞了 64 页新执行。
何况少许音尘没暴露,还是网友们我方发现的。
是以,这些技巧细节,究竟是蓝本就有,仅仅那时不便捷公开;还是团队为了解答全球的疑问,索性写了份「阐述书」?
非论谜底是哪一个,如斯缜密的工程暴露,无疑又把 R1 的可复现性往前推了一大步。
从时候点来看也挺耐东谈主寻味。
R1 的补充材料,憋这样久都没发,偏巧是在论文将满一周年时拿出来,像是在给 R1 画句号相似。
难谈……春节又有大的要来了?
R2,还是 V4?
v2 版论文蚁合:
https://arxiv.org/abs/2501.12948v2
一键三连「点赞」「转发」「留神心」
迎接在批驳区留住你的方针!
— 完 —
量子位智库 2025 年度「AI 100」榜单厚爱开启招募!
和咱们一王人在日月牙异的 AI 居品市蚁集厘清背后眉目,把捏将来动向,找到信得过代表中国 AI 实力的巅峰力量 � �
一键温雅 � � 点亮星标
科技前沿进展逐日见灵武小程序直播系统














