春节时在马来西亚,兰卡威岛上的酒店有starlink,无墙的世界网速也很快,那里每天上午大家基本上不会外出,餐馆通常13点左右才会营业,所以早上的时间我们会待在酒店里。那几天8:45左右我就会醒来,带着笔记本到露台,刷些hn、twitter、youtube,那几天也是deepseek在西方炸锅的时候,我看了twitter上的中文圈的争论,美国、欧盟人的meme,hn上的几百条讨论,youtube上有nbc的一个很长的采访。
nbc的节目清了几个AI相关公司的CEO讨论deepseek,有一个是AI模型包装的公司,还有一个是做数据服务提供的公司scaleAI,基本对成果是肯定的,但是很搞笑的是scaleAI的人得出的结论是芯片封锁的力度不够,还有绕过的方式,要加码封锁。感觉美国AI公司对中国的敌意很重,包括openAI等一系列公司都是禁止中国注册的。
人工智能芯片的禁运很难做到,这不像光刻机,全世界每年卖出的也就两位数?每一台的去向都一清二楚,而h100、4090这种每年卖出几百上千万片的,如何追踪清楚流通过程?
我觉的有必要读下deepseek的两篇论文,记录下自己的理解:
- 关于500万美元训练费用,来自论文中,总共训练V3花费了2664k GPU小时,使用的是H800,按照 $2/小时/GPU的租赁费用计算,大约$5.3M, 这个不包含研究人员费用、前期调研、实验阶段的费用。
- 以Deepseek-v3-base模型为基础,使用强化学习(RL),无语料库,训练出了有推理能力的Deepseek-R1-Zero, 这个模型会存在多语言混杂的问题。
- 同样基于Deepseek-v3-base,使用CoT数据集作为冷启动数据,使用RL,训练出了Deepseek-R1,这个模型会让输出更一致。冷启动数据格式如
|special_token|<reasoning_process>|special_token|<summary>
,这相当于让模型学会这种输出格式。 - RL中的奖励机制,采用Group Relative Policy Optimization(组相对策略优化),即同一个问题,使用不同参数,得到多个输出,然后在该组内,奖励最好的输出。
- 使用规则机制评判输出好坏,对于代码问题,采用预定义的测试用例,调用编译器编译执行检查输出;对于数学问题,首先要检查是否按照格式输出,然后与正确答案比对;奖励格式正确的输出,即将思考过程放入
<think></think>
标签中间的答案。 - R1的模型参数过大,为了方便公众使用,采用了R1输出的800k带有CoT的样本,Distill方式微调了其他小模型,如Qwen、Llama,提升了这些模型的推理能力,目前能在个人笔记本上部署,如
ollama run deepseek-r1:1.5b
, 这个实际上是DeepSeek-R1-Distill-Qwen-1.5B
。