这个春节,无论你是不是科技爱好者,大概率都逃不过关于DeepSeek的资讯刷屏。
除夕前夜,DeepSeek在中国区和美国区苹果App Store免费榜上同时冲到了下载量第一,这是国产App史无前例的佳绩,更是在全球范围内,首次有产品超越OpenAI的ChatGPT。
此前,深度求索宣布其推出的DeepSeek-V3仅花费558万美元,不到国外公司十分之一的GPU芯片和训练时长,就实现了与GPT-4o和Claude Sonnet 3.5等花费数亿美元训练的顶尖模型相当的性能。1月20日,深度求索推出推理模型DeepSeek-R1,仅用OpenAI十分之一的成本就达到其最新模型GPT-o1同级别的表现。这个消息,不啻于在科技界投下一枚重磅炸弹。
自从AI竞赛存在以来,这是第一次,焦虑给到美国科技公司。中国互联网和科技公司的角色始终是追随者,只能寄希望于用更多的资源投入追赶对手,但风向由OpenAI、Meta为代表的美国公司牢牢掌握。2022年起,美国政府宣布升级芯片出口管制,此后多次更新出口限制清单,限制高算力芯片出口,中国AI企业普遍陷入算力焦虑。
DeepSeek最新模型的出现,打破了大模型发展沦为巨头与资本游戏的行业共识,为业内追赶美国大模型的中国公司们提供一条新的思路,向业界证明了可以把大语言模型的训练成本降低1到2个数量级。业界此前普遍认为的训练成本是1亿美元甚至更多,说这是一场“军备竞赛”并不为过。几百万美元,令下场逐鹿者的门槛低了很多。现在比拼的,不再只是GPU数量,更应考虑的是哪个团队具备技术和产品上的创新能力。
相比OpenAI和它的中国效仿者们用数亿美元训练大模型,DeepSeek选择了一条更抠门也更极致的路线。
研究人员提出的一种新的MLA(多头潜在注意力机制)架构,与DeepSeek MoESparse (混合专家结构)结合,把显存占用降到了其他大模型最常用的MHA架构的5%-13%。
行业通常用数万亿token(文本单位)训练模型,但DeepSeek通过“数据蒸馏”技术,即用一个高精度的通用大模型当老师,而不是用题海战术来更高效训练学生“模型”,把数据计算最大程度降低,仅用1/5的数据量达到同等效果,促成了成本的下降。
一个通俗的举例可帮助我们理解这种变化:传统大模型每次处理问题都需激活全部参数,而普通用户提出的问题一般并不需要如此大的资源投入,这如同让一家医院的全部科室去会诊一个普通感冒;而DeepSeek-R1会先判断问题类型,再精准调用对应模块——数学题交给逻辑推理单元,写诗则由文学模块处理。这种设计让模型响应速度提升3倍,能耗也更低。
更快速度和更低能耗,建立在“低成本、高性能”的初始规划上。DeepSeek通过算法优化显著降低训练成本。R1的预训练费用只有557.6万美元,在2048块英伟达H800 GPU(针对中国市场的低配版GPU)集群上运行55天完成。此前,OpenAI等企业训练模型,都需要数千甚至上万块高算力的A100、H100等顶级显卡,花费数亿美元的训练成本。
当资源受到限制时,往往会激发创新,而资源过于充沛,创新却未必会如期而来。DeepSeek的出现是又一力证。
DeepSeek选择从垂直场景切入,从all in特定领域开始,追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。
这种另辟蹊径也意味着更高难度,更高风险。若路由错误(例如将诗歌创作误判为数学题),输出质量将会暴跌;模块间的知识隔离(如用数学公式写情书),可能导致跨领域任务失败。如果未能开发出足够优异的模块化模型,前期的投入可能浪费。大多数公司受限于路径依赖或资源约束,难以接受all in这一高风险路线。能把这个极致的路线走通,勇气与能力缺一不可。
早期DeepSeek的MoE模型误判率普遍在15%以上,团队通过引入强化学习优化路由决策,长期训练后模型在测试中将误判率控制在个位数的低位。多位行业人士将DeepSeek的脱颖而出理解为“模块化特种兵”,在与OpenAI等“通用巨兽”的比赛中,在部分领域展现出同等能力甚至略微领先。尽管DeepSeek的整体技术与OpenAI等美国企业存在差距,但其已经足以被视为一个实力逐渐接近的竞争对手。
DeepSeek引起轰动,除了模型本身的优异表现,还来自其坚持的免费开源主张,公开模型的源代码、权重和架构。无论是个人、开发者,还是企业用户,都可以免费使用其最新模型,并在此基础上开发更多应用,这也出于DeepSeek对自身发展情况的考量。通过开源策略,可以快速建立生态,获得更多用户和开发者支持。
在DeepSeek创始人梁文锋看来,DeepSeek未来可以只负责基础模型和前沿创新,其他公司在DeepSeek的基础上构建To B、To C的业务,如果能形成完整的产业上下游,就没必要自己做应用。
DeepSeek的模块化模型设计,如同精密的钟表——单个齿轮的工艺或许可复制,但整体协同需要长期试错与生态积累。竞争对手并不能依靠简单照搬就能复制其原始模型,越多用户和开发者使用,就意味着模型得到更多训练。
DeepSeek在引发科技界巨震同时,也引爆了价格战。日前,OpenAI发布了全新的o3大模型,免费对外开放。上周微软也向所有的Copilot用户免费发布了o1推理模型。
北京时间2月6日凌晨,OpenAI宣布向所有用户开放ChatGPT搜索功能,且无需注册。使用界面很简单,打开“搜索”按钮就行,旁边的“推理”选择是否展示整个推理过程。
谷歌DeepMind的Gemini 2.0系列全家桶也终于正式上新,不仅在性能上有进一步的提升,还挥舞起AI性价比的大旗,同时拥抱多模态能力。
Gemini 2.0 Flash支持多模态输入和文本输出,具备100万tokens的上下文窗口,并支持结构化输出、函数调用和代码执行等功能。定价方案也已确定,文本、图像和视频输入每百万tokens收费0.10美元,音频输入则为0.70美元(2月20日起正式生效)。文本输出每百万tokens收费0.40美元。轻量版Gemini 2.0 Flash-Lite的文本、图像和视频输入每百万tokens仅需0.075美元,几乎比标准版便宜了三分之一。音频输入也为0.075美元,文本输出为0.30美元,文本/图像/视频缓存为每百万tokens仅需0.01875美元,音频缓存为0.175美元。
作为对比,DeepSeek-V3模型现在的价格是每百万tokens需要0.014美元。2月8日起,其价格将恢复到每百万tokens 0.07美元的水平。这一调整或许也是促使Google制定当前价格策略的重要因素之一。
DeepSeek的成功打破了之前国内科技领域对于大语言模型的既定发展范式,接下来还会引发一系列涟漪效应。
今天的AI竞争格局之下,对于一家创业公司,开源不仅是技术策略,更是参与制定行业规则的关键落子。在模型能力逐渐透明的未来,真正的竞争优势将来自构建数据反馈闭环的能力,以及将技术影响力转化为商业生态的能力。奥特曼在Reddit上提到,要学习DeepSeek,将推理模型的思考过程公开。OpenAI的闭源策略使他们站到了历史错误的一边,他们将重新思考OpenAI的开源策略,同时他坦言OpenAI的领先优势已经不如之前大了。
这本质上是一场关于“标准制定权”的争夺——谁的开源协议能成为行业事实标准,谁就能在下一代AI基础设施中占据核心位置。中国科技公司与美国科技公司之间的差距,不是时间维度,而是创新和模仿的差别。
相关链接:中国区支持的其他支付方式名单