时隔俩月,DeepSeek终于更新了。
3月24日晚,DeepSeek一声不吭往Hugging Face上扔了个DeepSeek-V3-0324模型,模型参数6850亿,与上一个版本V3的6710亿相差不大,采用MoE架构,还支持了更开放的MIT开源协议。
根据官方更新的版本说明,DeepSeek-V3-0324主要是针对推理能力和前端开发能力进行了加强,写作风格实现了跟R1对齐,另外还有一些其他方面的小优化。现在只要打开DeepSeek官网,把深度思考模式关掉就能直接用上V3-0324。
虽然这个举措看起来只是DeepSeek V3的一个小升级,但低调不代表没有反响。V3-0324刚上线,就登上了Hugging Face的趋势榜单,引起业内轰动,体验过的网友说它的代码能力已经直追Claude。例如让V3-0324生成一个网页,模型一口气写了800多行代码,运行的时候还没有出错,这实力就不用多说了吧?有人仅仅下达了编写登录页面的简单指令,并没有任何其他的附加提示,V3-0324同样也生成了一个完整的登录页面,比起V3生成的“乞丐版”,相去不可以毫厘计。
在国外大模型竞技场KCORES的测评中,V3-0324的代码能力得分为328.3,超过了普通版的Claude 3.7 Sonnet的322.3分,接近Claude 3.7 Sonnet思维链版本的334.8分,排名第三。这个排行榜上前几名的模型就几乎没有开源的,DeepSeek在其中一枝独秀。
DeepSeek-V3-0324面世时没有附带白皮书,也没有任何宣传,只有一个空的ReadMe文件。这一近乎朴素的发布形式,与硅谷模型面市时的精心策划迥异。3月25日晚上,DeepSeek官方终于发文正式介绍了这波小更新,在数学、代码类的相关评测上,V3-0324比OpenAI目前最厉害的非推理模型GPT-4.5都要更胜一筹。体验过的网友直呼这次的更新超出预期多多,尤其在编程方面,是目前最强大且完全免费的AI。而最好商业模型之一的Claude Sonnet则要按月收取20美元的费用。
经测试,DeepSeek-V3-0324的各方面能力,已经可以和Claude 3.7 Sonnet掰一掰手腕。从性价比方面看来,OpenAI的o1-pro和GPT-4.5都已经不香了。在开源这个赛道上,DeepSeek的竞争力毋庸置疑。
DeepSeek的API价格也主打一个便宜。V3-0324百万tokens输入的价格是2元,输出的价格是8元,而同样的tokens数,Claude 3.7 Sonnet的输入和输出价格分别是36.6元和108.9元,价差最多达18倍。
DeepSeek的运行方式也格外“环保”。它从根本上重新构想了大型语言模型的运作方式,在特定任务期间仅激活约370亿个参数而非全部,也就是所谓的“专家”模块,这大大降低了计算需求。
该模型还有另外两项突破性技术:多头潜在注意力(MLA)和多标记预测(MTP)。MLA增强了模型在长篇文本中保持上下文的能力,MTP每一步生成多个标记,而不是通常的一次生成一个标记,这两者共同将输出速度提高了近80%。
某种程度上,DeepSeek体现了中国企业对效率和资源极致追求的精神,即如何以有限的计算资源实现相等或者更加优化的性能,这种由需求驱动的创新已经使中国的人工智能在几个月时间内震惊了全球,与世界顶尖对手的距离不断在缩短。
然而就在DeepSeek更新后不到30小时,谷歌最新模型Gemini 2.5 Pro实验版本也深夜上线了。这一模型在多项基准测试中全面超越OpenAI o3-mini、Claude 3.7 Sonnet、Grok-3和DeepSeek-R1,一经亮相便在大模型竞技场获得1443分,而且创下了历史最大分数飞跃,凭借39分的大幅优势,获得断层第一。
谷歌宣称,这是一个“思考”模型,它是世界上最强大的模型,具备统一的推理能力,以及用户所喜爱的Gemini的所有功能(长上下文、工具等)。此言非虚,Gemini 2.5 Pro在多个基准测试中达到了SOTA(State-of-the-Art,即当下最先进)水平,尤其在推理和编码上更是领先一步。
谷歌表示,在AI领域,系统的“推理”能力不仅仅指分类和预测,而是指系统分析信息、得出逻辑结论、融入上下文和细微差别,以及做出明智决策的能力。
长期以来,谷歌一直在探索通过强化学习和思维链提示词等技术,让AI更智能、更具推理能力的方法。
正是在此基础上,他们在2月推出了第一个思考模型,Gemini 2.0 Flash Thinking,它能够进行多步推理,并让用户实时追踪它的推理过程。
而现在,通过Gemini 2.5,他们结合了显著增强的基础模型和改进的后期训练,让模型达到了新的性能水平。Gemini 2.5 Pro的核心创新在于把推理作为系统底层能力来构建,模型能够在充分思考和权衡之后才给出解决方案。
相较于只把推理当作“外挂”的做法,这种全方位的整合让模型在回复时更准确、更贴近真实场景,也更能捕捉用户的上下文含义和细微差异。事实证明,这种转变确实大幅提升了模型的表现。
在谷歌自家的多项评估中,Gemini 2.5 Pro取得了极为抢眼的成绩:
在高度复杂的推理基准上稳居榜首,并且无需依赖昂贵的投票或其他变通手段。
在GPQA与AIME 2025等基准中都领先于同类产品。
面对难度极高的Humanity’s Last Exam(人类最后考试,由数百名专家构建,用来测试人类知识和推理极限)这一基准测试,更是拿下了18.8%的优异成绩,而且全程未借助任何工具辅助。与OpenAI o3-mini相比,其得分提升了近5%,提升比例达34%。
编码能力的飞跃同样值得一提。相比Gemini 2.0,2.5 Pro在构建Web应用、编写代理式代码以及进行代码转换等任务上都有重大突破。在SWE-Bench Verified(专门用来衡量代理编码水平的基准)中,更是靠着定制代理配置取得了63.8%的表现。
比如在下面这个demo中,仅仅根据这行prompt,它就生成了一段p5js的交互式动画,展示了“宇宙鱼”的场景,并且还显示了鱼们都在想什么。
谷歌在战胜自己的路上走得越来越远。Gemini 2.5 Pro成为首个实力媲美Claude 3.5 Sonnet的模型,相比之前版本的Gemini更是实现了质的飞跃。它继承并发扬了Gemini模型的优势——原生多模态能力和超长上下文长度。自发布之初,2.5 Pro就支持100万tokens的上下文窗口(200万tokens也即将推出),性能显著超越了前代模型。这能让它理解海量数据集,并处理来自多种信息源的复杂问题,包括文本、音频、图像、视频,甚至完整的代码仓库。
目前,Gemini 2.5 Pro已在Google AI Studio和Gemini应用中向Gemini Advanced用户开放,并将很快在Vertex AI上推出。它的定价方案会在未来几周内公布,用户可以在更高使用配额下,将模型应用于大规模生产环境。经网友实测,它的实力确如传说中一样惊人,在所有模型中效果拔群,第一次尝试就只用几秒解决了一道难题。
Gemini 2.5的发布,意味着谷歌在迈向“智能代理时代”上又向前推进了一大步。未来所有Gemini 2.5系列模型都将集成这种“带有思考能力”的结构,能够自主理解复杂情境并执行相应任务。
大模型卷到今天,以我们的眼光与想象力,已经很难预测这股浪潮最终会奔着哪个方向去。几家头部企业的竞争不断升温,为AI领域带来了更激烈的创新与更丰富的技术选择,相信最终受益的,也会是广大用户。
相关链接:中国区支持的其他支付方式名单