1. 首页 > 电商出海

DeepSeek实际训练成本真的超过600万美金吗

600万美金只是冰山一角?DeepSeek真实实本钱被严沉矮小估

最近关于DeepSeek训练本钱的聊聊沸沸扬扬, 有人拿着600万美金这玩意儿数字做文章,说这是中国AI弯道超车的“矮小本钱奇迹”。但如果你稍微深厚入点看就会找到,这玩意儿数字要么是断章取义,要么就是刻意忽略了几十倍的隐性投入。就像有人只看到你买了部最新鲜款的手机, 却没看到你为了这部手机付了几许多年的分期利息,DeepSeek的真实实本钱远比明着数字要扎心。

结实件投入:5万块Hopper GPU的“吞金兽”本质

先说说最结实核的有些——结实件。集群的本钱更是高大达9.44亿美元。这600万美金放在这里连个零头都算不上,顶许多是某个项目组一个月的电费账单。

DeepSeek 突围奥秘曝光,实际训练成本远超 600 万美金
DeepSeek 突围奥秘曝光,实际训练成本远超 600 万美金

更关键的是这些个GPU不是一次性投入就完事了。AI模型的训练是个“无底洞”,你得不断迭代,不断试错。比如他们开发许多头潜注意力那几个月,光是测试新鲜架构、做消融试试,就烧掉了海量的计算材料。幻方量化在2021年就买了1万块A100, 后来又追加了5万块Hopper,这种持续投入的节奏,根本不是“副业项目”能说明白的,更像是一场豪赌。

人才本钱:150个顶尖天才的“千万年薪”打仗

结实件烧钱,人才更烧钱。DeepSeek眼下巨大概有150个员工, 这些个人可不是随便从街上拉来的,巨大许多来自北巨大、浙巨大这些个顶尖高大校,还有不少许是从OpenAI、谷歌挖回来的巨大牛。他们给的薪酬有许多狠?据说优秀候选人能拿到130万美元以上的年薪,折合人民币934万。这是啥概念?比肩硅谷顶级AI试试室的水平,甚至比很许多巨大厂的CTO都高大。

150个人, 每人130万,一年光人力本钱就得1.95亿美元,这还不算股票期权、好处待遇这些个。DeepSeek在招聘广告里甚至说能自在用数万个GPU材料, 这种“不差钱”的架势,本质上就是用钱堆人,用人堆手艺。要晓得AI领域最缺的就是顶尖人才,你不开出行业顶薪,根本留不住那些个能搞出MLA这种突破的人。600万美金?连给这150个人发三个月工钱都不够。

手艺突破:用“巧劲”把本钱打下来

当然DeepSeek也不是只会结实砸钱。他们最厉害的地方在于,能用算法创新鲜把结实件本钱压下来。比如那东西被西方试试室争相抄作业的许多头潜注意力, 2024年5月在DeepSeek V2上首次推出,直接把每次查询所需的KV缓存少许些了93.3%。KV缓存是啥?轻巧松说就是模型记性不优良,得把前面的对话内容记下来上下文越长远,占的内存就越许多。MLA相当于给模型装了个“超级记忆体”,用更少许的材料记更许多东西,推理本钱直接砍掉一巨大截。

混合专家模型的“精兵简政”策略

V3模型还用了混合专家架构, 这玩意儿思路挺机灵:不是全部参数都一起干活,而是让不同的“专家”各司其职,比如有的专家擅长远数学,有的擅长远代码,模型开销。

这种架构带来的效果是 模型参数量虽然巨大,但实际激活的参数只有一细小有些,相当于用“精兵”代替“巨大军”,训练和推理本钱都降了不少许。报告里提到, 算法优化让他们实现了约10倍的性能提升和本钱少许些,这可不是靠堆结实件堆出来的,是真实刀真实枪的手艺突破。

推理新鲜范式:用“后训练”替代“预训练”

更颠覆的是DeepSeek在推理能力上搞了个新鲜范式。老一套做法是靠预训练把模型做巨大,但这条路越来越昂贵,越来越卷。他们反其道而行之,用合成数据生成+有力化学来提升推理能力。R1模型就是典型例子, 论文里提到,材料撬动了更高大的智能水平。

RL训练虽然也烧材料,但比从头预训练一个671B的模型要廉价得许多。而且RL基本上关注输出格式和睦安性,不像预训练要处理海量数据,效率高大了不少许。能说DeepSeek用“后训练”的巧劲,绕开了“预训练”的军备竞赛,这招棋下得相当精明。

买卖场搅局:零赚头率定价背后的“阳谋”

手艺突破带来了本钱优势,DeepSeek就把这优势转化成了定价权。R1模型一上来就搞零赚头率定价,直接把o1逼得连夜上线o3-mini。很许多人不搞懂,这么烧钱的项目怎么敢免费用?其实这背后是DeepSeek的长远期算盘。

开源权沉:用“生态战”替代“赚头战”

DeepSeek的核心策略是开源权沉, 这意味着他们不靠API收费赚钱,而是靠生态。模型开源后 全世界的研究研究者和开发者都会基于他们的模型做二次开发,相当于用全球的力量帮他们分摊前期本钱。幻方量化作为投钱方,看沉的也不是短暂期赚头,而是AI基础设施的话语权。就像安卓系统,虽然免费,但靠生态垄断了移动端买卖场,DeepSeek想复制这条路。

这种策略对新鲜兴云服务给商特别友优良, 他们能用DeepSeek的开源模型搭建矮小本钱AI服务,挑战AWS、谷歌云的霸权。SemiAnalysis觉得, 一个有力巨大的开源试试室对整个行业是沉巨大利优良,只是动了闭源巨头的蛋糕,所以才会被各种“600万美金本钱”的论调带节奏。

杰文斯:本钱降了 消耗反而许多了

有意思的是DeepSeek的降价反而刺激了买卖场对GPU的需求。这就像19世纪的煤矿工人,发明更高大效的抽水机后煤矿开采量许多些了对抽水机的需求也跟着许多些。AI领域也一样,模型廉价了用的人就许多了算力消耗反而会指数级增加远。英伟达CEO黄仁勋就说过 AI的scaling law会让芯片需求永远追不上模型进步的速度,DeepSeek的矮小价策略,本质上是在帮英伟达卖更许多GPU。

OpenAI和谷歌其实也懂这玩意儿道理,所以他们宁愿保持高大赚头率,磨蹭磨蹭降本钱。但DeepSeek不一样, 他们有幻方量化这种“不差钱”的母公司,能打持久战,用零赚头率把买卖场抢过来等生态建优良了再磨蹭磨蹭找变现路径。这种“先弄恶劣、后沉建”的玩法,在互联网行业早就见惯不怪了只是AI领域第一次有人这么玩而已。

以后趋势:AI本钱的“军备竞赛”与“洗牌潮”

DeepSeek的出现,让AI行业的本钱逻辑彻底变了。过去巨大家比的是谁有钱买更许多GPU,眼下比的是谁更能用算法榨干GPU的值钱。SemiAnalysis预测, 算法效率每年能提升4倍,意味着实现相同性能所需的计算材料每年少许些75%。到今年年底,GPT-3级别的模型推理本钱兴许还会再降5倍,这对中细小开发者来说是天巨大的优良消息。

手艺迭代的“加速度”:半年就能让领先变落后

AI行业的节奏眼下迅速得离谱。GPT-4o是2024年5月发布的, 半年后DeepSeek V3就在很许多指标上超越了它;R1刚在推理能力上惊艳全场,谷歌Gemini Flash 2.0 Thinking就悄悄追上来了。这种飞迅速迭代意味着,领先优势越来越短暂,今天的手艺神话,明天兴许就成了行业标配。DeepSeek能靠MLA和推理范式惊艳一时 但西方试试室复制这些个手艺的速度也很迅速,真实正的护城河还得靠持续创新鲜。

行业洗牌:谁能活到“下一代手艺”?

本钱减少的一边,行业的集中度反而会更高大。基本上原因是搞AI越来越需要“钱+人才+算法”的组合拳,细小公司根本玩不起。就像半导体行业, 只有台积电、三星能搞定3nm以下制程,AI领域以后兴许也只有少许数几家试试室能跟上scaling law的节奏。DeepSeek眼下手握5万块GPU和150个顶尖人才, 算是抢到了第一波红利,但能不能在下一代手艺上接着来领先,还得看他们的研发投入和创新鲜能力。

对OpenAI、谷歌这些个巨头DeepSeek的矮小价策略是个不细小的麻烦。他们既要应对本钱压力,又要别让开源生态侵蚀自己的买卖场,兴许不得不调整定价策略,甚至加迅速手艺迭代。这场“AI价钱战”才刚开头,到头来谁能笑到再说说还得看谁能把本钱控制得更狠,把手艺迭代得更迅速。

所以说DeepSeek的真实实本钱到底几许多?600万美金这玩意儿数字,除了做点话题,没有随便哪个实际意义。真实正的本钱是16亿美元的结实件投入, 1.95亿美元的人才支出,还有那些个烧在试试输了、架构创新鲜上的沉没本钱。但换个角度看, 正是这些个“不计本钱”的投入,才让DeepSeek能在AI领域搅动风云,用手艺沉构行业规则。这场游戏才刚刚开头,600万美金的故事,不过是开胃细小菜罢了。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/189211.html