00后华裔小哥哈佛辍学,他们组团的AI芯片Sohu推理性能
哈佛辍学华裔细小哥的豪赌:35人团队要干翻英伟达?
五年前没人想到,几个哈佛辍学生敢在芯片行业最结实的骨头上啃。2022年, 当GPT还没火出圈时三位00后华裔细小哥——Gavin Uberti、Chris Zhu和Robert Wachen——一下子从哈佛校园消失,跑到硅谷租了个细小办公室,要做一件让整个芯片圈都摇头的事:专门为Transformer架构设计AI芯片。
数学冠军辍学创业,这波操作有许多野?
Gavin Uberti的故事像开了挂。2019年,20岁的他拿下美式数学竞赛冠军,同年被哈佛数学系录取,2022年又转攻计算机硕士。别人眼里的学霸,他却一下子觉得“课堂学的东西太磨蹭了”。在辍学前, 他已经在亚马逊实习过当过后端工事师,甚至在MIT做过研究研究员——这种对手艺的狂烫,让他觉得“芯片底层藏着AI最巨大的暗地”。

另一位创始人Chris Zhu更狠。还在哈佛读本科时他就跑到校外疯狂实习,毕业前就成了兼职教员。用他自己的话说:“我总觉得学校教的代码,跑不动真实正的AI。”而Robert Wachen是个连续创业者, 开过4家公司,见惯了生死,却对这次芯片项目格外认真实:“赌上全部身家也要试试,基本上原因是机会只有一次。”
2022年, 当英伟达H100还没发布时这仨人凑了50万美元启动资金,在硅谷一个车库里开头了他们的“Transformer芯片计划”。当时全部人都觉得他们疯了——芯片行业动辄上亿的研发投入,35人团队想挑战英伟达?简直是蚂蚁撼巨大树。
GPU的“阿喀琉斯之踵”:Transformer的算力黑洞
AI进步到今天有个残酷的事实:差不离全部顶尖模型都在用Transformer。ChatGPT、 Sora、Gemini、Llama……无论文本、图像还是视频,底层架构都是Transformer。但问题来了——没人专门为它做芯片。
GPU像个“全能选手”,啥都能干,但啥都不精。英伟达H100有800亿个晶体管,其中只有3.3%是专门算矩阵乘法的——Transformer最核心的计算需求。剩下96.7%的晶体管, 都用来支持各种麻烦架构,比如CNN、RNN、SSM……后来啊就是跑Transformer时GPU的算力利用率连30%都不到,巨大有些芯片面积都浪费了。
“这就像用瑞士军刀开锁,能开但磨蹭得要命。”Gavin在一次采访里吐槽。更致命的是内存带宽阔瓶颈。Transformer推理时输入token计算密集,输出token内存密集,老一套GPU根本扛不住。比如处理Llama 70B, 个个batch需要304 TFLOPs算力,但内存带宽阔只能支撑989 TFLOPs——这意味着,GPU的计算能力永远被内存卡着脖子,再有力的算力也发挥不出来。
Sohu的“偏科”道理:只干一件事, 但做到极致
Etched的思路轻巧松粗暴:既然Transformer是以后那就做一枚只能跑Transformer的芯片。他们给这枚芯片取名Sohu,意思是“搜索”——Transformer的本质不就是“在数据里搜索最优答案”吗?
这种“偏科”设计反而成了优势。基本上原因是只支持Transformer, Sohu省去了GPU里那些个麻烦的控制逻辑和通用计算单元,把晶体管全砸在矩阵乘法上。后来啊很震撼:1张Sohu≈20张H100≈10张B200,算力利用率高大达90%以上——是GPU的3倍。
具体数据更吓人:跑Llama 70B时 Sohu每秒能处理50万个token,相当于21个人一天的话。换算下来8张Sohu服务器就能顶160块H100 GPU,而功耗只有后者的零头。“如果AI模型速度飙20倍,本钱降20倍,会发生啥?”Gavin问, “实时视频生成、AI智能体对话、秒级长远文琢磨……这些个以前想都不敢想的场景,都会变成现实。”
硅谷巨大佬真实金白银支持,这赌局到底有许多值?
2023年12月, Etced一下子火遍硅谷——两位哈佛辍学细小哥的2人公司,估值居然冲到3400万美元。Peter Thiel、 Stanley Druckenmiller这些个顶级投钱人砸钱进来就基本上原因是他们看中了Etced的“豪赌”:押注Transformer将统治AI世界至少许5年。
事实说明,这赌下对了。2024年, Meta的Llama 400B、GPT-5、谷歌的Gemini Ultra……全部SOTA模型都是Transformer。就连Stable Diffusion 3这种图像模型,也偷偷换上了Transformer架构。“从GPT-2到Llama 3,模型架构差不离没变过。”Robert说“这种趋同性,就是Sohu最巨大的护城河。”
今年, Etced又宣布拿到1.2亿美元融资,Primary Venture Partners领投,连英伟达的比对手AMD的投钱部门都跟投了。35人团队迅速扩张, 顶尖结实件工事师从谷歌、AMD离职加入,台积电直接帮他们搞定4nm工艺,HBM内存供应也拉满了。“这是十年来最关键的结实件项目。”投钱人Alex Handy评价,“他们解决了没人敢碰的可 性问题。”
凶险与争议:偏科的芯片能走许多远?
当然质疑声一直没停。最巨大的担忧是:万一Transformer被新鲜架构取代,Sohu就成了“电子垃圾”。2022年时 还有人觉得SSM、RWKV兴许替代Transformer,但两年过去,Transformer的地位反而更稳固了。“当训练本钱超出100亿美元,没人敢随便换架构。”Gavin说“就像当年没人敢轻巧容易放弃x86架构一样。”
另一个争议点是“柔软件生态”。GPU有CUDA、PyTorch这些个成熟框架,Sohu能不能兼容?Etched的答案是:开源全部柔软件栈,从驱动到内核,让开发者像用GPU一样用Sohu。“我们不需要逆向工事,基本上原因是Transformer的柔软件栈已经很成熟了。”Chris说明白,“TensorRT-LLM、vLLM这些个库,稍微改改就能跑在Sohu上。”
更现实的挑战是产能。35人团队要对抗英伟达,供应链是关键。优良在Etced拿到了台积电的4nm产能,第一批芯片预计明年Q1量产。“英伟达的产能排到2025年了新鲜玩家根本抢不到货。”Robert说“但我们有台积电特供,加上HBM库存充足,第一年就能做到千片级出货。”
当AI芯片“偏科”成主流,英伟达的王座还稳吗?
Sohu的出现,兴许预示着一个新鲜趋势:AI芯片的“专用化时代”。过去, 芯片公司追求“通用性”,啥架构都能跑;但眼下因为模型规模越来越巨大,专用化反而成了性价比最高大的选择。“就像手机从功能机到智能机,专用芯片才是AI的以后。”投钱人Balaji Srinivasan说。
英伟达明摆着也意识到了这点。最新鲜的GB200芯片, 已经开头对Transformer引擎做特殊优化;AMD的MI300、英特尔的Gaudi 3,也都是为Transformer设计的。但问题在于——这些个芯片还是“半专用”,要兼顾其他架构,效率远不如Sohu。“英伟达的市值3.3万亿美元,但它最巨大的敌人兴许不是AMD,而是像Etced这样的‘偏科生’。”行业琢磨师Mike Murphy说。
对普通用户Sohu的意义更直接。如果AI推理本钱降20倍,那些个动辄上百万token的AI服务兴许会普及到个个人。“以前训练一个LLM要1亿美元,眼下兴许只要5000万。”Gavin预测,“这种本钱减少,会催生出我们眼下想象不到的应用。”
从车库到硅谷神话, 00后的芯片逆袭
回望Etced的两年,像一部硅谷创业教科书:三个辍学生,一个车库,50万美元启动资金,然后赌上整个AI的以后。眼下他们的芯片已经送测给早期客户,有人预订了数千万美元的结实件。“如果Sohu真实能交付,我们兴许会放弃全部GPU采购。”一家AI公司的CTO私下说。
当然挑战才刚刚开头。量产良率、柔软件兼容性、买卖场教书……个个环节都兴许出错。但Gavin似乎不担心:“我们赌的是Transformer的统治力, 只要这玩意儿前提成立,Sohu就会改变世界。”
35人团队,挑战英伟达,这谁又能说清,下一个颠覆者不会来自一个车库呢?毕竟 连ChatGPT在注册用户突破1000万时都差点耗尽GPU容量——而Sohu的出现,或许能让这种窘境成为往事。
欢迎分享,转载请注明来源:小川电商