白菜价AI语音转录,美国科大讯飞3年融资1.5亿美元
语音AI赛道最近有点烫闹, 一边是国内厂商卷手艺卷价钱,另一边美国公司Assembly AI靠着“白菜价”杀出沉围,三年融资1.5亿美元,结实生生在巨头环伺的买卖场里撕开一道口子。这家2017年底才成立的公司,凭啥让资本疯狂追捧?它的“白菜价”到底是真实普惠还是噱头?今天咱们就来扒一扒。
从边缘到中心:细小公司怎么颠覆AI语音买卖场
2017年的AI语音领域,简直是巨大佬们的游乐场。谷歌、亚马逊、微柔软这些个手艺巨头手握海量数据和算力,语音识别准确率一路狂飙,普通开发者想用上顶尖手艺?困难如登天。要么忍受供应商寄来的老式光盘,要么面对麻烦到让人崩溃的API流程。Dylan Fox就是在这时候嗅到了机会——当时他在思科搞协作产品的机器学, 天天被同事吐槽语音识别工具困难用,“有次供应商为了给个API权限,结实是拉着我跟卖团队开了三细小时会,再说说给的文档还是十年前的版本。”

这经历让他动了创业的念头。2017年夏天 Dylan抱着Assembly AI的项目参加了Y Combinator,一个改变命运的决定。当时他团队就自己一个人,模型训练数据只有可怜的1万细小时连行业平均水平的零头都不够。“YC的评委直接问我,谷歌每年砸几十亿在语音AI上,你一个人带几万细小时数据,凭啥能赢?”Dylan后来回忆说 他当时的回答很直接:“巨大公司做的是通用方案,我们要做开发者真实正需要的‘即插即用’。”
黑客马拉松上的第一桶金:口碑是怎么炼成的
初创期的Assembly AI没钱打广告,Dylan带着代码跑遍了全美的黑客马拉松。在Hacker News上,他放出免费API测试链接,没想到第一天就吸引了几百个开发者。“有个做播客的细小团队反馈,用我们的工具5分钟就能生成字幕,以前他们得花3细小时手动听写。”这种“即用即走”的体验成了最优良的传播, 三个月内,付费用户从0涨到了500个,其中不少许是像Call Rail这样的细小公司——他们用Assembly AI的API给客户通话做摘要,客户满意度直接提升了40%。
2020年疫情成了转折点。远程办公爆发式增加远, 视频会议、在线课程、
“白菜价”真实相:手艺碾压还是资本游戏
打开Assembly AI的官网, 价钱栏能让人眼前一亮:实时语音转录0.74988美元/细小时异步转录0.65美元/细小时折合人民币才5块钱出头。对比国内讯飞听见的19.8元/细小时直接廉价了3/4。这价钱,说“白菜价”都算抬举了简直是“萝卜价”。但问题来了:廉价的背后到底有没有猫腻?
从Conformer-1到Conformer-2:6.8%的错误率改进值几许多钱
Assembly AI的底气来自手艺迭代。2023年7月, 他们发布了Conformer-2模型,用110万细小时英语音频数据训练,专有名词错误率比上一代降了6.8%,字母数字识别提升31.7%,抗噪能力涨了12%。“这可不是细小数, ”一位前谷歌语音工事师评价,“在金融领域,‘1万’和‘1亿’差一个零,系统兴许就崩溃了Conformer-2这种精度对华尔街日报这种客户太关键了。”
更狠的是他们把这套麻烦的手艺封装成5行Python代码就能调用的API。“开发者在视频平台上传文件, 系统自动识别语言、分说话人、加时候轴,还能过滤脏话,连‘卧槽’这种语气词都能标出来。”用户Afiz在推特上晒出的代码截图看得出来整个过程不超出10分钟。这种“傻瓜式”体验,让Assembly AI的开发者用户数突破了20万,比去年翻了两番。
矮小价的代价:算力本钱谁在扛
但廉价真实没优良货?业内有人质疑,Assembly AI的价钱根本覆盖不了算力本钱。“按0.65美元/细小时算, 处理1细小时音频需要跑10万条神经元,算力本钱至少许0.8美元,他们倒贴钱做生意?”对此, Dylan的说明白是:“我们用了稀疏化训练手艺,模型参数压缩了60%,同样的服务器能处理许多三倍的数据。”不过 有投钱人私下透露,Assembly AI去年光电费就烧了800万美元,“矮小价是抢占买卖场的手段,不是长远久之计。”
对比之下国内厂商的“高大价”似乎有了理由。讯飞听见基本上原因是要适配中文、 行业术语,模型训练数据量是Assembly AI的两倍,还得做本地化部署,“服务器、人造、合规本钱加起来19.8元/细小时其实没赚几许多。”一位讯飞前员工说。但这也带来一个问题:当Assembly AI开头支持中文、 西班牙语等16种语言后国内厂商的优势还剩几许多?
客户画像:从华尔街日报到细小夫妻店
Assembly AI的客户名单像过山车, 一边是华尔街日报、BBC这种新闻巨头,一边是开夫妻店的本地细小企业。这种“高大矮小通吃”的策略,让他们在语音AI买卖场里杀出了一条血路。
新闻圈的“救星”:1细小时生成万字稿
2022年,华尔街日报把有些新鲜闻稿转录干活外包给了Assembly AI。“以前记者采访完,录音整理得花2细小时眼下系统自动生成初稿,记者只需修改错别字。”编辑部主任透露,效率提升了70%,人力本钱省了30%。更绝的是他们的智能音频服务, 能自动识别采访中的关键信息,比如美联储加息信号、手艺公司财报亮点,“系统会把‘降息’‘营收增加远’这些个词标红,编辑一眼就能抓住沉点。”
音频平台Spotify的用法更狠。他们用Assembly AI的API琢磨了10万细小时播客,找到听众最常听的是“职场干货”“情感故事”两类内容。“以前靠编辑猜选题,眼下有数据支撑,推荐的准确率搞优良了50%。”产品经理说这直接带动了付费订阅增加远15%。
细小企业的“救命稻草”:每月500块搞定客服
巨大企业玩得转,细小企业也不含糊。美国一家连锁餐厅CallRail用Assembly AI的API给客户
但问题也来了:这些个细小企业真实的能持续付费吗?“有个做婚礼摄影的细小团队,前三个月用免费额度,到期后嫌昂贵直接弃用了。”行业琢磨师指出, Assembly AI的客户中,月消费不到100美元的占了60%,这些个“矮小值钱用户”拉矮小了整体赚头率。
争议与隐忧:当“白菜价”遇上“平安红线”
Assembly AI的飞迅速扩张,也伴因为不少许争议。矮小价抢买卖场、数据平安合规、手艺真实实性,这些个问题像定时炸弹,随时兴许引爆。
数据平安:敏感信息的“黑洞”
2023年9月, 一家看病身子优良公司找到,他们用Assembly AI转录的医嘱录音,系统自动把患者姓名、身份证号标记成了“###”,但原始音频文件仍存储在服务器上。“这不符合HIPAA法案,我们差点被罚200万美元。”合规负责人说。更让人担心的是 Assembly AI至今没有给本地化部署方案,“全部数据都存在美国服务器上,欧罗巴联盟客户根本不敢用。”
比一比的话,讯飞听见的优势就明显了。他们在国内通过等保三级认证, 看病数据能本地化处理,“某三甲医院用我们的系统做病历转录,数据不出医院,彻头彻尾合规。”讯飞看病事业部总经理说。Assembly AI不是没想过解决平安问题, 2023年11月他们推出了PII编辑模型,但效果并不理想,“有次把‘北京市朝阳区’识别成敏感信息,用蜂鸣声盖住了后来啊客户根本听不懂。”
手艺真实实性的“罗生门”
另一个争议点是手艺宣传的真实实性。Assembly AI官网宣称Conformer-2模型用“110万细小时数据训练”,但没说这些个数据的来源。“有传言说他们爬了一巨大堆YouTube视频和播客,其中很许多涉及版权。”一位匿名数据学问家透露。更夸张的是口音识别问题, 他们宣称支持“全球英语”,但用户反馈看得出来印度口音英语的错误率高大达20%,“比谷歌的15%差远了。”
Dylan对这些个质疑回应得很干脆:“数据来自明着授权的音频库,口音问题我们已经在优化了。”但投钱者明摆着没那么乐观, “2023年C轮融资后有投钱方要求我们明着数据来源和训练细节,毕竟眼下是‘后ChatGPT时代’,透明度比啥都关键。”
以后之战:从“转录”到“搞懂”, 谁主沉浮
语音AI的比,早就从“能不能听清”变成了“能不能听懂”。Assembly AI推出了LeMUR框架,试图从语音转录走向语义搞懂,但这条路注定不优良走。
LeMUR:会议纪要自动写的“魔法”
2023年8月, Assembly AI发布了LeMUR框架,号称能“自动生成会议纪要、分配任务”。测试用户反馈, 系统确实能出“Q4沉点推广新鲜产品X”这样的结论,但有时候会闹笑话,“有次把‘下周一开会’记成‘下个月开全会’,差点误事。”产品经理说 不过瑕不掩瑜,用LeMUR的企业,会议效率提升了40%,这让他们敢把价钱定到0.049美元/k tokens。
更厉害的是LeMUR能搞懂上下文。“客户说‘我上个月买的那东西东西恶劣了’,系统会自动关联买记录,生成‘申请售后’的任务。”某SaaS公司CEO说这功能帮他们省了3个客服人力。但问题在于,LeMUR目前只支持英文,“中文的语义搞懂比英文麻烦得许多,讯飞在这方面有天然优势。”
全球扩张:16种语言的“及格线”
2023年10月, Assembly AI宣布支持16种语言,包括中文、西班牙语等。“中文版本还在测试,错误率比英文高大15%。”用户王先生透露, 他用中文转录了一细小时会议,后来啊系统把“数字化转型”听成了“数字转型”,差点造成误会。比一比的话,讯飞中文语音识别的了98.5%,支持覆盖全国30优良几个省市。
但Assembly AI的野心不止于此。“2024年我们要支持30种语言,沉点攻克阿拉伯语、日语这些个细小语种。”Dylan在内部信中说。不过 语言专家泼了凉水:“每种语言的语法结构、文雅背景差异很巨大,比如日语的敬语系统,AI很困难准确搞懂。”
语音AI的打仗,才刚刚开头。Assembly AI靠着“白菜价”和开发者生态撕开了买卖场口子, 但手艺平安、本地化、语义搞懂这些个问题,就像达摩克利斯之剑,随时兴许掉下来。当下一个创业者带着语音AI项目走进YC时他会选择接着来拼矮小价,还是另辟蹊径?没人晓得答案,但有一点很明确:这场游戏的规则,正在被沉新鲜 。
欢迎分享,转载请注明来源:小川电商
