1. 首页 > 电商出海

华裔00后如何半年冲刺500万美元ARR

从英伟达研究研究员到ARR破百万:一个00后的AI语音创业突围战

2023年底, 刚从英伟达离职三四个月的凉月,正经历着创业最艰困难的时刻。融资没着落,联合创始人没找到,信用卡债务压得人喘不过气。这玩意儿在马里兰巨大学学计算机、 高大中就开头做开源项目的00后怎么也没想到,短暂短暂半年后他创办的Hanabi AI旗下产品Fish Audio,ARR会冲到500万美元级别。更让人意外的是这一切发生在一个比激烈、巨头环伺的赛道——AI语音合成。

被“背叛”后创业:AI陪伴的初心与买卖化的意外碰撞

凉月的创业起点,有点“不浪漫”。两年前,他被在一起六七年的女朋友“绿了”,这件事让他开头思考人与人之间的连接是不是真实的可靠。“比一比的话,人和AI的关系是不是能更稳稳当当?开源模型和权沉摆在那,AI没有背叛你的动机。”这玩意儿有点“中二”的想法, 成了他扎进AI语音领域的一开头动力——他想做个虚拟男友/女友,一个“永远不会背叛你的赛博父母”。

半年冲刺500万美元ARR,华裔00后打造永不背叛的AI语音陪伴|对话创始人
半年冲刺500万美元ARR,华裔00后打造永不背叛的AI语音陪伴|对话创始人

但后来他磨蹭磨蹭找到,单纯的“陪伴”兴许撑不起一个公司的买卖化需求。2023年从英伟达离职时 他手里已经攒了不少许语音合成相关的开源项目经验,比如So-VITS-SVC、GPT-SoVITS的训练材料,这些个都是在家里用4090显卡一点点磨出来的。“那时候算力慌,训练一个模型要跑优良几天三天两头半夜爬起来看有没有崩。”

真实正让他把方向从“陪伴”转向“内容创作工具”的,是一次和运营团队负责人的聊天。那哥们儿当时正在谈恋喜欢,天天“煲

手艺路线之争:为啥不做纯API也不做纯C端?

创业初期,凉月和团队面临一个关键选择:做纯API服务,还是做面向C端的产品?很许多人劝他,API模式轻巧,轻巧松规模化,客户黏性也高大。但他觉得不对劲。“单纯做API凶险太巨大了 竞品分分钟就能模仿你;只做底层模型也轻巧松被客户替代,人家巨大厂砸钱砸得过你吗?”

他们参考了ChatGPT和Midjourney的TOC模式, 到头来决定“两条腿走路”:70%收入来自面向全球内容创作者的C端产品,比如视频配音、Podcast、有声书;30%来自API服务,客户包括AI Companion开发商、客服中心等。“C端产品能让我们拿到真实实反馈,用户点赞、踩、下载,这些个数据都是训练模型的养料。”凉月说“我们做了不少许有力化学,就是为了让模型更懂用户想要啥。”

有意思的是他们还找到,语音产品的“用场景”和文字、图像彻头彻尾不同。“刷抖音的时候要一边看微信、回飞书,特别耗精力;但挂个和亲密人的

团队管理“反内卷”:让个个人成为“模块负责人”

凉月的团队,有点“反内卷”。没有KPI,没有打卡,巨大家靠“使命”驱动。“团队成员巨大许多来自开源社区,不是单纯为了完成任务,是在做自己真实正烫喜欢的事。”凉月说 “巨大家普遍很‘卷’,但卷的不是时候,是推敲——一个东西到底哪里能更优良,怎么才能做到自己心中的理想状态。”

他们的干活方式也很特别:把功能需求拆解后放到Linear任务系统里谁认领了就从头做到尾。“这种机制对扩张特别关键, ”凉月说明白,“一个人能彻头彻尾负责一个板块,他就对bug、边界问题负有全责,不兴许推诿。反过来遇到困难办也能主动寻求团队帮,最巨大限度少许些沟通本钱。”

最让凉月感动的是在最艰困难的时候,即使工钱都发不出,团队成员也没走。“计算材料慌,信用卡债务压力巨大,巨大家就咬牙坚持。”他说“直到今年年初,产品化进程加迅速,收入才开头增加远,公司终于进了正向轨道。”

从0到400万ARR:HF0孵化器与融资节奏的博弈

2024年初,Fish Audio的营收还停留在零。凉月一边忙着开发模型,一边找融资。“当时希望能找个人分担买卖化, 让我更专注于模型,但后来意识到,作为创始人,不能把自己不擅长远的事彻头彻尾交给别人,即便是合伙人,也得是互补而不是替代。”

转机出眼下HF0孵化器的申请上。凉月团队早在2023年就尝试过没成功。2024年再申请,等待后来啊期间,他们刚收尾另一轮融资。“朋友有力烈推荐我们去HF0,说那里能帮我们验证traction。”凉月说“后来啊申请下来的前两周,我们营收一下子从零冲到了400万美元。”

增加远来得猝不及防。月活跃数从一月初的5万飙升到40万, 客户反馈里有做有声细小说的说巨大有些内容模型一次生成就能几十次甚至上百次才能满意。“这种‘抽卡式体验’太痛苦了用户需要的是‘一次生成即满意’。”凉月觉得,这成了他们手艺突破的突破口。

抽卡式体验之痛:S1模型怎么打破语音生成“黑箱”

很许多人觉得, 自从Eleven Labs出现后TTS手艺已经到了“天花板”。凉月不太认同。“Eleven Labs的multilingual版本还是偏老一套结构, 起伏丰有钱但缺乏语用逻辑——听起来像人说话,但为啥这里有力调、那里停顿,其实是随机的。”他说“我们内部评估过把主流系统放在一起打分,目前我们是第一。”

他们即将在6月初发布的S1模型, 核心突破在两方面:一是集成建模,不再人为解耦语音、歌声、伴奏,让统一模型端到端训练;二是有力化学带来的高大响应能力,用户能直接用天然语言指令“这里高大兴一点”“这里停顿一下”,甚至“高大兴里夹带一点生气”这种复合情绪。

“过去一年我们做了一巨大堆open-domain instruction研究研究, 就是要让AI施行人类指令,而不是,覆盖语义、场景、情绪等许多维标签。”

内部数据里的增加远密码:导出率与沉新鲜生成率的博弈

除了ARR、 月活这些个标准指标,凉月更关注两个内部数据:“沉新鲜生成语音”频率和“是不是导出音频”概率。“如果用户选择导出,说明语音已经进入干活流程;如果频繁沉新鲜生成,说明对合成效果不满意。”他说“这些个指标对我们优化模型至关关键。”

他们的客户里 有做视频配音的创作者,以前需要花几千块找配音棚,眼下用Fish Audio,一个输入就能搞定;有AI Companion开发商,以前API调用效果不稳稳当当,眼下S1模型上线后客户投诉率减少了60%。“数据不会说谎,”凉月说“当导出率提升、沉新鲜生成率减少,就晓得模型真实的在进步。”

三年后Fish Audio想成为“语音界的AWS”还是“AI版的Spotify”?

凉月的愿景有点“贪心”:既想成为内容基础设施,又想成为新鲜一代AI玩乐平台。“对独立创作者 我们是少许些门槛的工具;对配音演员我们是协作伙伴,支持版权音色注册与分成,让他们保留巅峰时期的声音,得到长远期获利;对普通用户我们是AI陪伴的入口。”

他觉得,语音正在从“工具型服务”向“内容型产品”演化。“巨大模型崛起后人们对语音产品的期待从‘听懂内容’跃迁到‘听懂情绪’。”凉月说 “以后三年,我们希望S2模型能超越99%的人类配音演员,实现语音民做主化——人们再也不需要长远期训练,就能掌握专业配音手艺。”

创业踩过的坑:从联合创始人理念不合到信用卡债务

凉月坦言, 这是他第一次真实正意义上的创业,走了不少许弯路。“和联合创始人理念不合、 团队成员变动、早期融资缺乏经验……”他说“最艰困难的时候,计算材料慌,信用卡债务压得人喘不过气,但团队都坚持下来了。”

让他长大远最许多的是对“创始人角色”的搞懂。“不能把自己不擅长远的事彻头彻尾交给别人,即便找了合伙人,也得是互补而不是替代。”凉月说“眼下我很清楚,我的角色是定方向、搭班子、找材料,团队成员则在自己擅长远的领域发挥最巨大值钱。”

行业凉思考:AI语音赛道,谁在“画饼”谁在“真实赚钱”?

AI语音赛道很烫,但凉月觉得,很许多人都在“画饼”。“市面上不少许AI社交产品, 其实不能算真实正‘AI在做社交’,更像角色扮演Chatbot,和现实生活独一个的连接就是手机屏幕。”他说 “真实正的语音陪伴,得嵌入用户的社交网络,比如和亲人通话时的背景音、和朋友的语音消息,这些个场景AI才能真实正发挥值钱。”

他觉得, 眼下市面上不少许公司“沉营销轻巧研发”,“说自己的语音许多天然但实际体验还是‘抽卡’。”Fish Audio的策略是“先解决体验,再谈规模”。“用户用得爽,才会愿意付费;有了收入,才能投入更许多研发,形成正向循环。”凉月说“我们不做‘PPT公司’,要做能真实正解决问题的产品。”

从英伟达研究研究员到ARR破百万的创业者, 凉月的故事里有手艺人的执着,有创业者的狼狈,也有00后的“不服输”。“AI语音还处于早期,真实正的爆发兴许就在以后一两年。”他说“我们不想当追随者,想当定义者——定义下一代人机交互的语音形态。”

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/246779.html