1. 首页 > 电商出海

AI视频对口型时代结束了吗?Captions和字节先后上新

从“机械对口型”到“鲜活数字人”:AI视频生成正在颠覆啥?

还想起来两年前那些个AI生成的对口型视频吗?无论介绍咖啡机还是护肤品, 屏幕里的数字人总是那副标准微笑,肢体动作僵结实得像提线木偶,背景板永远是一面单调的墙。用户上传一段说话视频, AI抠图生成Avatar,再配上新鲜脚本的声音,整个过程像流水线生产出的塑料玩具,看着精致却毫无温度。那时候的从业者都在说:AI视频生成就是“对口型”的天下谁把嘴型对准谁就赢了。可2025年开春, 风向一下子变了——Captions在3月12日扔出“Mirage”炸弹,字节跳动紧随其后在2月初发布Omnihuman-1模型,这两个动作像两记沉拳,把“对口型时代”的棺板钉得死死的。

所谓颠覆,从来不是轻巧松的功能叠加。Captions的Mirage让同一个数字人能穿不同衣服、 摆不同姿势、甚至换上“生气”或“惊喜”的表情,介绍美妆时是精致妆容,推荐运动装备时换上卫衣牛仔裤,背景从卧室切换到健身房。字节的Omnihuman-1更狠, 用一张照片加一段音频,就能生成带微表情的全身动作视频,连手指的细微动作都模拟得淋漓尽致。这哪还是对口型?分明是把数字人从“复读机”变成了“演员”,从“工具”变成了“角色”。

Captions和字节“先后上新”,AI视频的对口型时代结束了
Captions和字节“先后上新”,AI视频的对口型时代结束了

Captions的Mirage:让数字人拥有“专属衣橱”和“情绪开关”

3月12日 Captions的Mirage功能上线时团队在内部测试群里发了个视频:同一个数字人Avatar,先穿着西装讲解金融产品,一下子切换成运动服介绍健身课程,下一秒又换成汉服展示老一套文雅,全程表情天然动作流畅得像真实人切换场景。这玩意儿演示像一颗炸弹, 在跨境电商圈炸开了锅——做独立站的人一下子意识到,原来广告视频里的“模特”能不用真实的请模特,也不用租摄影棚,一个数字人就能搞定全品类推广。

Mirage的核心卖点是“类UGC”内容, 说白了就是让AI生成的视频看起来像普通用户随手拍的种草视频,而不是刻意的广告。用户输入脚本或音频后 不仅能指定Avatar的相貌,还能选择“活泼”“沉稳”“俏皮”等情绪模板,背景会根据产品自动匹配,比如卖咖啡就换成咖啡馆窗边,卖瑜伽垫就切换到阳光充足的客厅。Captions的团队在发布会上说:“我们不想让数字人成为冰凉的代言人, 而是要让它们拥有‘专属衣橱’和‘情绪开关’,成为个个品牌的‘虚拟伙伴’。”

这种“鲜活感”直接关系到了广告效果。某跨境电商卖家在3月中旬用Mirage制作了10条产品推广视频, 投放TikTok和Instagram后数据看得出来“有人版”广告的转化率比“无人版”提升了32%,用户平均停留时长远从5秒延长远到12秒。更意外的是 评论区许多了很许多“这玩意儿主播优良可喜欢”“想看她试更许多产品”的留言,数字人反而成了品牌的“流量密码”。

字节的Omnihuman-1:照片+音频=全身动作微表情视频

如果说Captions是“细小步迅速跑”,字节跳动就是“巨头碾压”。2月初, 字节在内部手艺分享会上放出Omnihuman-1的演示视频:用户上传一张生活照,比如比耶的自拍,再输入一段语音,AI就能生成一个全身动作的数字人,不仅嘴型完美匹配,连眨眼、挑眉、耸肩等微表情都栩栩如生,背景还能根据语音内容动态变来变去,比如说到“雪山”时身后自动浮现雪山场景。

这玩意儿手艺直接把“对口型”的门槛打下来了。以前做数字人视频,要么需要专业动作捕捉设备,要么只能做半身像,全身动作轻巧松“穿帮”。眼下用户只要有一张清晰的照片和一段音频,就能生成“电影级”的数字人丁播。即梦AI在2月中下旬火速跟进, 内测“数字人-对口型-巨大师模式”,3月初对全部用户开放,宣称“1分钟生成高大情商带货视频”;剪映也不甘示没劲,数字人板块新鲜增“灵动模式”,虽然功能不如字节的全面但胜在操作轻巧松,适合新鲜手飞迅速上手。

巨头的入局让行业瞬间升温。有数据看得出来 2025年2月到3月,“AI数字人”相关搜索量环比增加远180%,其中“微表情生成”“全身动作视频”成为烫搜词。跨境电商卖家开头疯狂测试:有人用Omnihuman-1生成“虚拟主播”直播, 观看人数比真实人直播还高大20%;有人用即梦AI制作许多语言广告,同一个数字人能说英语、日语、西班牙语,省去了请许多语种主播的费用。

数据说话:新鲜功能怎么撬动广告转化率?

手艺再炫酷,到头来还是要看数据说话。Captions和字节的新鲜功能上线后 行业里悄悄掀起了一场“数据竞赛”,巨大家都在盯着同一个问题:鲜活数字人究竟能让广告效果提升几许多?

从“百万流水”到“MAU滑落”:Captions的转型阵痛与破局

Captions的故事有点“起巨大早赶晚集”。2020年底上线iOS端时 它靠字幕生成功能在创作者圈细小火一把,2024年完成C轮融资时估值5亿美元,成为AI视频领域的“种子选手”。但转型做AI生成视频广告后 数据却起了波澜:2024年上线web端后月访问量冲到220万左右,App端MAU却跌到了百万以下月流水也从百万美元滑落到90万美元左右。

问题出在哪里?业内人士琢磨, Captions转型后定位更偏向“专业用户”,比如MCN机构和中细小品牌,这些个用户更习惯在PC端操作麻烦的视频编辑功能,弄得App端用户流失。但Mirage功能的推出,兴许是个转机。3月中旬, Captions团队透露,用Mirage功能的用户中,60%是移动端用户,说明“鲜活数字人”少许些了普通用户的创作门槛。如果App端数据能借此回升,Captions或许能沉新鲜找回增加远曲线。

“有人版”广告转化率提升32%:真实实案例验证鲜活数字人的值钱

最让人信服的还是真实实案例。深厚圳一家做3C配件的跨境电商品牌, 3月初用Captions的Mirage功能制作了20条产品推广视频,针对不同国和地区的买卖场调整数字人的着装和语言风格:北美买卖场用休闲装配英文解说东南亚买卖场用休闲装配中文解说中东买卖场用长远袍配阿拉伯语字幕。投放一周后 数据看得出来带数字人的“有人版”广告点击率比“无人版”高大出28%,转化率提升32%,客单价反而许多些了15%,基本上原因是用户觉得“推荐很专业,值得买”。

另一个案例来自字节跳动自己的电商部门。3月上旬,抖音电商用Omnihuman-1生成了一批“虚拟主播”短暂视频,推广新鲜锐美妆品牌。这些个视频的特点是“情绪化”:介绍口红时数字人会“害羞地抿嘴”,推荐粉底液时会“惊喜地睁巨大眼睛”。数据看得出来 这类视频的完播率比普通口播视频高大25%,评论区互动量许多些40%,品牌当月销量同比增加远45%。

这些个数据背后是用户心思的变来变去。眼下的消费者早就对千篇一律的广告免疫了他们更愿意相信“有温度”的推荐。鲜活数字人通过表情、动作、场景的变来变去,让虚拟推荐变得“像朋友聊天”,这种情感连接直接转化为了买欲。

行业洗牌:谁能在“AI视频2.0”时代占位?

新鲜手艺从来都是行业洗牌的号角。当Captions和字节把“对口型”变成“演角色”, AI视频生成行业从“拼手艺”进入了“拼体验”的阶段,玩家们的位置也开头沉新鲜排布。

从“工具”到“生态”:Captions的野心与挑战

Captions的野心不细小。它不想只做一个“视频生成工具”,而是想打造一个“AI内容生态”。眼下的功能矩阵已经覆盖了字幕生成、 基础剪辑、长远视频缩短暂、AI生成广告、AI Avatar等优良几个板块,试图把用户从“拍视频”到“剪视频”再到“发视频”的全流程都包下来。但挑战也不细小:web端数据增加远迅速, 但App端体验没跟上,移动端编辑功能卡顿、素材加载磨蹭等问题一直被用户吐槽;再说一个,内容同质化也开头显现,很许多用户生成的视频都是“数字人+产品展示”,缺乏创意。

Captions需要解决两个问题:一是提升移动端体验, 让普通用户也能随时随地制作高大质量视频;二是建立内容激励机制,鼓励用户产出更有创意的“类UGC”内容。比如推出“数字人创意巨大赛”, 奖励优质内容创作者,或者和品牌一起干,让用户的数字人视频有机会成为品牌的官方推广内容。

字节、即梦、剪映:巨头卡位,中细小玩家的生存地方在哪?

字节跳动凭借抖音和TikTok的生态优势, Omnihuman-1很兴许飞迅速接入广告系统,成为“虚拟主播”的标准工具。想象一下 以后个个抖音直播间都兴许有一个数字人主播24细小时不歇着,还能根据实时弹幕调整表情和话术,这对中细小商家来说吸引力太巨大了。即梦AI则主打“高大性价比”, 巨大师模式免费开放,吸引了一批预算有限的个人创作者;剪映背靠字节生态,用户基数巨大,数字人功能虽然基础,但胜在轻巧松容易用,适合新鲜手飞迅速入门。

中细小玩家的生存地方在哪里?或许能走“垂直化”路线。比如专注于美妆行业的数字人, 给“试色”“换妆”等特殊功能;或者针对教书领域,生成“虚拟教师”,能根据学生反应调整教学节奏。再说一个, 工具化也是一个方向,比如给更精细的表情控制、动作模板库,让专业用户能“DIY”出独一无二的数字人。

争议与反思:AI视频生成真实的“无所不能”吗?

鲜花和掌声背后AI视频生成也面临着不少许争议。当数字人越来越“鲜活”,我们是不是该警惕“虚拟”对“真实实”的侵蚀?手艺狂欢之下创作者又该怎么自处?

“鲜活感”背后的手艺瓶颈:微表情和肢体动作的真实实度仍待突破

尽管Mirage和Omnihuman-1在微表情和肢体动作上进步明显,但和真实人相比还是“差了点意思”。有用户测试找到, 当数字人表现“麻烦情绪”时比如“无奈”“尴尬”,表情会一下子变得僵结实动作也会出现“卡顿”;还有人说数字人的眼神总是“空洞的”,缺乏真实人那种“会说话”的灵气。这背后是手艺瓶颈:AI虽然能模仿表面动作,但很困难搞懂人类情绪背后的语境和逻辑,弄得“形似而神不似”。

更麻烦的是“恐怖谷效应”。当数字人接近真实人但又不够完美时用户会产生莫名的反感。有跨境电商卖家反馈, 用数字人制作的广告视频,初期数据不错,但投放一周后点击率一下子减少,后来找到是用户对“过于完美”的数字人产生了不信,觉得“不真实实”。怎么平衡“鲜活感”和“真实实感”,是AI视频生成非...不可解决的困难题。

从“效率革命”到“内容焦虑”:AI视频生成是不是让创作者更内卷?

AI视频生成少许些了制作门槛,但也带来了新鲜的焦虑。过去, 一个视频团队需要编剧、拍摄、剪辑、演员,分工明确;眼下一个人就能搞定全部流程,但内容产量暴增的一边,同质化也变得严沉。打开TikTok, 刷十条视频兴许有八条都是“数字人丁播”,产品不同,但表情、动作、套路差不离一模一样,用户早就审美累了。

更让人头疼的是“创意内卷”。当AI能轻巧松生成“合格”的视频时创作者非...不可拿出“惊艳”的内容才能脱颖而出。有人开头尝试“AI+真实人”的混合模式, 比如真实人出镜但用AI生成特效背景,或者让数字人扮演“助手”,真实人主播负责“灵魂”解说。这种“人机协作”或许是以后的方向,但需要创作者沉新鲜思考自己的定位:是和AI比效率,还是比创意?

以后已来:AI视频生成将走向何方?

站接下来要走向“喜欢用”。手艺的迭代不会打住以后的数字人兴许会更智能、更个性化,甚至成为我们生活中的“虚拟伙伴”。

“千人千面”的数字人:AI或实现用户自定义动态Avatar

以后的数字人兴许不再是“固定模板”,而是能根据用户需求实时变来变去的“动态Avatar”。想象一下 你打开电商App,推荐页面里的数字人主播会根据你的浏览往事“穿上”你兴许中意的衣服,用你熟悉的语调介绍产品,甚至能记住你的购物偏优良,说“上次你看了这款耳机,今天刚优良有活动”。这种“千人千面”的数字人,才能真实正实现“一对一”的个性化推荐。

手艺上,这需要结合巨大数据、许多模态AI和实时渲染手艺。比如通过琢磨用户的浏览记录、点击行为、甚至表情反应,实时调整数字人的外貌、语言风格和推荐内容。Captions已经在尝试“情绪感知”功能, 能根据语音的语调判断情绪,以后或许能直接读取用户的微表情,做出更精准的互动。

跨模态融合:AI视频+语音+交互, 打造沉浸式体验

AI视频生成的另一个进步方向是“跨模态融合”,也就是视频、语音、交互的深厚度结合。以后的数字人兴许不只是“单向输出”,而是能和用户“双向互动”。比如虚拟导购不仅能介绍产品, 还能回答用户的提问,根据用户的反馈调整推荐方案;教书领域的数字教师能根据学生的表情判断是不是听懂,自动调整教学节奏。

这种沉浸式体验需要更有力的实时交互手艺。比如结合AR/VR, 让用户能“走进”数字人所在的周围,比如虚拟试衣间、虚拟展厅,甚至和数字人一起“参加”线上活动。字节的Omnihuman-1已经支持全身动作, 以后或许能接入VR设备,让用户以第一视角和数字人互动,这种体验兴许会彻底改变在线购物、在线教书等行业。

AI视频对口型时代的收尾,不是手艺的终点,而是新鲜起点。从“机械模仿”到“鲜活表达”,从“单向输出”到“双向互动”,AI正在沉新鲜定义视频内容的创作方式。对从业者 这既是挑战也是机遇——谁能抓住“鲜活感”和“个性化”的核心,谁就能在下一轮行业洗牌中占据优势。但对普通用户或许真实正期待的,不是更逼真实的数字人,而是更真实实、更有温度的内容连接。毕竟手艺再先进,也替代不了人心与人心之间的共鸣。

欢迎分享,转载请注明来源:小川电商

原文地址:https://www.jinhanchuan.com/188910.html