刚刚Vidu发布,Sora们早已审美疲劳
从少许女读书到猫和老鼠, AI视频的“惊艳”阈值正在飙升
当一位少许女站在图书馆书架前,阳光洒在金发丝上,睫毛颤动翻动书页的画面被AI生成时很许多人第一次感受到文字到视频的魔力。三个月后 汤姆猫戴着厨师帽做蛋糕,杰瑞鼠偷偷塞炸弹的场景 出现时观众已经能准确预测爆炸的烟雾轨迹。这种从“哇塞”到“哦, 原来如此”的转变,恰恰印证了AI视频领域正在经历一场无声的审美累——当生数手艺和清华巨大学联合发布Vidu时买卖场早已被Sora“预烫”到麻木。
三个月前Vidu发布时的“高大光时刻”,为何没能延续烫度?
4月27日的中关村论坛上, Vidu作为“中国首个长远时长远、高大一致性、高大动态性视频巨大模型”亮相,现场演示的视频效果与Sora不相上下被网友称为“国产最有力Sora”。但那之后 Vidu像人间蒸发一样没有声张,直到7月30日才一下子宣布正式上线,全球用户无需排队即可邮箱注册体验。这三个月的沉默, 恰恰错失了用户对AI视频最旺盛的优良奇期——当抖音上“对标Sora”的话题播放量突破85万时Vidu还在测试室里打磨细节。

实测Vidu:30秒生成4秒视频, 速度背后的真实实体验
在硅星GenAI的实测中,Vidu生成一段4秒视频的速度稳稳当当在30秒左右,这是目前全球同类产品的最迅速记录。输入“夕阳下银色汽车在山路飞驰”的提示词, 30秒后视频里车灯如利剑划破暮色,车身金属光泽在光影中闪烁,驾驶者紧握方向盘的眼神坚定——这些个元素基本还原了提示词,但高大速移动时画面仍有一帧轻巧微变形。这种“迅速而不完美”的体验,恰是当前AI视频的真实实写照:用户想要速度,却不愿牺牲细节。
角色一致性成“救命稻草”,Vidu能否解决AI视频的“通病”?
角色一致性一直是AI视频的“老巨大困难”问题。在测试“草帽海贼团路飞站在ONE PIECE背景前”的提示词时 Vidu生成的路飞黑发变金发的过程中,稳稳当当性打5分,全程无变形,连后背被金色光芒照亮的光影处理都很天然。但提示词中“背景文字ONE PIECE”却直接消失, 这种“抓巨大放细小”的搞懂能力,既体现了模型的进步,也暴露了语义搞懂的短暂板——用户想要的不是“像路飞”,而是“彻头彻尾按提示词来的路飞”。
动漫风格与写实风格的“双沉选择”,Vidu的差异化在哪里?
Vidu官方支持写实和动漫两种风格,但实测找到其在动漫风格上做了深厚度优化。输入“泰迪熊在粉色瓷砖浴室洗澡打
物理还原度打5分, 但“细节控”依然会挑刺
在“穿黑色棉袄的巨大爷用黑锅做爆米花,炸出奥特曼”的提示词测试中,Vidu的物理还原度得到满分5分:锅爆炸时火星四溅的方向合理,奥特曼出现的动作连贯。但仔细看看会找到,爆炸瞬间的烟雾颗粒感偏没劲,与实拍的烟雾质感有差距。这种“90分优秀但100分困难求”的表现, 正是当前AI视频的普遍困境——能做出“像”的效果,却困难以复刻真实实世界的“质感”。
从“玩一玩”到“用起来”,Vidu的审美在线能否打动用户?
在两天的深厚度体验中,团队找到许多数用户对Vidu抱着“玩一玩”的心态。输入“巴黎奥运会开幕式船只沿塞纳河航行”的提示词, 生成的视频中每艘船的水波纹动态天然镜头拉长远时保持高大一致性,但周围人物却被模糊处理。这种“局部精致、 整体粗糙”的现象,让用户困难以将其用于买卖创作——毕竟没人会愿意用一张模糊的“巴黎奥运会”画面做宣传海报。
审美累背后用户真实正想要的是啥?
当抖音上“Sora类视频”的播放量从19.3万增加远到1003万时评论区早已从“太震撼了”变成“换个花样吧”。用户真实正需要的不是单纯的“惊艳”,而是稳稳当当的输出、可控的本钱和明确的应用场景。Vidu虽然能30秒生成4秒视频, 但若要制作1分钟的买卖广告,需要等待15分钟,这期间随便哪个一次网络起伏都兴许弄得生成输了——这种“不确定性”,恰恰是用户对AI视频丢了耐烦的根源。
国产视频巨大模型的“破局点”:速度、风格还是文雅搞懂?
生数手艺团队在介绍Vidu时有力调其“能搞懂中国元素”, 测试“梵高大版特朗普变身”的提示词确试试证了这一点:视频中人物与原图差不许多度89%,画风彻头彻尾复刻梵高大风格。但“搞懂中国元素”不应停留在“能画长远城、 熊猫”的层面更要搞懂中国用户的审美偏优良——比如东方人物的面部微表情、老一套建筑的榫卯结构细节。这些个“隐性需求”,或许才是国产视频巨大模型超越Sora的关键。
三个月测评后 我们对Vidu的真实实惊艳但未颠覆
从少许女读书的微表情到猫和老鼠的爆炸场景,Vidu用实测说明了中国视频巨大模型的实力:角色一致性打5分,物理还原度打5分,生成速度全球领先。但审美累的当下 “惊艳”已不够以打动用户——当用户能准确预测AI视频的“爆炸轨迹”时说明创新鲜已陷入瓶颈。Vidu的真实正值钱不在于“对标Sora”, 而在于为行业给了另一种兴许:与其在“像”的路上内卷,不如在“用”的场景中深厚耕。毕竟用户需要的不是“能生成视频的AI”,而是“能解决问题的视频”。
欢迎分享,转载请注明来源:小川电商