“清华系Sora”全球上线！首发实测：多镜头切换强到爆30秒生成大片

发布日期： 2024-08-03 07:21:55 作者: 复古玻璃

　　两个人举起茶杯小口抿了一口。左边的人轻抿双唇后微笑，右边的人专注于他们的茶，形成一种静雅和微妙互动的场景。布景精致，淡雅的颜色、花卉布置和古典家具增强了优雅氛围。

　　今年4月，Vidu首次亮相，据称具备高动态性、高逼真度、高一致性等特点。此次上线，Vidu主打两大能力：动漫风格、角色一致性，其支持生成4秒、8秒固定时长的视频，分辨率达到1080P，此外还支持生成数字、英文等文字。在推理速度上，Vidu生成一段4秒片段只需30秒。

　　在价格方面，Vidu无偿提供版和3种收费机制。免费版每月有80积分，可生成20个4秒视频；按月度订阅，标准版、高级版、尊享版价格依次为19.99美元、59.99美元、199.99美元（约合人民币145.22元、435.80元、1452.83元），每月分别可额外获得240、800、2880积分，视频时长延长到8秒，可去水印和商用。目前在上线前两周，Vidu提供限时5折优惠。

　　用户如果按年订阅，标准版、高级版、尊享版目前的价格分别是7.99美元/月、23.99美元/月、79.99美元/月。此外，Vidu开放了API内测申请。

　　具体的生成效果和速度还得用了才知道，智东西第一时间拿到了内测资格并上手测试了Vidu。一番体验下来，我主要有以下几点感受：

　　2、语义理解能力很强，在100+字的长提示词下，Vidu也能覆盖到大部分细节并准确呈现。

　　3、Vidu实现了多镜头切换，可以通过一个提示词直接生成不同镜头的视频，这对于影视场景等应用很有价值。

　　4、运动幅度很大，无论是人物的表情、动作，还是景别切换，都保持了稳定性且没有牺牲动幅。

　　打开Vidu，在左侧的文本框中，我可以直接输入文字进行视频生成，也可以让系统随机生成提示词。文生视频可以再一次进行选择写实、动画两种风格，时长支持4秒、8秒固定长度，其中8秒视频需要订阅套餐。

　　图生视频则是上传图片后，选择用作起始帧或参考人物角色，提示词可有可无，此外不支持选择风格。

　　虽然主打动画风格，但写实风格对Vidu来说也不在话下。例如文章开头的案例，如果用同样的提示词选择写实风格，生成的视频效果是这样：

　　虽然视频后半段出现了茶杯“闪现”的失误，但瑕不掩瑜，Vidu无论是对提示词的语义理解上，还是对人脸、人手等细节的呈现上，都挑不出什么毛病。要是清晰度能再上一层，说是影视剧片段也不为过。

　　Vidu也在系统内提供了分辨率提升的功能，点击生成视频底部的“超清”按钮，就可以对视频进行超清处理。

　　在体验过程中，我发现Vidu对长文本的理解，以及基于单提示词生成多镜头的能力很突出。

　　例如这段提示词：在一个柔和灯光的浴室里，一只造型如美国动画角色的泰迪熊正在洗澡。它部分沉浸在泡泡浴缸中，一只爪子拿着电话，另一只爪子在搓洗自己。柔和的灯光营造出温暖和惬意的氛围，浴室的瓷砖是舒缓的粉彩色，增强了温馨和奇幻的氛围。泰迪熊的表情专注，表现出洗澡和打电话的同时进行。

　　这个提示词很长，覆盖了对主体动作、表情，场景氛围、灯光等多个细节的描写，而Vidu都一一准确地表现了出来。在理解语义的基础上，Vidu还增加了“侧面描写”，为泰迪熊添加了口型变化来体现“打电话”。

　　再比如这段提示词：先是一个滴答作响的怀表的特写镜头，然后拉远，揭示出相对而坐的两个人物，紧张气氛扑面而来。最后镜头转到窗外，是一篇黑压压的山脉。

　　这段提示词切换了3个镜头，Vidu准确生成了怀表的特写，并转换成两个人对话的场景，最后又抬高镜头对准了窗外。

　　值得一提的是，Vidu还支持在视频中生成包含数字、英文的画面。在上面的案例中也可见一斑，怀表上的数字清晰可见，从1到12都很准确。

　　例如基于这个提示词，我生成了一个动画风格视频：女孩捧着一个草莓生日蛋糕，上面插着蜡烛，蜡烛是数字“25”的形状。

　　Vidu不仅准确呈现了提示词，还“自由发挥”了后半段女孩走远和转身的细节，并且在此过程中，画面背景和人物保持了高度一致性。

　　再来看看英文单词的生成，我用的提示词为：一只柯基身穿红色的赛车服，头戴小头盔。在类似赛道的简约布景上，柯基坐在一辆小巧流线型的赛车中，准备起跑，赛车车身印有“DOGE”字样。

　　除了准确生成了“DOGE”字样外，Vidu在这一个视频中还有一点惊艳到我：对光影的模拟。

　　在经过一段看起来像建筑阴影的地方时，画面主体的柯基和赛车随着相对建筑的位置，从全部笼罩在阴影中，逐渐变为只有柯基在阴影中、全部暴露在阳光下。虽然过渡还有些不自然，但在某些特定的程度上体现了对物理世界光影关系的模拟。

　　当然，Vidu也有“翻车”的时候，在遇到涉及大幅度运动或是偏专业场景的时候，它明显有些力不从心。

　　例如我想让它生成一个奥运会场景，提示词为：在奥运会的乒乓球赛场上，灯光闪耀，观众们热情欢呼。甲和乙站在球台两端，甲表情自信地准备发球，他将球高高抛起，然后用力挥拍发球。球在空中划过一道弧线，乙则表情沉稳，快速移动脚步，精准地挥拍接球，随后球在半空快速穿梭，甲眼神期待，乙顽强应对，两人开始了激烈的对打，展现出高超的乒乓球技艺。

　　无论是动画还是写实风格，Vidu在这个提示词上都大翻车，要么让运动员站在了球台的侧面，要么直接在球台的一边生成了第三个运动员，还“放任”运动员大肆犯规。

　　总的来说，在文生视频中，Vidu已经能应对大部分较为日常的场景，虽然有失误和翻车情况，但整体瑕不掩瑜，并且这一些状况也可能通过“抽卡”解决。同时，Vidu对文字、多镜头的支持能大幅度减少后期的工作，在实际应用中有很大的价值。

　　这两个功能能说是表情包和梗图制作神器了，比如我可以让马斯克变身深情男，为屏幕对面献上玫瑰。

　　我也可以用Vidu让喜欢的照片动起来，比如上传一张戴墨镜男孩的照片，把他的墨镜摘下来。

　　在保持发型、服装一致性的前提下，Vidu不仅让人物面向了镜头，还发挥想象力为他生成了一个欧美男孩的脸，比上一个视频中的脸进步了不少。

　　不过，用AI复活真人照片已经涌现出不少玩法了。既然Vidu针对动漫风格进行了专门的优化，那它能复活“纸片人”吗？

　　我上传了一张日本动画角色C.C.的特写，首先不写任何提示词，选择用作起始帧，看看Vidu会如何自由发挥。

　　不得不说，Vidu的表现有些超出我的预期了，其在初始画面的基础上变换了人物角度、表情，在此过程中不仅保证了画面的流畅和风格一致性，还让头发进行了大幅度随风飘动，有点“中二病”那味儿了。

　　同样是上传这张参考图，我又尝试选择参考人物角色，随后分别输入“她微笑着，向镜头伸出双手”、“她生气地抱着双臂，转过头不理你”作为提示词。

　　令我惊讶的是，即使是“纸片人”，Vidu也实现了很高的角色一致性，虽然画风有所变化，但人物的发色、瞳色、衣服都保持一致。不过在第二个提示词中，Vidu没能呈现“转过头”这个动作。

　　看来2D平面角色问题不大，那3D角色呢？我上传了一款日本游戏中的角色爱丽丝。

　　选择参考人物角色后，我输入提示词：她幸福地笑着，眼睛眯成一条线，背景是一片花海。

　　Vidu基本复现了她的发型、发饰和服装，但人脸显然并不是同一张，同时发型等细看也有不一致，有点像Cosplay和原版的差别。不过在对提示词的理解和表达上，Vidu倒是没什么失误。

　　“纸片人”都试了，“纸片动物”是否也能一试？我上传了一张杰瑞，让Vidu将其作为起始帧生成了下面这个视频。

　　总的来说，在图生视频方面，Vidu不仅能实现其他同种类型的产品复活照片的功能，而且基于对动漫风格的优化，它能将真实人物照片中的玩法延伸到二次元，这为动画、游戏等行业带来了新的价值。

　　AI视频生成赛道迎来小高潮，上周爱诗科技、智谱AI刚刚发布新模型，今天生数科技就甩出Vidu大模型迎战。

　　Vidu大模型在今年4月首次发布，当时据称支持一键生成16秒、分辨率1080P的高清视频内容，具备多镜头生成、时空一致性高等特点。从这次体验来看，虽然Vidu还没有上线秒视频生成的能力，清晰度也有待提升，但在多镜头、一致性方面确实有很大突破，这为Vidu带来了差异化的特点。

　　短短5个多月，国内大厂、创企纷纷亮出杀手锏，国产视频生成大模型与Sora的差距越来越小，甚至已经实现弯道超车。

上一篇: 【48812】女生英文名大全简略
下一篇: 汽车大灯能换灯罩吗