抢跑Sora！腾讯视频大模子初体验：功能多，但不彊

栏目分类

热点资讯

以创新赢未来，汉诺集团荣获“灵境杯”云算力奖

AI写著作神器真能一键惩处？别被骗了

思在支付宝拍证件照？3个简陋小手段共享

还在为码字发愁？AI原创生成器赈济你的写稿暴燥

思在线免费换证件照底色？保举6款超棒用具！

你的位置：科技前沿网 > 创新应用 > 抢跑Sora！腾讯视频大模子初体验：功能多，但不彊

创新应用

抢跑Sora！腾讯视频大模子初体验：功能多，但不彊

发布日期：2025-01-03 06:10 点击次数：144

抢跑Sora！腾讯视频大模子初体验：功能多，但不彊

2024年2月15日，OpenAI致密对外公布文生视频大模子Sora，引得众人网友高呼“AI解构真确宇宙的时候到了”。但是简短10个月时期昔日，Sora依然只存在于PPT上，反而是亚马逊云科技抢先OpenAI发布了Nova Reel文生视频大模子，谷歌则面向企业用户绽开了AI视频模子Veo。

国际互联网巨头忙于开采和布局AI生成视频的同期，国内互联网巨头们也莫得闲着，早前快手旗下的AI团队就打造出了视频生成大模子可灵，随后清华大学与北京数生科技联手打造了视频生成大模子Vidu，日前腾讯公司的AI团队也推出了混元文生视频大模子，并在腾讯元宝App上线。

算作国内有名度、市值最高的互联网公司，腾讯在游戏、即时通讯、挪动支付等鸿沟申明显著。昔日常有东说念主质疑腾讯的工夫研发才略，如今腾讯与亚马逊云科技、谷歌等国际互联网巨头同期拿出了视频生成大模子，施展了我方的研发才略涓滴不弱。

不外，体验才是判断工夫实力的最终尺度，腾讯视频生成大模子究竟好不好用，体验过才知说念。

混元视频模子初体验：功能多而不彊

腾讯混元大模子参数目为130亿，是目下参数目最大的开源视频生成类大模子，公测期间用户每天可以赢得4次尺度和2次高品性视频生成契机，视频生成长度为5秒。

单纯看功能，腾讯混元文生视频大模子比小雷之前使用过的同类家具齐浅陋易用，提供了丰富的视频类型建造，举例比例、格调、景别、光泽、镜头通晓、通晓运镜、丰富动作、导演款式等。但是，真是到使用阶段，小雷的体验却说来话长。

（图源：腾讯元宝App截图）

刚驱动小雷并莫得给大模子上难度，以描绘语“夕阳西下，青娥坐在靠窗的书桌前，目力不住地进取飘，嘴角微微上扬，似乎念念起了什么值得欢乐的事”生成一段视频，末端如下图。

（图源：腾讯混元大模子生成）

腾讯混元大模子生成的视频画面可以，填塞以伪乱真，仅仅与小雷脑补的画面有赫然远隔，白东说念主女孩也有点“出戏”，而况书桌、窗户等细节并莫得推崇出来，举座令小雷有点失望。按理说，掌捏了国内头部短视频平台视频号的腾讯，领有充足的视频数据可用于覆按大数据，末端这个视频给我的嗅觉却是基于国外数据覆按。

随后，小雷又以“清朗的太空，忽然乌云密布，继而顿然下起了暴雨，路上的行东说念主有的慌忙跑到房檐下避雨，有的把挎包顶在头上沿途决骤”为描绘语生成了一段视频。

（图源：腾讯混元大模子生成）

这段视频不细看还能采用，但若仔细看就会发现视频存在赫然的弱点，如部分东说念主物循序有些综合，不像走在大地上，右侧有个红色的包“漂”了昔日，可能是AI未能奏效生成提包的东说念主。至于天气变化未能体现、莫得感受到不才雨等问题，小雷已无力吐槽。

终末一轮测试，小雷采用了中景+拉近镜头，并以“宁静的海滩，朔月高悬在太空，微风吹动着海边的椰子树，发出哗拉拉的声息，一只小猫咪慵懒地躺在沙滩上，舔舐着前腿上的毛发”为描绘语生成了一段视频。

（图源：腾讯混元大模子生成）

这个场景相对较为浅陋，莫得赫然的景物变化，就东说念主类的脑补才略来说，比上一个要容易。但是这则视频却清楚了腾讯混元大模子的问题，我明明建造了拉近镜头，可视频莫得推崇出镜头的动态变化。小雷提到的椰子树、猫咪舔舐毛发等物体和动作，也莫得体现出来。这段视频月亮和波澜细节可以，猫咪也很真确，但终究不是我念念要的末端。

为考证大模子的一致性问题，小雷用该段描绘语和镜头建造再次生成了一段视频。与上一段视频比拟，猫咪有了舔舐毛发的动作，椰子树也出当今画面中，可月亮因太大产生了颠倒感，猫咪动的时候，沙子耐久莫得变化也属于弱点。

（图源：腾讯混元大模子生成）

小雷翻看了腾讯混元大模子给出的程序，大多数是使用多量要道字描绘，而非如小雷给出的天然讲话，后者难度昭着更高。从实质推崇来看，腾讯混元大模子照旧可以意会东说念主类天然讲话，并把柄描绘的画面生成视频，销毁段话两次生成的末端也较为接近，仅仅细节方面有待普及。

天然，腾讯混元大模子究竟达到了什么水平，照旧要对比事后才气知说念。因此，小雷使用Vidu和可灵两款大模子把柄第三段描绘语诀别生成了一段视频。需要详细的是，这两款视频生成大模子诚然未提供镜头罢休功能建造，但可以在描绘语后加入中景、拉近镜头等词语加以调控。

Vidu生成的视频将小雷描绘中的风吹动椰子树、舔舐毛发、镜头拉近齐完好展现，与小雷脑补的画面较为接近。好意思中不及的是，这段视频中的月亮过于亮堂，搭配蔚蓝的举座颜色，更像早上太阳初升的时期，沙滩则过于平整，莫得任何沙子的嗅觉。

（图源：Vidu生成）

可灵生成的视频在小雷看来是这几个视频中最允洽预期的，波澜、风吹动椰子树、舔舐毛发等细节齐有，还加入了虚化和镜头拉近末端，影子的细密变化更是惊喜。问题在于该视频依然存在细节方面的问题，莫得推崇出朔月，更像是日间。

（图源：可灵生成）

另外两段描绘语，小雷也用Vidu和可灵进行了测试，限于篇幅问题，不再逐个展示。一言以蔽之，现阶段视频生成类大模子均已具备意会天然讲话的才略，但靠近较为复杂的场景，依然会存在诸多弱点，而在相对浅陋的场景下，Vidu、可灵等“老牌”视频生成模子的推崇略好，细节弱点少一些，腾讯混元大模子仍有较大超过空间。

混元视频大模子畴昔可期，但要腾讯填塞意思意思

从0到1的难度，可能比从1到2高得多，摸着石头过河的混元大模子在易用性、功能性方面更胜一筹，但AI大模子不同于其他行业，不但需要前东说念主引路，还需要工夫积蓄、算力限度、覆按数据。

领有腾讯算作后援，混元大模子不缺财力，可算力需要多量GPU和AI谋划卡，更何况现时AI公司齐在争夺GPU和AI谋划卡的产能，哪怕腾讯不缺钱，也需要时期堆算力、门径员优化算法、多量数据用于覆按。Vidu和可灵已升级至1.5版块，除了文生视频，还辅助图片生成视频，刚降生不久的混元文生视频大模子略显稚嫩，生成的视频质地有一定的差距。

（图源：mockup套壳）

好在，混元大模子背后毕竟是国内互联网行业霸主腾讯，在腾讯工夫团队和资金的辅助下，肯定混元大模子能够以极快的速率成长。

从腾讯、亚马逊云科技、谷歌等企业的推崇来看，2025年会是众人视频生成大模子爆发的一年，AI生成视频的长度也将从数秒普及至分钟级，如亚马逊云科技的Nova Reel行将辅助生成长达2分钟的视频。

与AI生成图文比拟，生成视频才气透顶目田念念象力，将咱们大脑中的念念法和脑补的画面退换成执行。还有无数的收罗演义作者，但愿能够通过AI将演义退换成动画或真东说念主视频。一朝AI生成视频工夫进修，众人娱乐产业将遇到前所未有的变局。

视频生成大模子正井喷式涌现，2025年或将成为“视频生成大模子元年”，亦然决定关联企业成败的要道一年。从可灵、Vidu到腾讯混元大模子，国内企业已实时入场，把捏到了新时间的机遇。能否在新时间引颈众人视频生成大模子行业，大约很快就能见分晓。

举报/反映

上一篇：涨停复盘：机器东谈主认识捏续活跃 AI认识再度走强

下一篇：比特币“暴走”之后，马斯克或为盗窟币带来强劲顺风！