400-123-4567

13988999988

新闻资讯

联系我们

公司地址:广东省广州市天河区88号
联系方式:400-123-4567
公司传真:+86-123-4567
手机:13988999988

视频生成模型的第一个“实时,无限”的爆炸

作者:bet356亚洲版本体育 日期:2025/07/23 10:14 浏览:
您什么时候意识到世界在这里蓬勃发展?每个人都可以理解一些魔术,并在不同的空间和幻想世界中自由旅行。当读者和朋友看到它时,他们可以打喷嚏:“这不是AI视频吗?”但是,如果添加了两个关键字,那将是AI视频生成领域的革命成功!就在昨天,decart发布了第一个“实时”“无限”扩散视频模型Mirageelsd支持“任意视频流”!输入任何视频流,无论是相机还是视频聊天,计算机屏幕或游戏,Mirageelsd都可以将其转换为40毫秒延迟的任何世界。所有这些看起来都令人难以置信。 AI视频现在可以实现与过滤器相同的应用程序方法,明智地实时调整了Photo样式和内容,并且可以通过文本提示通过意外控制。实时视频魔术打开了一个新应用程序,该应用程序可能是Tesla AI的前总监和Openai创始团队Andrej Karpathy的成员,已经开设了广泛的Imagina这项技术的影响:在“另一个世界”中制作相机图像。自我指导并在实时电影中行动:选择道具和解释场景。 AI负责实时套装和样式,观看几秒钟的播放,并在表演时削减。游戏的开发很容易启动:使用简单的球/立方体来编码游戏机制,然后使用实时扩散模型为游戏生成独特的纹理。任何视频流的样式转移:示例:仅及时单词“上古卷轴”外观“更史诗般的”可以使“ Doom 2”现代虚幻发动机质量。视频会议和实时虚拟配件的背景。升级AR眼镜:实时化漫画。哈利·波特(Harry Potter)的“埃里斯镜子”(Eris Mirror):一种看似现实的镜子实际上将显示AI基于您的“深层欲望”而产生的完美自我或世界。卡尔帕里说,他成为了在Mirageelsd项目上投资的天使,他认为这项技术是Universal and strong。也许只是开始,而真正的“杀手级应用程序”尚未被发现 - 该领域值得无尽的想象力!所有这些使我想起了“剑术领域”,似乎真的可以实现涵盖现实世界的幻想的图片吗? vatart还展示了一些思想的证明,完全参与其中 - 他的可能性不同:例如,在沙漠中滑雪吗?例如,您可以花30分钟编写游戏代码,然后让Mirage处理图形吗? Tecart发推文说,使用幻影“用直接单词创建GTA VII,这比GTA VI快。”幻影目前是在线的,而不是在屏幕上观看魔术,而是自己创造魔术。 VETART将继续发布模型升级和新功能,包括面对面,语音控制和准确的对象控制。同时,该平台还将启动一系列新功能 - 例如流媒体支持(在任何纸上实时广播),游戏集成,视频通话和其他操作。链接体验:https://mirage.decart.ai/ Magic Mirageelsd背后的Mirageelsd原则已在视频生成和延迟时期的两个主要角度制作了非凡的标签。基于该模型 - 实时流扩散(LSD),该模型可以通过框架形成框架并保持时间统一。就视频持续时间而言,由于误差积累,先前的视频模型在20-30秒后大大降低了质量。就一代延迟而言,他们通常需要几分钟的处理才能删除几秒钟的视频。即使是今天最接近实时速度的系统,也通常将视频开发到块,这引入了不可避免的延迟,而这些延迟完全不可能实施交互式应用程序。无休止的视频Mirageelsd是一代视频生成的第一代,可以产生无尽的长时间视频。因为模型的尿道性质,误差逐渐积累,从而限制了输出的长度。为了实现无休止的自动进展:Mirageelsd是基于技术的爆炸,强迫按框架否认;我们引入了一种增强历史的方法,以避免历史训练框架,以便该模型可以学会预测和纠正输入工件,从而增强其在自动估计生成中的标准偏移量的稳定性;这两个的组合使LSD成为第一个可以永远生成视频的模型,而不会崩溃,及时且始终与用户的场景和输入一致。响应零延迟的视频生成是指回应此案的最严重的延迟。尽管以前的自回旋模型的响应速度比MirageelsD慢16倍,但导致无法实现的实时触点。实时生成要求控制每个框架的生成时间wi薄40毫秒,以防止人眼注意到它。我们通过设计定制的CUDA大型内核来减少开销并最大化吞吐量来实现这一目标;减少基于快捷蒸馏和修剪技术模型所需的计算量;模型体系结构优化以完全与GPU硬件完全保持一致,以最大程度地提高效率。通过上述技术,我们将响应速度提高了16倍,与以前的型号相比,以24帧/秒的速度实现了实时视频生成。扩散模型和LSD扩散模型逐渐通过一系列分步操作返回到图像或视频。在视频的一代中,这通常意味着立即开发固定的视频剪辑,有助于保持时间一致性,但可能导致延迟。有些系统正在尝试通过所谓的“自动进展生成”来制作框架框架,以改善flexib能力。但是,在响应新输入之前,在形成每个帧之前仍需要形成此过程,从而限制了实时协调和应用的能力。 LSD采用不同的方法。同时构建帧,使用自回旋结构的原因,每个帧都取决于先前形成的帧和用户信号。由Propheciesthis支持的是即时反馈,与零范围接触,并且可以继续生成视频而无需阻止完成。每次步骤,该模型都会收到一组先前形成的帧,当前输入帧和用户指定的单词,然后预测下一个帧输出,该输出立即将其作为输入传递给下一代一代。这种反馈机制使LSD可维持时间耗尽的时间,不断适应图片中内容的动作和变化,并生成无限的视频合规性并实时遵循用户的信号。此外,它允许LSD立即响应输入 - 文本文本或视频内容的更改 - 以达到真正的零延迟。这是真实编辑和转换的关键。技术方向和改进首先,当前系统取决于历史框架的有限窗口。期望更长的记忆机制的引入将在长序列中提高统一性,从而在角色身份,场景布局和长期动作中实现更加一致的性能。此外,尽管MirageelsD支持基于文本的更改,但仍然有限地控制特定对象,空间区域或动作。如果可以集成诸如主要要点或标签之类的结构控制信号,这将有助于实现用户可以在实时环境中控制的更精细的谷物和操作。就语义而言,几何稳定性是相同的,尤其是面对强烈的偏斜式式式式式式式式稳定性,仍然需要进一步的优化。 Mirageelsd极端风格C悬挂,物体的结构或布局可能是混乱的。有关更多相关的技术信息,请参阅技术介绍:文章链接:https://about.decart.ai/publications/mirage
首页
电话
短信
联系