视频生成模型的第一个“实时，无限”的爆炸

作者：bet356亚洲版本体育 日期：2025/07/23 10:14 浏览：

您什么时候意识到世界在这里蓬勃发展？每个人都可以理解一些魔术，并在不同的空间和幻想世界中自由旅行。当读者和朋友看到它时，他们可以打喷嚏：“这不是AI视频吗？”但是，如果添加了两个关键字，那将是AI视频生成领域的革命成功！就在昨天，decart发布了第一个“实时”“无限”扩散视频模型Mirageelsd支持“任意视频流”！输入任何视频流，无论是相机还是视频聊天，计算机屏幕或游戏，Mirageelsd都可以将其转换为40毫秒延迟的任何世界。所有这些看起来都令人难以置信。 AI视频现在可以实现与过滤器相同的应用程序方法，明智地实时调整了Photo样式和内容，并且可以通过文本提示通过意外控制。实时视频魔术打开了一个新应用程序，该应用程序可能是Tesla AI的前总监和Openai创始团队Andrej Karpathy的成员，已经开设了广泛的Imagina这项技术的影响：在“另一个世界”中制作相机图像。自我指导并在实时电影中行动：选择道具和解释场景。 AI负责实时套装和样式，观看几秒钟的播放，并在表演时削减。游戏的开发很容易启动：使用简单的球/立方体来编码游戏机制，然后使用实时扩散模型为游戏生成独特的纹理。任何视频流的样式转移：示例：仅及时单词“上古卷轴”外观“更史诗般的”可以使“ Doom 2”现代虚幻发动机质量。视频会议和实时虚拟配件的背景。升级AR眼镜：实时化漫画。哈利·波特（Harry Potter）的“埃里斯镜子”（Eris Mirror）：一种看似现实的镜子实际上将显示AI基于您的“深层欲望”而产生的完美自我或世界。卡尔帕里说，他成为了在Mirageelsd项目上投资的天使，他认为这项技术是Universal and strong。也许只是开始，而真正的“杀手级应用程序”尚未被发现 - 该领域值得无尽的想象力！所有这些使我想起了“剑术领域”，似乎真的可以实现涵盖现实世界的幻想的图片吗？ vatart还展示了一些思想的证明，完全参与其中 - 他的可能性不同：例如，在沙漠中滑雪吗？例如，您可以花30分钟编写游戏代码，然后让Mirage处理图形吗？ Tecart发推文说，使用幻影“用直接单词创建GTA VII，这比GTA VI快。”幻影目前是在线的，而不是在屏幕上观看魔术，而是自己创造魔术。 VETART将继续发布模型升级和新功能，包括面对面，语音控制和准确的对象控制。同时，该平台还将启动一系列新功能 - 例如流媒体支持（在任何纸上实时广播），游戏集成，视频通话和其他操作。链接体验：https：//mirage.decart.ai/ Magic Mirageelsd背后的Mirageelsd原则已在视频生成和延迟时期的两个主要角度制作了非凡的标签。基于该模型 - 实时流扩散（LSD），该模型可以通过框架形成框架并保持时间统一。就视频持续时间而言，由于误差积累，先前的视频模型在20-30秒后大大降低了质量。就一代延迟而言，他们通常需要几分钟的处理才能删除几秒钟的视频。即使是今天最接近实时速度的系统，也通常将视频开发到块，这引入了不可避免的延迟，而这些延迟完全不可能实施交互式应用程序。无休止的视频Mirageelsd是一代视频生成的第一代，可以产生无尽的长时间视频。因为模型的尿道性质，误差逐渐积累，从而限制了输出的长度。为了实现无休止的自动进展：Mirageelsd是基于技术的爆炸，强迫按框架否认；我们引入了一种增强历史的方法，以避免历史训练框架，以便该模型可以学会预测和纠正输入工件，从而增强其在自动估计生成中的标准偏移量的稳定性；这两个的组合使LSD成为第一个可以永远生成视频的模型，而不会崩溃，及时且始终与用户的场景和输入一致。响应零延迟的视频生成是指回应此案的最严重的延迟。尽管以前的自回旋模型的响应速度比MirageelsD慢16倍，但导致无法实现的实时触点。实时生成要求控制每个框架的生成时间wi薄40毫秒，以防止人眼注意到它。我们通过设计定制的CUDA大型内核来减少开销并最大化吞吐量来实现这一目标；减少基于快捷蒸馏和修剪技术模型所需的计算量；模型体系结构优化以完全与GPU硬件完全保持一致，以最大程度地提高效率。通过上述技术，我们将响应速度提高了16倍，与以前的型号相比，以24帧/秒的速度实现了实时视频生成。扩散模型和LSD扩散模型逐渐通过一系列分步操作返回到图像或视频。在视频的一代中，这通常意味着立即开发固定的视频剪辑，有助于保持时间一致性，但可能导致延迟。有些系统正在尝试通过所谓的“自动进展生成”来制作框架框架，以改善flexib能力。但是，在响应新输入之前，在形成每个帧之前仍需要形成此过程，从而限制了实时协调和应用的能力。 LSD采用不同的方法。同时构建帧，使用自回旋结构的原因，每个帧都取决于先前形成的帧和用户信号。由Propheciesthis支持的是即时反馈，与零范围接触，并且可以继续生成视频而无需阻止完成。每次步骤，该模型都会收到一组先前形成的帧，当前输入帧和用户指定的单词，然后预测下一个帧输出，该输出立即将其作为输入传递给下一代一代。这种反馈机制使LSD可维持时间耗尽的时间，不断适应图片中内容的动作和变化，并生成无限的视频合规性并实时遵循用户的信号。此外，它允许LSD立即响应输入 - 文本文本或视频内容的更改 - 以达到真正的零延迟。这是真实编辑和转换的关键。技术方向和改进首先，当前系统取决于历史框架的有限窗口。期望更长的记忆机制的引入将在长序列中提高统一性，从而在角色身份，场景布局和长期动作中实现更加一致的性能。此外，尽管MirageelsD支持基于文本的更改，但仍然有限地控制特定对象，空间区域或动作。如果可以集成诸如主要要点或标签之类的结构控制信号，这将有助于实现用户可以在实时环境中控制的更精细的谷物和操作。就语义而言，几何稳定性是相同的，尤其是面对强烈的偏斜式式式式式式式式稳定性，仍然需要进一步的优化。 Mirageelsd极端风格C悬挂，物体的结构或布局可能是混乱的。有关更多相关的技术信息，请参阅技术介绍：文章链接：https：//about.decart.ai/publications/mirage

新闻资讯

联系我们

视频生成模型的第一个“实时，无限”的爆炸