"); //-->
对图像的风格变换重建已经取得了不少突破,但是视频的重建任务目前还存在非实时、弱细节、低保真的问题,本文提出基于退火哈希算法的、粒度逐步细化的视频内容重建算法,性能提升明显。
我们知道过去几年,图像编辑领域发展惊人。但在视频领域,还有所缺陷。近日,一项视频编辑领域的研究成果放出。让我们先来看一下效果。
姜文变成大猩猩......
美女变成卡通人物......
是不是看起来非常不错?这都来自于以下这篇研究。
链接:https://arxiv.org/abs/2308.07926
图像处理领域能取得如此显著的进步,在很大程度上归功于能够在大规模数据集上训练的生成式模型,后者能显著提高图像任务的质量和精度。然而,有关视频内容的处理任务却没有取得同等的进展。视频任务的挑战之一在于对保持时间一致性的要求较高,而这个要求会因神经网络固有的随机性而变得复杂。另一个挑战来自视频数据集本身的性质,和图像集相比通常质量较差,并且需要更多的计算资源。
因此,基于视频的算法的质量明显落后于那些专注于图像的算法。这种落差引发了一个问题:以图像形式表示视频,将已建立的图像算法无缝应用于具有高度时间一致性的视频内容是否可行?
为了实现这一目标,在深度学习时代之前,研究人员曾建议从动态视频中生成视频马赛克,而在隐式神经表征提出之后,研究人员又建议利用神经分层图像图集。但是这些方法存在两个主要缺陷。首先,这些方法的表征能力是有限的,特别是在如实地重建视频中错综复杂的细节时。通常,重建的视频忽略了微妙的运动细节,如眨眼或轻微的微笑。第二个限制与估计图集的典型扭曲性质有关,语义信息会因此受损。总而言之,现有的图像处理算法无法发挥最佳性能,因为预测的结果缺乏足够的自然度。
本文作者提出了一种新的视频表征方法,该方法利用基于 2D 散列的图像场和基于 3D 散列的时间变形场。结合多分辨率散列编码来表示时间变化,大大提高了重建一般视频的能力。这种方法有助于跟踪水和烟雾等复杂实体的变形。然而,变形场能力的增强对估计自然规范图像提出了挑战。不自然的规范图像也可以通过完整的重建来估计相应的变形场。
为了应对这一挑战,本文建议在训练期间使用退火哈希算法。先使用平滑变形网格来识别适用于所有刚性运动的粗解决方案,然后逐渐添加高频细节。通过这种由粗到细的训练,表征结果在规范的自然性和重建的还原性之间实现了平衡。与之前的方法相比,本文作者观察到重建后的质量显著提高。改进后 PSNR 大约增加 4.4,规范图像的自然性也肉眼可见的增加。这种方法的优化过程只需要大约 300 秒来估计带有变形场的规范图像,而之前的隐式分层表示需要超过 10 个小时。
本文在变形场算法的基础上,还说明了提升图像处理任务,如提示引导图像翻译、超分辨率和分割 —— 到视频内容的更动态场。在处理标准图像时,本文使用的 prompt-guided 的视频到视频重建的方法,具体来说使用的网络是 ControlNet ,然后通过学习后的变形场传导重建的内容。重建过程在单个标准图像上进行,无需跨所有帧,无需使用耗时的推理模型(例如扩散模型)。与基于生成模型的 sota 零拍视频重建相比,本文的重建输出结果在时间一致性和纹理质量方面有明显改善。与依赖神经分层标签的 Text2Live 相比,本文提出的模型可以说是精通处理更复杂的运动,能给产生更自然的标准图像,从而实现卓越的重建结果。此外,本文将超分辨率、语义分割和关键点检测等图像算法的应用扩展到标准图像,从而在视频上下文中能给得到实际应用。这包括视频超分辨率、视频对象分割、视频关键点跟踪等。本文作者提出的表征算法能从始至终地保持卓越的时间一致性,生成高保真合成帧,展示了其作为视频处理工具突破性的潜力。
方法概览
给定由帧 {I1,I2,…,IN} 组成的视频 V,对于对应的视频任务,可以简单地将图像处理算法 X 单独应用于每一帧,但是可能会出现帧之间存在不一致的内容,这是我们不希望看到的。进一步地,可以使用另一种策略:用时间模块增强算法 X,但这需要对视频数据进行额外的训练。然而,简单地引入时间模块很难保证理论的一致性,并且可能由于训练数据不足而导致性能下降。
受此启发,本文作者建议使用平滑的规范图像 Ic 和变形场 D 来表征视频 V。通过在 Ic 上应用图像算法 X,可以利用学习到的变形场将效果有效地应用到整个视频。这种新颖的视频表示是图像算法和视频任务之间的重要桥梁,能将最先进的图像方法直接提升到视频应用中。
本文提出的表征算法具有以下基本特征:
如实地视频重建的拟合能力。表征应该具有精确拟合视频中的大的刚性或非刚性物体变形的能力。
规范图像的语义正确性。失真或语义不正确的规范图像可能导致图像处理性能下降,特别是考虑到这些训练过程多数都是在自然图像数据上进行的。
变形场的平滑度。保证变形场的平滑性是保证时间一致性和正确传播的一个基本特征。
下图 2. 显示了本文提出的的视频表示算法 CoDeF 的说明,其将任意视频分解为 2D 内容规范场和 3D 时间变形场。每个字段使用高效的 MLP,用多分辨率 2D 或 3D 哈希表来实现。这种新型的表示算法天然地支持用于视频处理任务的图像算法,其方式是将所建立的算法直接应用于规范图像(即,从规范内容字段渲染),然后沿着时间轴通过时间变形字段传播结果。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。