有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火（2）

新闻 | 论坛 | 博客 | 在线研讨会

有手就行？把大象P转身只需拖动鼠标，华人一作DragGAN爆火（2）

机器之心 | 2023-05-20 16:35:11 阅读：560

实验

为了展示 DragGAN 在图像处理方面的强大能力，该研究展开了定性实验、定量实验和消融实验。实验结果表明 DragGAN 在图像处理和点跟踪任务中均优于已有方法。

定性评估

图 4 是本文方法和 UserControllableLT 之间的定性比较，展示了几个不同物体类别和用户输入的图像操纵结果。本文方法能够准确地移动操纵点以到达目标点，实现了多样化和自然的操纵效果，如改变动物的姿势、汽车形状和景观布局。相比之下，UserControllableLT 不能忠实地将操纵点移动到目标点上，往往会导致图像中出现不想要的变化。

如图 10 所示，它也不能像本文方法那样保持未遮盖区域固定不变。

图 6 提供了与 PIPs 和 RAFT 之间的比较，本文方法准确地跟踪了狮子鼻子上方的操纵点，从而成功地将它拖到了目标位置。

真实图像编辑。使用 GAN inversion 技术，将真实图像嵌入 StyleGAN 的潜空间，本文方法也可以用来操作真实图像。

图 5 显示了一个例子，将 PTI inversion 应用于真实图像，然后进行一系列的操作来编辑图像中人脸的姿势、头发、形状和表情：

图 13 展示了更多的真实图像编辑案例：

定量评估

研究者在两种设置中下对该方法进行了定量评估，包括人脸标记点操作和成对图像重建。

人脸标记点操作。如表 1 所示，在不同的点数下，本文方法明显优于 UserControllableLT。特别是，本文方法保留了更好的图像质量，正如表中的 FID 得分所示。

这种对比在图 7 中可以明显看出来，本文方法打开了嘴巴并调整下巴的形状以匹配目标脸，而 UserControllableLT 未能做到这一点。

成对图像重建。如表 2 所示，本文方法在不同的目标类别中优于所有基线。

消融实验

研究者研究了在运动监督和点跟踪中使用某种特征的效果，并报告了使用不同特征的人脸标记点操作的性能（MD）。如表 3 所示，在运动监督和点跟踪中，StyleGAN 的第 6 个 block 之后的特征图表现最好，显示了分辨率和辨别力之间的最佳平衡。

表 4 中提供了

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。

机器之心的空间

最近文章

一场脑机接口的大赛，看到时代需要的「AI超级底座」
2023-08-23 21:43:14

15B模型单项能力锤得过GPT3.5，开源SQLCoder已上岗
2023-08-23 21:41:09

GPT-3.5 Turbo支持微调了，打造专属ChatGPT，但价格小贵
2023-08-23 21:13:59

阅读更多文章，狠戳这里

推荐文章

新能源汽车的分类，你知道吗？

1655882624 阅读：5590

STM32 HAL库 error: #20: identifier "HAL_StatusTypeDef" is undefined问题

eleaction01 阅读：5491

新能源汽车电子水泵温控系统及静电浪涌防护解决方案

1500536942 阅读：6823

主流车企智能驾驶能力分析

1655882624 阅读：6978

最近访客