评论收藏点赞裤子换裙子，就问你GAN的这波操作秀不秀-深圳市云之梦科技有限公司

本文来自微信公众号：机器之能（ID：almosthuman2017），选自 arXiv，作者：Sangwoo Mo , Minsu Cho , Jinwoo Shin，机器之心编译。

把照片里的绵羊换成长颈鹿、牛仔长裤换成短裙。听起来有点不可思议，但韩国科学技术院和浦项科技大学的研究人员目前已实现了这一骚操作。他们开发的一种机器学习算法可在多个图像数据集上实现这种操作。其论文《InstaGAN: Instance-Aware Image-to-Image Translation》已被 ICLR2019 接收。

长裤变短裙

图像到图像的转换系统，即学会把输入图像映射到输出图像的系统，并非什么新鲜事。去年 12 月，Google AI 研究人员开发了一种模型，该模型通过预测对象的大小、遮挡、姿势、形状等，可以逼真地将其插入照片中的合理位置。但正如 InstaGAN 的创建者在论文中所说的一样，即使当前最先进的方法仍是不够完美的。

本文要介绍的这项新研究基于 CycleGAN 实现了实例级别的图像转换。

图源：Context-Aware Synthesis and Placement of Object Instances

CycleGAN 克服了 pix2pix 在图像转换中必须一一配对的限制，给定两个无序图像集 X 和 Y，CycleGAN 可以自动对它们进行互相“翻译”。

但它无法编码图像中的实例信息，因此在涉及目标类别特征的图像转换时，效果不太理想。

“由于其近期基于生成对抗网络取得的进步令人印象深刻，无监督的图像到图像转换已受到大量关注。然而，以前的方法在面对具有挑战性的任务时常常失败，尤其是当图像具有多个目标实例并且任务涉及形状的大幅变化时。”研究人员表示。

他们的解决方案是 InstaGAN 系统，该系统结合了多个任务目标的实例信息。InstaGAN 会生成图像的实例分割掩码（属于同一实例的像素组），它会结合目标的边界并同时忽略颜色等细节。

新奇的是，InstaGAN 转换了一幅图像和一组相应的实例属性，并同时力求保留背景语境。当与一种创新的技术（该技术允许其在传统硬件上处理大量实例属性）结合时，它可以推广到具有许多实例的图像。如下图所示，把两个人的牛仔裤换成裙子，把四只绵羊换成长颈鹿都不是问题。

“据我们所知，在我们之前，还没有人实现过图像到图像转换中的多实例转换任务。和以前在简单设置中的结果不同，我们的重点是和谐，让实例与背景自然地渲染。”

研究人员为 InstaGAN 系统提供了来自不同数据集（包括 multi-human parsing 数据集、MS COCO 数据集和 clothing co-parsing 数据集）的两类图像。与图像到图像转换的公认基线 CycleGAN 相比，InstaGAN 能够更成功地在保留原始语境的同时生成目标实例的“合理形状”。

“在不同数据集上的实验成功实现了图像至图像转换中的挑战性任务——多实例转换，包括把时尚图像中的牛仔裤换成短裙等新任务。探索新任务和新信息将是未来有趣的研究方向。”研究人员写道。

这篇论文已被 ICLR2019 接收为 Poster 论文，获得了 7、8、7 的高分，其中一位评审在评审意见中写道：

本文作者对多图像实例进行非成对的跨域转换，他们提出了一种方法——InstaGAN。该方法基于 CycleGAN，考虑了以每个实例分割掩码形式存在的实例信息。

本文文笔较好，容易理解。该方法很新颖，解决了一类之前方法无法解决的信息问题。该模型及训练目标每个部分的动机在该问题的语境中都得到了清晰的解释。结果看起来相当不错，明显优于 CycleGAN 和其它基线。

论文：INSTAGAN: INSTANCE-AWARE IMAGE-TO-IMAGE TRANSLATION

论文链接：https://arxiv.org/pdf/1812.10889.pdf

项目地址：https://github.com/sangwoomo/instagan

ICLR 链接：https://openreview.net/forum?id=ryxwJhC9YX

摘要：由于生成对抗网络的快速发展，无监督图像到图像的转换吸引了大量研究者的目光。然而，之前的方法通常不适用于较难的任务，尤其是在图像拥有多个目标实例或转换任务涉及极具挑战性的形状问题时，如将时尚图片中的裤子转换成短裙。

为了解决这一问题，本文提出了一种新的方法——instance-aware GAN（InstaGAN），这种 GAN 结合了实例信息（如目标分割掩码），提高了多实例转换的能力。在保持实例置换不变性的同时，该 GAN 对图像和相应的实例属性集进行转换。

为此，研究人员引入了一个语境保留损失函数，鼓励网络学习目标实例之外的恒等函数。此外，他们还提出了一种序列 mini-batch 推理/训练技术，这种技术借助有限的 GPU 内存处理多个实例，增强了该网络在多实例任务中的泛化能力。对比评估证明了该方法在不同图像数据集上的有效性，尤其是在上述具有挑战性的情况下。