Мы представляем подход к повышению реалистичности синтетических изображений. Изображения улучшаются сверточной сетью, которая использует промежуточные представления, созданные обычными конвейерами рендеринга. Сеть обучается с помощью новой враждебной цели, которая обеспечивает строгий контроль на нескольких уровнях восприятия. Мы анализируем распределение макетов сцен в часто используемых наборах данных и обнаруживаем, что они существенно различаются.
Мы предполагаем, что это одна из причин сильных артефактов, которые можно наблюдать в результатах многих предшествующих методов. Чтобы решить эту проблему, мы предлагаем новую стратегию выборки участков изображения во время обучения. Мы также вводим несколько архитектурных улучшений в глубокие сетевые модули, используемые для улучшения фотореализма.
Мы подтверждаем преимущества нашего вклада в контролируемые эксперименты и сообщаем о значительном улучшении стабильности и реализма по сравнению с недавними методами преобразования изображения в изображение и множеством других базовых показателей.