您当前的位置: 首页 > 

暂无认证

  • 0浏览

    0关注

    100053博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

NTU&商汤提出新 loss!提升图像重建和图像合成的质量 (ICCV2021)

发布时间:2021-08-26 07:00:00 ,浏览量:0

点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达

今天分享一篇南洋理工大学&商汤科技的最新论文:

Focal Frequency Loss for Image Reconstruction and Synthesis

文章提出一种新的loss 函数,Focal Frequency Loss。目前的生气模型虽然已经有众多研究成果,但是生成的图像与真实图像依然有差距,特别是在频域 。因此,本文提出一个针对频域的loss,同时借鉴 困难样本挖掘的策略,对不同频率根据难易程度进行加权。作者通过大量的实验,证明其新loss的有效性!

https://github.com/EndlessSora/focal-frequency-loss

https://arxiv.org/pdf/2012.12821.pdf

更多 ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理(欢迎star)

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

由于生成模型的发展,图像重建和合成取得了显著的进展。尽管如此,真实图像和生成的图像之间仍然可能存在差距,特别是在频域。在这项研究中,我们发现缩小频域中的间隙可以进一步改善图像重建和合成质量。我们提出了一种新的 focal frequency loss ,该 loss 允许模型自适应地关注于难以合成的频率分量,通过降低容易合成的分量的权重。该目标函数是对现有空间loss的补充,对由于神经网络固有偏差而导致的重要频率信息的loss提供了很大的阻抗。我们展示了focal frequency loss的多功能性和有效性,以改进诸如VAE、pix2pix和SPADE等流行模型的感知质量和定量性能。我们进一步展示了它在StyleGAN2上的潜力。动机

目前的图像生成模型,虽然取得了不错的进展,但是依然存在一定问题,生成的图像与真实图像之间还存在差距,特别是频域。

解决方案

首先要明确一些基本的概念

1、2D discrete Fourier transform(2维离散傅里叶变换)

2、Euler’s formula(欧拉公式)

通过欧拉公式将公式 (1)中的包含e 的部分进行一定的变换:

变换之后,即可将公式 1 拆成实部与虚部,用于后续计算 频域距离。

将公式 1 写成更加通俗易懂的方程:

amplitude:

phase:

频率距离应该考虑振幅和相位,因为它们捕获图像的不同信息。我们在图3中展示了一个单一的图像重建实验。只需最小化振幅差,就可以得到具有不规则颜色图案的重建图像。相反,仅使用相位信息,合成图像类似于噪声。只有同时考虑振幅和相位,才能实现可靠的重建。

我们的解决方案是将每个频率值映射到二维空间(即平面)中的欧几里德向量。按照复数的标准定义,实部和虚部分别对应于x轴和y轴。

同时这里还引入了动态加权的策略。

受困难样本挖掘[12,59]和focal loss[41]的启发,我们制定了将训练重点放在“困难”频率上的方法。为了实现这一点,我们引入了频谱权重矩阵来降低“简单”频率的权重。频谱权重矩阵由训练期间每个频率的当前loss的非均匀分布动态确定。每个图像都有自己的光谱权重矩阵。矩阵的形状与光谱的形状相同。矩阵元素w(u,v),即(u,v)处空间频率的权重,定义为:

完整的 focal frequency loss (FFL):

实验&效果:

结论

所提出的 focal frequency loss 直接优化了频域中的图像重建和合成方法。loss 自适应地将模型聚焦于难以处理的频率分量,以改善质量。这种损失是对不同类别、网络结构和任务的不同基线的现有空间损失的补充,优于相关方法。我们进一步展示了 focal frequency loss 对改善StyleGAN2合成结果的潜力。探索其他应用和设计更好的频域优化策略可能是未来有趣的工作。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

关注
打赏
1655516835
查看更多评论
立即登录/注册

微信扫码登录

0.0794s