Learning a Discriminative Prior for Blind Image Deblurring

Learning a Discriminative Prior for Blind Image Deblurring

使用CNN生成图像先验,实现更广泛场景的盲图像去模糊

论文

Learning a Discriminative Prior for Blind Image Deblurring

Abstract

现有的最优方法在文本、人脸以及低光照图像low-illumination images上的盲图像去模糊blind image deblurring效果并不佳,主要受限于图像先验的手工设计属性。本文的方法是基于数据驱动的区别先验data-driven discriminative prior,图像先验偏向favor清晰的图像超过模糊的图像,我们的方法正是受到这一个事实所启发。本文研究者将图像先验image prior表示为二值分类器binary classifier,二值分类器是由深层的卷积神经网络CNN实现的,训练CNN可以分类模糊和清晰图像。 framework, 嵌入到Embedded into最大后验the maximum a posterior( MAP )框架中之后,它有助于在各种场景 (包括自然图像、人脸图像、文本图像和低照明图像) 中进行盲去模糊。最优化该带有图像先验的去模糊方法是很困难的,因为该方法包含非线性的CNN,我们采用半二次方分裂half-quadratic splitting方法和梯度下降法,实验表明,该图像先验比目前最先进的人工设计先验更具区分性,可实现更广泛场景的盲图像去模糊。

Introduction

$$ B=I \otimes k + n (1)$$

$B$ 模糊图像 the blurred image

$I$ 隐藏的清晰图像 latent sharp image

$k$ 模糊核 blur kernel

$n$ 噪声 noise

$\otimes$ 表示卷积操作denotes convolution operator

式(1)中的问题是不适定性,因为$I$和$k$都是未知的,存在无穷多个解。为了解决这个问题,关于模糊核blur kernels和图像的额外约束additional constraints和先验知识prior knowledge都是必需的。




生成器

最近的去模糊方法的成功主要来自于有效图像先验effective image
priors和边缘检测策略edge-prediction strategies方面的研究进展。然而,基于边缘预测的方法the edge prediction
based methods常常会涉及到启发式heuristic的边缘选择步骤,当边缘不可预测的时候,这种方法表现不佳。为了避免启发式的边缘选择步骤,人们提出了很多基于自然图像先验的算法,包括稀疏性归一化(normalized sparsity)[16]、$L_0$ 梯度 [38] 和暗通道先验(dark channel prior)[27]。这些算法在一般的自然图像上表现良好,但是并不适用于特殊的场景,例如文本 [26]、人脸 [25] 以及低光照图像 [11]。大多数上述的图像先验都有相似的效果,它们更加适用于清晰的图像,而不是模糊的图像,这种属性有助于基于 the maximum a posterior (MAP)(最大后验)的盲图像去模糊方法的成功。然而,大多数先验都是手工设计hand-crafted的,它们主要是基于对特定图像统计的有限观察。这些算法不能很好地泛化以处理自然环境中的多种场景。所以,开发能够使用 MAP 框架来处理不同场景的图像先验是很有意义的。

为达到这个目的,研究者将图像先验表示为能够区分清晰图像和模糊图像的二值分类器。具体来说,他们训练深度卷积神经网络来分类模糊图像 (标记为 1 ) 和清晰图像 (标记为 0 )。由于基于 MAP(最大后验)的去模糊方法通常使用 coarse-to-fine(由粗到精)策略,因此在 MAP 框架中插入具有全连接层的 CNN 无法处理不同大小的输入图像。为了解决这个问题,在 CNN 中采用了全局平均池化层 [ 21 ],以允许学习的分类器处理不同大小的输入。此外,为了使分类器对不同输入图像尺寸具有更强的鲁棒性,还采用多尺度multi-scale训练策略。然后将学习到的 CNN 分类器作为 MAP(最大后验)框架中潜在图像对应的正则项。如图 1 所示,本文提出的图像先验比目前最先进的人工设计的先验 [ 27 ] 更具区分性。

然而,使用学习到的图像先验去优化这个去模糊方法是很困难的,因为这里涉及到了一个非线性 CNN。因此,本文提出了一种基于半二次方分裂法(half-quadratic splitting method)和梯度下降算法的高效数值算法。这个算法在实际使用中可以快速地收敛,并且可以应用在不同的场景中。此外,它还可以直接应用在非均匀non-uniform去模糊任务中。

本文的主要贡献如下:

提出了一种高效判别图像先验,它可以通过深度卷积神经网络学习到,用于盲图像去模糊。为了保证这个先验(也就是分类器)能够处理具有不同大小的输入图像,研究者利用全局平均池化和多尺度训练策略来训练这个卷积神经网络。

将学习到的分类器作为 MAP(最大后验)框架中潜在图像对应的正则化项,并且提出了一种能够求解去模糊模型的高效优化算法。

研究者证明,与当前最佳算法相比,这个算法在广泛使用的自然widely-used natural图像去模糊基准测试和特定领域domain-specific的去模糊任务中都具备有竞争力的性能。

研究者展示了这个方法可以直接泛化generalized到非均匀去模糊任务中。




CNN 先验

Learning a Data-Driven Image Prior

1.Motivation

MAP-based blind image deblurring methods

$$ \left. min \right| _{I,k} ||I \otimes k-B||^{2}_{2}+\gamma||k||^{2}_{2}+p(I)$$

$p(I)$ 隐藏图像先验 The key to the success of this framework lies on the latent image prior,在最小化时 图像先验偏爱清晰图像超过模糊图像,也就是说清晰的图像对应的先验值$p(I)$更小,模糊的图像对应的先验值$p(I)$更大

2.Binary classification network




CNN 先验

image as input

outputs represents the probability of the input image
to be blurred.

the network should be able to handle different sizes of input images

3.Loss function

$x$ the input image

$\theta$ the network parameters to be optimized

The deep network learns a mapping function

$f(x; \theta) = P(x \epsilon Blurred|x)$

binary cross entropy loss function

$$ L(\theta)=-\frac{1}{N}\sum^{N}_{i=1}\hat{y_i}log^{(y_i)}+(1-\hat{y_i})log^{(1-y_i)}$$

$N$ denotes the number of training samples in a batch

$y_i = f(x_i;\theta)$output of the classifier

$\hat{y_i}$the label of the input image

$\hat{y_i}= 1$ for blurred images and
$\hat{y_i}= 0$ for clear images

Blind Image Deblurring

We also use the L0 gradient prior [38, 27] as a
regularization term.

$$ \left. min \right| _{I,k} ||I \otimes k-B||^{2}_{2}+\gamma||k||^{2}_{2}+\mu||\nabla I||_{0}+\lambda f(I)$$

把该问题分为两个子问题

针对清晰图像$I$

$$ \left. min \right| _{I} ||I \otimes k-B||^{2}_{2}+\mu||\nabla I||_{0}+\lambda f(I)$$

针对模糊核$k$

$$ \left. min \right| _{k} ||I \otimes k-B||^{2}_{2}+\gamma||k||^{2}_{2}$$

解决$I$