1.论文概要

研究背景：

✡︎论文链接。高光谱图像（HSI）由数百个波段组成，其特征在于光谱分辨率高和空间信息丰富。但光谱特征的高维度和有限的训练样本一直影响着HSI分类工作。每个超像素由一组空间相邻、光谱相似的像素组成，具有自适应尺寸形状的特点。用于表示高光谱图像结构时，通过超像素的空间特征图像增加了光谱-空间相似性和多样性。本文把3D DNN与超像素结合，具有更加有效利用光谱空间立方体信息的优势。提供了更平滑的分类图并获得更精确的结果。常规的像素级分类方法易受混合像素和噪声的影响。

算法改进：

首先，通过对每个超像素内的光谱像素进行线性加权来创建加权特征图像（WFI），以增加对象内的区域一致性。WFI中每个超像素内的光谱像素趋于相似，标记相同。其次，提出了一种基于超像素的三维样本填充方法，分别从HSI和WFI图像构建三维样本，避免不同对象之间的邻域窗口跨越边界。第三，根据填充的3D样本，采用3D CNN从HSI中提取3D谱空间特征。同时，构建3D递归卷积神经网络（3D RCNN）进一步利用WFI的空间连续性信息，抑制分类结果中的噪声。

实验验证：

数据集采用Pavia University、Groundtruth of Pavia University和Indian Pines。在所有实验的10次独立重复。对于帕维亚大学和印第安松树图像，1％的标记样本被随机选择并用于训练，其余用于测试。对于帕维亚中心图像，0.1％的标记样本被随机选择并用于训练。

2.算法应用

超像素分割

经过超像素分割后的图像形成一个自适应互不重叠且同质的区域集合。本文通过超像素构造WFI图像，促进分类图中谱空特征一致性。通过组合每个超像素内的线性加权光谱像素构造WFI。平均特征图像mean feature image (MFI)通过简单地平均每个超像素内的光谱像素并将平均值分配给同一超像素内的所有光谱像素来构造MFI。

如图1(a)原始图像被分割成两个超像素，表示为{SP1，SP2}。 SP1中的光谱像素彼此相似，并且SP2中存在几个明显的混合光谱像素。红色圆圈表示一些混合光谱像素。图1(b)(c)分别表示MFI与WFI。与WFI相比，MFI更平滑，但在MFI图像中每个超像素内的光谱像素的多样性较低。WFI在没有混合光谱像素的超像素中具有良好的性能，然而，对于包含混合光谱像素的超像素，它不能消除混合像素的影响并提供充分的区域一致性。但WFI光谱像素相似性与多样性兼顾的特点可以改善由于训练样本较少而陷入过度拟合的问题。所以我们提出3D RCNNs来从WFI中提取3D特征避免混合光谱像素造成的错误分类。因为3D RCNN可以抑制混合光谱像素的影响，同时保持WFI的多样性和一致性。

此外，文中提出了一种3D样本填充方法，通过超像素来抑制3D CNN中选择相邻立方窗口时对边界分类的影响。使用超像素内的光谱空间信息来填充3D邻域立方体窗口中超像素边界之外的像素。填充的3D样本保留与中心像素类似的光谱空间信息，从而避免边界的错误分类。由于WFI具有很好的空间连续性，但缺乏结构信息。 HSI可以提供丰富的结构信息，但它总是会导致噪声分类结果。因此，HSI和WFI都用于3D样本构建，以更好地平衡同质区域和结构区域。

总结起来，总共有四个步骤创建超像素和构建WFI，构建3D超像素样本，分别通过3D CNN和3D RCNN从HSI和WFI提取3D谱空间特征，以及多特征学习和分类。图2展示了各步骤的关系。

WFI

利用每个超像素内的局部空间信息改善分类特征图中的空间连续性。对于每个像素$Z_i|_{B\times1}$(B表示光谱波段维)都会与其超像素内的像素$Z_j|_{B\times1}$进行线性加权运算。如下式(1).$\hat Z_i|{B\times1}=\sum{j=1}^J\alpha_{i,j}\times Z_j|{B\times1} \tag{1}$其中$\alpha{i,j}$代表$Z_i|_{B\times1}$和$Z_j|_{B\times1}$两像素的相似程度，表示如下式(2),$h$是预设好的标量。$\hat Z_i|_{B\times1}$最终替代$Z_i|{B\times1}$。 $\alpha{i,j}= \frac{exp(-||Z_i|_{B\times1}-Z_j|_{B\times1}||_2^2/h)}{f_N} \tag{2}$

3D超像素样本构建

为了充分利用HSI的结构特征和WFI的空间一致性特征，分别在HSI和WFI上构建三维样本。如果相邻窗口内的所有像素属于相同的超像素，因为它们共享相似的结构和光谱信息所以这些像素直接构成3D立方体样本，否则，如果相邻窗口内的中心像素和其他像素位于不同的超像素，则这些像素将由3D样本填充方法填充，以保持结构和光谱信息的相似性。最终位于几何中心的像素划分比边界像素更有可靠性。因此对于超像素每个区域用相应的最大内切矩形进行填充。然后分别在HSI和WFI上映射基本填充图，以获得3D基本填充图像。

获得最大内切矩形的过程及填充方法如图3，首先把基本填充图像（base fill image）和领域窗口（Neighborhood window）中心重合，当Base fill map尺寸大于Neighborhood window时，保留位于与中心像素相同的超像素的像素，并将剩余像素替换为3D基本填充图像（base fill image）中相应的像素。当Base fill map尺寸小于Neighborhood window时，扩充基本填充图像（base fill image）个数直到全覆盖领域窗口（Neighborhood window）。然后根据第一种情况中使用的方法填充剩余的光谱像素。

值得注意的是，HSI和WFI上的特征学习过程彼此独立。3DCNN提取HSI中的空谱特征，3D RCNN作用于WFI来解决混合光谱像素的问题。3D RCNN具有与3D CNN类似的结构。不同之处在于3D RCNN的每个卷积层的输入由3D平均样本和若干3D特征映射组成。具体计算公式可参考原论文。

3.实验

实验中，首先确定超像素的数量对分类效果的影响。结果显示数量太小时，难以分割不同的类，太多时影响区域一致性。，所以会出现起初效果改善明显，超过一个固定值时分类效果反而变差。Pavia University最优化时为150个超像素，Indian为100个超像素、Pavia为1000个超像素，因其纹理特征较复杂。考录到计算成本和分类效果的权衡，3D samoles的尺寸大小$L\times L\times B中的L取值11$

实验还对比了3D CNN、以及只借助WFI时、WFI和3D样本填充都加入时、及再加入3D RCNN下的三种情况。与其他算法对比显示，本算法在训练样本很少的情况下表现较好，但由于超像素和3D样本填充的加入使得算法时间复杂度增加。使得算法的时间复杂度较大。

☛参考文献

[1] Shi C , Pun C M . Superpixel-based 3D Deep Neural Networks for Hyperspectral Image Classification[J]. Pattern Recognition, 2017:S0031320317303515.