技术方法

一种融合上下文语义信息与边缘特征的海陆分割方法

  • 文甜甜 , 1 ,
  • 普运伟 , 1, 2 ,
  • 赵文翔 1
展开
  • 1.昆明理工大学国土资源工程学院,昆明 650093
  • 2.昆明理工大学信息工程与自动化学院,昆明 650500
普运伟(1973-),男,教授,博士生导师,研究方向为智能信息处理、智能信号处理、地理信息挖掘与处理。Email:

文甜甜(1997-),女,硕士研究生,研究方向为遥感影像处理。Email:

Copy editor: 陈庆

收稿日期: 2024-09-02

  修回日期: 2024-11-22

  网络出版日期: 2026-06-03

A sea-land segmentation method combining contextual semantic information and edge features

  • WEN Tiantian , 1 ,
  • PU Yunwei , 1, 2 ,
  • ZHAO Wenxiang 1
Expand
  • 1. Faculty of Land Resources Engineering,Kunming University of Science and Technology,Kunming 650093,China
  • 2. Faculty of Information Engineering and Automation,Kunming University of Science and Technology,Kunming 650500,China

Received date: 2024-09-02

  Revised date: 2024-11-22

  Online published: 2026-06-03

摘要

由于在环境错综复杂、地物信息丰富的光学遥感图像中进行海陆分割时会出现定位精度低和边缘模糊的问题,因此文章提出一种融合上下文语义信息与边缘特征的深度卷积网络模型与海陆分割方法。首先利用FusionNet语义分割网络模块提取遥感图像中丰富的目标语义信息;然后利用改进的空洞空间金字塔池化模块(atrous spatial pyramid pooling,ASPP)和上下文注意力模块从分割网络中提取不同尺度和层次的上下文语义特征,并构建边缘提取子网络获取多尺度边缘特征;最后通过融合模块对语义特征和边缘特征进行组合,实现海陆精准分割。在2个典型数据集上的测试结果表明,该文方法的整体预测正确率、F1分数以及边界F1分数分别达到了98.21%,97.64%,89.36%和96.09%,95.67%,86.13%,均显著优于其他对比模型。特别是在复杂背景下,该方法可有效提高分割和边缘检测的准确性,对人工岸线和港口的分割具有明显优势。

本文引用格式

文甜甜 , 普运伟 , 赵文翔 . 一种融合上下文语义信息与边缘特征的海陆分割方法[J]. 自然资源遥感, 2025 , 37(5) : 62 -72 . DOI: 10.6046/zrzyyg.2024286

Abstract

In optical remote sensing images with complex scenes and rich land cover information,the sea-land segmentation faces challenges such as low positioning accuracy and blurred edges. Therefore,this paper proposed a deep convolutional network model and a sea-land segmentation method that integrate contextual semantic information and edge features. First,the rich target semantic information was extracted from remote sensing images using the FusionNet semantic segmentation network module. Then,multi-scale and hierarchical contextual semantic features were extracted from the segmentation network using the enhanced atrous spatial pyramid pooling (ASPP) module and contextual attention module. Additionally,an edge extraction sub-network was built to extract multi-scale edge features. Finally,the semantic features and edge features were combined through a fusion module,thereby achieving accurate sea-land segmentation. This method was tested with two typical representative datasets. The results showed that this method achieved an overall prediction accuracy of 98.21%,an F1 score of 97.64%,and a boundary F1 score of 89.36%,all significantly outperforming other models. Particularly in complex backgrounds,this method can effectively improve the accuracy of segmentation and edge detection,demonstrating definite advantages in the segmentation of artificial coastlines and ports.

0 引言

海陆分割是遥感图像处理领域中的一个重要研究内容,其分割结果的精度对海岸线提取、沿海地区土地利用与覆盖监测、海上船舶检测以及生态保护至关重要[1-2]。随着成像技术的发展,特别是高空间分辨率遥感图像的普及,海陆分割的应用前景愈加广阔。
在遥感图像处理中,海陆分割通常涉及复杂的成像外观和多变的背景分布,这给准确的分割带来了不少困难。在海陆分割的早期,主要采用阈值分割方法,即通过对图像的每个像素点与设定的阈值进行比较,实现自动分割[3]。例如,陈祥等[4]提出了一种结合粗阈值和精确阈值的合成孔径雷达图像海陆分割算法,取得了较好的分割效果;李业钦等[5]提出了一种基于假彩色图像和自动阈值分析的海陆分界线提取方法,通过构建海陆分界线提取指数(sea-land boundary extraction index,SBEI)和使用Canny算子,显著提高了海陆分界线的提取精度。尽管这些方法在光谱差异显著的情况下能取得较好的效果,但在场景复杂度高、噪声或者纹理变化的图像中,容易出现大规模的误分类[6]。除了阈值操作,区域操作方法也被广泛应用,这些方法通过分析像素之间的相似性和连通性,将相似像素聚集成区域,从而实现更精确的分割。这类方法一般与特定理论或算法相结合,作为图像分割的后处理部分来提高分割效果[7]。Lei等[8]提出了一种基于超像素和多尺度特征的红外遥感图像海陆分割方法,通过实验验证了其在Landsat8卫星图像上的准确性和稳健性。Elkhateeb等[9]提出了一种结合超像素模糊C均值聚类(superpixel fuzzy C-means clustering,SFCM)和改良Chan-Vese活动等值线模型(improved Chan-Vese active contour model,ICV-ACM)的海陆分割方法,通过自动初始化和结合颜色及纹理特征,显著提高了分割精度和鲁棒性。基于区域的分割方法通过分析像素的相似性,在处理复杂场景和噪声时表现较好,但计算复杂度高,对初始种子点选择敏感,尤其是在处理边界模糊或区域相似性不明显的图像时,容易产生过分割或欠分割问题[7]。可见,阈值法和区域法在海陆分割中均各有优缺点。阈值法简单高效,但在复杂背景下表现不佳;区域法计算复杂度高,但在处理复杂场景和噪声时相对较好。
近年来,随着计算机视觉和深度学习技术的快速进步,卷积神经网络(convolutional neural network,CNN)在图像分割任务中展现出了强大的性能[10]。特别是像U-Net[11],SegNet[12],PSPNet[13]这样的经典网络结构,通过引入编码-解码架构和跳跃连接,能够有效地提取多尺度特征,实现高精度的分割。为了满足海陆分割任务的特殊需求,研究者们提出了多种改进策略,开发了更加高效的分割算法以提高准确性和效率。目前的研究主要集中在以下3个方面。一是改进网络结构,以提升分割精度和计算效率。Wu等[14]提出了一种基于多尺度层和U-Net卷积网络的新型海陆分割框架(MSLUnet),通过实验验证其在复杂环境下的优异性能;Ji等[15]提出了一种用于像素级海陆分割的CNN(HeteroNet),通过异构编码器-解码器结构和全局上下文增强模块,提高了特征提取、融合和信息传输的效率。二是融合多源遥感数据,增强模型的鲁棒性。Zhao等[16]提出了一种基于多源数据配准的合成孔径雷达图像海陆分割方法,通过结合高分辨率光学图像和海岸线矢量数据,实现了高效准确的海陆分割和船舶检测。三是结合边缘检测和语义分割,优化分割结果的细节和边界。Gao等[17]提出了一种结合低层边缘检测和高层分割的海陆分割模型,利用预训练的VGG16进行初始化,并在测试数据集中取得了较高的F-score精度;梁烽等[18]提出了一种融合上下文和边缘注意力的海陆分割方法,通过结合多种尺度上下文特征和边缘信息,显著提高了多分辨率合成孔径雷达图像的海陆分割准确率。
上述研究虽然提高了海陆分割的精度,也为后续的船舶检测等研究提供了更为可靠的基础数据,但在处理背景复杂的大规模高分辨率遥感图像时,这些方法往往容易忽视海岸带的复杂性和特征多样性,导致像素分类错误、边界模糊、分割效果不佳、精度低和处理速度慢等问题依然不同程度地存在。为此,本文提出了一种新型深度学习网络模型——语义分割与边缘提取网络(edge-aware segmentation network,ES-Net)模型,该模型结合了上下文语义信息和边缘特征,其网络结构由分割网络和边缘检测网络2部分组成。具体而言,分割网络引入改进的空洞空间金字塔池化(atrous spatial pyramid pooling,ASPP)[19]模块以及一个上下文注意力模块负责为每个像素生成类别标签,利用不同层次和尺度的上下文信息实现海陆的像素级分类,而边缘检测网络则用于输出不同类别之间的边缘信息,提高海陆边界区域的分割准确度。通过这种多任务学习方式,该网络不仅能够实现更精确的像素级分类,还能够显著提升边界区域的分割精度。

1 ES-Net模型

受流行的编码器-解码器结构启发[11],本文构建了ES-Net模型,其结构如图1所示。其中,语义分割网络可输出图像的概率图以表示像素属于每个类的可能性,而边缘检测网络可输出像素属于不同类之间边界的概率,以提升整体分割精度。
图1 ES-Net model结构

Fig.1 Structure of ES-Net model

1.1 语义分割模块

语义分割模块结构如图2所示。该模块主要以FusionNet[20]作为基本结构,网络中的残差结构[21]可增强网络深层学习能力,从而提高特征提取性能,实现更加精细的海陆分割。在FusionNet网络对称结构的基础上,引入ASPP模块以及一个上下文注意力模块,进而构建海陆分割的语义分割网络模块。相比于传统的FusionNet网络结构,首先,利用改进的ASPP和长短跳跃连接捕捉多尺度和多层次的上下文信息;然后利用一个上下文注意力模块来显式地学习不同上下文特征的权重,并基于这些权重融合不同尺度和层次的特征,从而提升上下文信息的准确性。具体而言,先是采用FusionNet网络下采样部分获取输入图像基本特征,然后使用优化后的ASPP模块替换原FusionNet网络中的Bridge层,并使用跳跃链接连接前后2层,扩大每次下采样的接受场,使U形底部的深层语义信息足以包含更多的图像信息,最后将ASPP模块的输出输入到上下文注意力模块。上下文注意力模块采用卷积注意力模块(convolutional block attention module,CBAM)[22]进行融合,将得到的上下文聚合特征随后通过上采样模块来恢复特征图的原始尺寸,并进行像素级分类。此后,将这些特征在融合模块中与边缘提取分支生成的边缘特征进一步整合,以获得海陆分割的最终结果。
图2 语义分割模块

Fig.2 Semantic segmentation module

1.1.1 ASPP模块

ASPP模块由3个并行扩展卷积单元和1个全局中间单元组成。扩展卷积单元通常使用膨胀率为1,6和12的卷积层提取细节上下文信息。全局中间单元则负责捕获全局上下文信息,并将不同尺度和规模的上下文信息链接起来,以帮助网络更准确地恢复细节。然而,由于这些膨胀率之间存在整数倍关系,处理后的特征图可能会出现网格效应,导致特征图中的某些细节信息被遗漏或扭曲,还会造成特征图的断裂和不连续,导致分割结果出现不连续的边缘或伪影,影响海陆分割的准确性。为了避免这些效应对海陆分割的影响,本文选择使用膨胀率为1,3和5质数分布的空洞卷积来捕捉多尺度的上下文语义信息。如图3所示,ASPP对同一特征图进行不同膨胀率的空洞卷积和1×1全局平均池化操作,在扩大感受野的同时捕获不同距离下的全局关系和像素细节特征。然后将得到的特征图进行拼接后,应用1×1卷积进行通道整合,将多分支特征融合为H×W×2C的输出,在保留输入空间尺寸的同时扩展通道维度以增强多尺度表征能力。
图3 ASPP模块

Fig.3 ASPP module diagram

1.1.2 上下文注意力模块

上下文信息在语义分割中扮演着关键角色,适当利用这些信息能显著提升分割精度[18]。卷积操作虽然能够有效地增强特征提取能力,但其本身并不能感知特征的重要性。这就需要引入注意力机制[23]来进行特征加权,模拟人类感知过程,从数据中自动识别和提取关键信息。目前,已有方法中在感知效果上表现出色的是CBAM,其能在通道和空间双注意力机制下对特征进行选择性增强。CBAM的总体过程如下:给定中间特征图F∈RC×H×WC为通道数,表示特征的深度;H为特征图的高度;W为特征图的宽度)作为输入,利用通道注意力模块生成一维通道注意图Mc∈RC×1×1,利用空间注意力模块生成二维空间注意力权值图Ms∈RH×W。如图4所示,F1F2分别是经过通道注意力机制和空间注意力机制优化后得到的特征图,其操作过程公式为:
F1=McF)☉F
F2=MsF)☉F1
式中☉表示逐元素乘法。尽管上述CBAM模块可以改善通道和空间维度的重要特征提取,但其在空间维度上使用单一卷积核可能导致感受野的不确定性,这是因为单一卷积核虽然能够捕捉较大的局部信息,但其感受野仍然有限,难以全面覆盖全局上下文信息。这意味着模型在决定当前像素特征的重要程度时,可能无法有效整合整个图像的全局信息,导致特征提取的准确性下降。
图4 CBAM模块

Fig.4 Convolutional block attention module

为了解决感受野不确定性的问题,本文提出了一种基于CBAM的增强空间注意力机制。该机制引入了一种多维卷积策略,为了获取更为丰富的细节信息,可在多个尺度上执行卷积操作。同时,改进的空间注意力机制通过采用不同尺寸的卷积核,在多个尺度上进行特征提取,显著提高特征表达能力的同时还保留了更详细的上下文信息。
改进的空间注意力机制结构见图5。首先,该机制压缩特征维度以生成二维矢量图,在此过程中,通过对输入特征图进行全局平均池化和全局最大池化分别提取特征维度上的均值和极值;接着,对输出的通道注意特征图沿通道轴进行最大池化和平均池化,再次进行特征提取,生成2个空间注意力图;然后,将这2个特征图拼接合并,采用不同大小的卷积核来提取图像特征;之后,通过激活函数ReLU对图像非线性变换,并用矩阵映射不同尺度的属性,通过矩阵加法实现不同特征的功能融合;最后,通过Sigmoid函数计算得到注意力权值M'sF),其公式为:
M'sF)=σReLUf(3×3)PL))⊕ReLUF(5×5)PL))⊕ReLUF(7×7)PL))) ,
式中:PL为在特征维度上进行平均池化和最大池化后拼接的特征图;f(3×3)f(5×5)f(7×7)分别为卷积核尺寸为3×3,5×5和7×7的卷积操作;⊕为矩阵加法。此时,特征图F'2的计算公式为:
F'2=M'sF)☉F1
图5的改进模块中,引入一个残差结构,不仅有助于提高网络的有效学习能力,而且有助于学习到不同的特征。
图5 改进的空间注意力机制

Fig.5 Improved spatial attention mechanism

1.2 边缘提取模块

为了在语义分割过程中有效减少图像细节的丢失,必须应对因下采样操作带来的边界要素误分类问题,这通常表现为边界模糊和不连续[24]。尤其在海陆环境错综复杂、地物信息丰富的光学遥感图像中进行海陆分割时,这些问题更加明显。为此,在原有的语义分割模块上进行扩展,引入了一个新的边缘提取模块。该模块利用卷积层提取多层次的边缘特征,并结合多尺度融合技术,以提高分割精度,实现协同训练,从而利用语义边缘输出进一步细化的分割结果。
边缘网络提取模块如图6所示,其中的网络详细配置见表1。从分割网络中提取了5组特征映射来扩展边缘网络。其中,从编码器网络中提取包含丰富局部细节信息的底层特征,而从解码器网络中获取丰富语义信息的高层特征。具体而言,对于这5组特征映射中的每一组,首先将其通过1×1卷积进行处理,将其特征通道统一压缩,然后再上采样到与输入相同的原始大小。1×1卷积层在此过程中起到了2个重要作用:①在分割网络和边缘网络之间起到桥接作用,使得整个模型能够灵活地针对特定任务进行训练,同时保持子网络的紧密关联;②这有助于减少特征映射的维度,从而减少内存消耗,并加快训练和推理的速度。在表1中,对于每个特征,第一层表示从共享的卷积模块的不同分支进行扩展。经过卷积和池化之后,将5个层级的特征信息扩展成原特征图像的大小,最后通过一个具有双通道输出的卷积层和一个Softmax层,进行特征拼接以获得最终的预测图。
表1 边缘提取网络详细配置

Tab.1 Detailed configuration of the edge extraction network

特征
映射
名称 卷积核
尺寸
步幅 填充 输出尺寸
特征1 Conv1-2 3×3 2 1 256×256×64
Conv1-E 1×1 1 0 256×256×32
Unpool1-E 2×2 2 0 512×512×32
特征2 Conv3-2 3×3 2 1 64×64×256
Conv2-E 1×1 1 0 64×64×32
Unpool2-1-E 2×2 4 0 256×256×32
Unpool2-2-E 2×2 2 0 512×512×32
特征3 Conv4-2 3×3 1 1 32×32×512
Conv3-E 1×1 1 0 32×32×32
Unpool3-1-E 2×2 4 0 128×128×32
Unpool3-2-E 2×2 4 0 512×512×32
特征4 Conv3-2-D 3×3 1 1 128×128×256
Conv4-E 1×1 1 0 128×128×32
Unpool4-1-E 2×2 2 0 256×256×32
Unpool4-2-E 2×2 2 0 512×512×32
特征5 Conv1-2-D 3×3 1 1 512×512×64
Conv5-E 1×1 1 0 512×512×32
拼接层 Concat 512×512×160
卷积层 Conv-E 3×3 1 1 512×512×2
预测层 Softmax 512×512×2
图6 边缘提取模块

Fig.6 Edge extraction module

1.3 融合模块

语义分割和边缘提取模块进行联合训练,这些模块共享卷积网络层的语义属性,并将其正向传播到边缘网络,提供有关其边界的额外信息;同时,边缘网络共享分割网络的参数并在反向传播中更新语义分割参数,其提取的结果也能用于修正语义分割的边界。为此,本文构建了一个基于语义分割和边缘提取模块的融合模块,旨在整合边缘特征与语义信息。该模块采用类似于上下文注意力机制的结构,并通过增强的CBAM注意力机制将分割模块的上下文聚合特征与边缘特征相结合。其通过学习获取边缘特征和语义特征的权重,生成权重图,然后进行加权求和得到融合特征图,从而得到最终的海陆分割结果。

1.4 多任务损失函数

根据多任务学习理念,结合语义分割和边缘检测2部分预测损失,损失函数公式为:
L=(1-λLs+λLe
式中:L为总损失;Ls为海陆分割损失;Le为边缘损失;超参数λ为边缘损失的权值,(1-λ)为分割损失的权值,λ的取值范围在0~1之间。
在网络训练过程中,通过比较预测结果与真实值的差异,可以计算得到误差,并利用这些误差计算损失值。然后,根据损失值的变化,利用反向传播算法来调整网络权重,从而逐步降低损失值。迄今为止,大多数监督语义分割方法都选择交叉熵损失(cross-entropy loss function,CE)作为默认选项[25],其公式为:
CE=- $\frac{1}{N}\sum _{i=0}^{N}$yiln( ${\widehat{y}}_{i}$)+(1-yi)ln(1- ${\widehat{y}}_{i}$) ,
式中:N为样本总量;yi为样本i的真实值; ${\widehat{y}}_{i}$为样本i的预测值。
虽然CE在许多任务中表现良好,但在语义分割任务中存在一些缺点。例如,CE在计算损失时,对于类别不平衡的数据集,CE没有对类的数量做出适当的调整,这会导致模型倾向于预测多数类,从而忽视了少数类的预测。考虑到这些问题以及语义分割的特殊性,衍生出许多适合语义分割任务的损失函数。这些新型损失函数,如Dice Loss[26],Tversky Loss[27],Focal Loss[28]和Boundary Loss[29],能够更有效地处理类别不平衡、边界细化以及其他语义分割中特有的问题,从而提高分割模型的性能。本文选用Dice Loss作为分割模块的损失函数,其公式为:
Ls=1- $\frac{2\sum _{i=1}^{N}{y}_{i}{\widehat{y}}_{i}}{\sum _{i=1}^{N}{y}_{i}+\sum _{i=1}^{N}{\widehat{y}}_{i}}$
对于边缘提取模块,考虑到类别的不平衡性,本文采用文献[24]中的加权交叉熵损失函数。通过为每个类别分配权重,使得频率较低的类别在损失计算中占据更大的比重,从而平衡各类别对模型训练的贡献。边缘损失Le的公式为:
Le=- $\frac{1}{N}\sum _{i=1}^{N}\left(\frac{N}{2\times {N}_{pos}}{y}_{i}log({p}_{i})+\frac{N}{2\times {N}_{neg}}(1-{y}_{i})log(1-{p}_{i})\right)$
式中:N为像素总量;yi为第i个像素的真实标签,yi∈{0,1},yi=1表示该像素属于边缘(正类),yi=0表示该像素属于非边缘(负类);pi为模型对第i个像素属于边缘的预测概率;Npos为正类样本(边缘像素)的数量;Nneg为负类样本(非边缘像素)的数量。

2 数据集及评价指标

实验是在Windows11 6核Intel XeonE5-2680 v4 CPU和NVIDIA A4000显存16.9 GB显卡工作环境上运行的,使用pytorch1.11(2022)深度学习框架用于模型的训练和测试。实验设置为每次训练输入4张图像样本,初始学习率(lr)设定为0.01,并采用多项式衰减算法调整学习率大小,衰减指数为0.9,训练迭代最大次数为200。
采用Coastline-Segmentation[30]和HRSC2016[31] 2个数据集进行实验。Coastline-Segmentation是专门用于海陆分割的标准数据集,选择中国近海海岸带作为研究区,使用了来自不同年份和不同海岸线的Landsat8 OLI光学遥感图像;HRSC2016数据集信息量和复杂度更高,其中包含了各类海域和港口的图像,涵盖了不同类型和尺寸的船舶(被分类在陆地区域内),且每幅图像都伴有一个人工标记的真实标签值。这2个数据集的部分样本图像分别如图7图8所示,其中,黑色代表陆地,白色代表海洋。
图7 Coastline-Segmentation数据集样本图像

Fig.7 Sample images from the Coastline-Segmentation dataset

图8 HRSC2016数据集样本图像

Fig.8 Sample images from the HRSC2016 dataset

在海陆分割任务中,图像中的每个像素要么被分类为“海”,要么被分类为“陆地”。因此,选用语义分割精度与边界精度2个方面的评价指标(召回率、正确率、交并比以及F1分数4个指标)来评估分割模型的性能,公式为:
P= $\frac{TP}{TP+FP}$
R= $\frac{TP}{TP+FN}$
F1=2× $\frac{P\times R}{P+R}$
IoU= $\frac{TP}{TP+FP+FN}$
式中:P为正确率;R为召回率;IoU为交并比;F1为F1分数;TP为模型正确预测为陆地的像素数;FP为模型错误预测为陆地(实际为海洋)的像素数;FN为模型错误预测为海洋(实际为陆地)的像素数;TN为模型正确预测为海洋的像素数。
为了评估模型在边缘检测方面的性能,引入边界精度(boundary precision,BP)、边界召回率(boundary recall,BR)和边界F1分数(boundary F1 score,BF1)作为评价指标。这3个指标可以有效评估模型在检测边界时的表现,公式分别为:
BP= $\frac{T{P}_{b}}{T{P}_{b}+F{P}_{b}}$
BR= $\frac{T{P}_{b}}{T{P}_{b}+F{N}_{b}}$
BF1=2× $\frac{BP\times BR}{BP+BR}$
式中:TPb为预测的边界点中真实为边界点的个数;FPb为预测的边界点中真实为非边界点的个数;FNb为真实为边界点的点中未被预测为边界点的个数。

3 结果与分析

3.1 对比实验

为了验证本文方法的有效性,在相同数据集和实验设置下,将本文方法与U-Net,PSPNet和FusionNet网络进行对比分析。表2表3分别展示了这些方法在2个不同数据集上进行海陆分割的结果。
表2 不同方法在Coastline-Segmentation数据集上的分割结果

Tab.2 Segmentation results of different methods on the Coastline-Segmentation dataset

输入图
像编号
输入图像 标签 U-Net PSPNet FusionNet 本文方法 边缘提取结果
图像1
图像2
图像3
图像4
表3 不同方法在HRSC2016数据集上的分割结果

Tab.3 Segmentation results of different methods on the HRSC2016 dataset

输入图
像编号
输入图像 标签 U-Net PSPNet FusionNet 本文方法 边缘提取结果
图像1
图像2
图像3
图像4
通过这些可视化分割结果,可以清晰地看到本文提出的方法相比于其他方法具有显著的性能优势。由表2可见,在专门用于海陆分割的Coastline-Segmentation数据集上,U-Net方法在陆地部分出现了零星的海洋区域。这表明U-Net在处理海岸线细节时存在一定的误差,导致了一些不准确的分割。类似于U-Net,PSPNet方法在陆地部分也出现了零星的海洋区域。尽管PSPNet通过金字塔池化模块捕捉了多尺度上下文信息,但在细节处理上仍然表现出不足,如边缘模糊、在海岸线附近的植被区容易被误分类为海洋区域,以及在潮间带区域分割不准确等。FusionNet方法虽然融合了多层特征,但在处理海陆边界时,仍然存在一些误分类现象,在识别细小地物时表现出错误,同时对于边缘细节复杂岸线表现过于平滑。相比之下,本文方法融合了边界信息,在边缘平滑度和海岸线定位方面,表现出更大的连续性,因此,获得了更平滑的地面结果和更精细的分割边界,且对图像中的细小海岸线、码头、礁石等有较好的识别效果,分割结果更接近真实的标签值。
同样,在表3中,在包含了更复杂纹理和强度分布的海陆边界细节的HRSC2016数据集上,传统的分割方法在处理高信息量和复杂场景时存在一定的局限性,例如,U-Net和PSPNet方法在内陆区域均出现了空洞现象,并且在海陆边界的细节处理上表现不佳,海岸线部分的模糊和不准确降低了整体分割效果。FusionNet方法则产生了更多的粗糙海陆边界,并存在一些精细的误分类,尽管其融合了多层特征,但在处理复杂边界时仍有明显不足,具体表现为对复杂船舶轮廓的分割不精细、边缘模糊等。而本文方法在复杂海陆边界的细节捕捉和处理上表现更加优异,不仅有效减少了噪声和误分类现象,还能准确识别并分割不同类型和尺寸的船舶,进一步验证了本文方法在高信息量和复杂场景下的有效性和良好性能。
表4进一步展示了在2种数据测试集上不同方法对各种度量指标的统计结果。如表4所示,在Coastline-Segmentation数据集上,本文提出的方法在交并比、召回率、正确率、F1分数和BP等评价指标上分别达到了93.14%,97.09%,98.21%,97.64%和91.75%,优于其他几种方法。与FusionNet相比,召回率、正确率和BP分别提高了0.23百分点、0.50百分点和6.19百分点。在更复杂的HRSC2016数据集上,各方法的指标相对较低,表明数据集的复杂度增加了分割任务的难度,但本文方法依然表现出较好的性能。具体来说,本文方法的正确率比U-Net提高了3.03百分点,比PSPNet提高了3.54百分点,比FusionNet提高了1.41百分点;召回率比U-Net提高了1.90百分点,比PSPNet提高了4.15百分点,比FusionNet提高了2.31百分点。PSPNet和FusionNet具有较低的土地召回率,对应更多的土地区域错误分类。对于其他参数,比如交并比和F1分数,本文方法也取得了更好的结果。另外本文方法在边缘各项指标上也取得了较优的结果,BPBRBF1分别达到了87.32%,84.96%和86.13%,与其他几种方法相比,分别平均提高了约5.18百分点,5.90百分点和5.59百分点。这表明,尽管面临复杂背景和细节,本文方法在分割准确性和边界精度上均具有显著优势。
表4 对不同网络的分割效果进行比较研究的结果

Tab.4 Comparative study of segmentation performance across different networks (%)

数据集 方法 交并比 召回率 正确率 F1分数 BR BP BF1
Coastline-Segmentation数据集 U-Net+Canny 92.39 96.63 97.08 96.85 79.87 82.25 81.03
PSPNet+Canny 92.62 95.67 96.82 96.24 78.94 81.23 80.07
FusionNet+Canny 93.22 96.86 97.71 97.28 83.21 85.56 83.20
本文方法 93.14 97.09 98.21 97.64 87.10 91.75 89.36
HRSC2016数据集 U-Net+Canny 90.86 93.36 93.06 93.04 76.92 83.33 79.98
PSPNet+Canny 89.31 91.11 92.55 92.41 79.23 80.56 79.88
FusionNet+Canny 90.26 92.95 94.68 93.28 81.02 82.54 81.77
本文方法 93.14 95.26 96.09 95.67 84.96 87.32 86.13

3.2 消融实验

本文进行了消融实验以进一步证明本文提出的边缘部分和注意力模块的有效性。在具有更加复杂的海陆边界细节的HRSC2016数据集上分别测试了包含边缘分支的网络(即本文提出的方法)与不包含边缘分支的网络,以及包含注意力模块的网络(即本文提出的方法)与不包含注意力模块的网络。消融实验结果如图9所示。在包含注意力模块的网络中,复杂内陆地区的分割效果得到显著改善。增加边缘提取分支后,网络在海陆边界的判别准确率得到很大程度改善,边缘区域的分类精度也得到明显提高。在各项量化测试指标方面,未包含边缘分支网络和本文网络的交并比分别为92.21%和93.14%;正确率分别为95.57%和96.09%;召回率分别为94.65%和95.26%。未包含注意力模块网络和本文网络的交并比分别为91.86%和93.14%;正确率分别为95.23%和96.09%;召回率分别为93.67%和95.26%。从这些结果可见,本文提出的包含边缘分支和注意力模块的模型具有较为优越的性能,更能满足实际海陆分割的需求。
图9 消融实验结果对比

Fig.9 Comparison of ablation experiment results

4 结论

针对光学遥感图像中海陆分割面临的定位精度低和边缘模糊等问题,本文提出了一种新型深度卷积网络模型,该模型结合了上下文语义信息和边缘特征。在传统语义分割网络的基础上,引入改进的ASPP和长短跳跃链接,以捕获多尺度和多层次的上下文信息。同时,引入一个上下文注意力模块来明确学习不同上下文信息的权重,进而有效融合多尺度和多层次的上下文特征并结合边缘提取分支以获取边缘信息。最终,通过融合模块将上下文信息与边缘信息整合,实现对遥感图像中海陆目标的精确分割。在2个典型数据集上的实验结果表明,与其他几种深度学习模型相比,本文方法不仅利用了分割网络中丰富的语义信息,还增强了边缘网络对图像细节和边界的敏感度,同时融合模块能够有效聚合语义和边缘信息,因此提高了模型在复杂背景下的分割和边缘检测整体性能,使得最终的分割结果更加精确和细致,能够较好地满足实际应用需要。
尽管本文模型在海陆分割中取得显著效果,但仍存在一定的局限性。首先,模型计算复杂度较高,处理大规模遥感图像时可能影响实时性;其次,模型在复杂场景下的细节处理和边界定位仍有改进空间。未来工作可通过轻量化和效率优化提高模型的处理速度,同时引入自适应机制应对复杂场景。
[1]
Liu G, Zhang Y S, Zheng X W, et al. A new method on inshore ship detection in high-resolution satellite images using shape and context information[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(3):617-621.

[2]
Zhu C R, Zhou H, Wang R S, et al. A novel hierarchical method of ship detection from spaceborne optical image based on shape and texture features[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 48(9):3446-3456.

[3]
Ji X, Tang L B, Lu T W, et al. DBENet:Dual-branch ensemble network for sea-land segmentation of remote-sensing images[J]. IEEE Transactions on Instrumentation and Measurement, 2023, 72:5503611.

[4]
陈祥, 孙俊, 尹奎英, 等. 基于Otsu与海域统计特性的SAR图像海陆分割算法[J]. 数据采集与处理, 2014, 29(4):603-608.

Chen X, Sun J, Yin K Y, et al. Sea-land segmentation algorithm of SAR image based on Otsu method and statistical characteristic of sea area[J]. Journal of Data Acquisition and Processing, 2014, 29(4):603-608.

[5]
李业钦, 王常颖, 隋毅, 等. 基于自动阈值分类的高分辨率影像海陆分界线自动提取[J]. 遥感技术与应用, 2021, 36(6):1379-1387.

DOI

Li Y Q, Wang C Y, Sui Y, et al. Automatic extraction of the sea-land boundary from high spatial resolution images based on automatic threshold segmentation[J]. Remote Sensing Technology and Application, 2021, 36(6):1379-1387.

[6]
梁新宇, 罗晨, 权冀川, 等. 基于深度学习的图像语义分割技术研究进展[J]. 计算机工程与应用, 2020, 56(2):18-28.

DOI

Liang X Y, Luo C, Quan J C, et al. Research on progress of image semantic segmentation based on deep learning[J]. Computer Engineering and Applications, 2020, 56(2):18-28.

DOI

[7]
马妍, 古丽米拉·克孜尔别克. 图像语义分割方法在高分辨率遥感影像解译中的研究综述[J]. 计算机科学与探索, 2023, 17(7):1526-1548.

DOI

Ma Y, Gulimila·K. Research review of image semantic segmentation method in high-resolution remote sensing image interpretation[J]. Journal of Frontiers of Computer Science and Technology, 2023, 17(7):1526-1548.

[8]
Lei S, Zou Z X, Liu D G, et al. Sea-land segmentation for infrared remote sensing images based on superpixels and multi-scale features[J]. Infrared Physics & Technology, 2018, 91:12-17.

[9]
Elkhateeb E, Soliman H, Atwan A, et al. A novel coarse-to-fine sea-land segmentation technique based on superpixel fuzzy C-means clustering and modified Chan-Vese model[J]. IEEE Access, 2021, 9:53902-53919.

[10]
Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences[C]// Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics,2014:655-665.

[11]
Ronneberger O, Fischer P, Brox T. U-Net:Convolutional networks for biomedical image segmentation[C]//Medical Image Computing and Computer-Assisted Intervention-MICCAI 2015.Springer International Publishing,2015:234-241.

[12]
Badrinarayanan V, Kendall A, Cipolla R. SegNet:A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495.

DOI PMID

[13]
Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6230-6239.

[14]
Wu X Y, Chen G, Ding X Q, et al. Multiscale deep fully convolutional network for sea-land segmentation of surveillance images[C]//2020 International Conference on Image,Video Processing and Artificial Intelligence. SPIE, 2020:29-35.

[15]
Ji X, Tang L B, Liu T H, et al. HeteroNet:A heterogeneous encoder-decoder network for sea-land segmentation of remote sensing im-ages[J]. Journal of Electronic Imaging, 2023, 32(5):053016.

[16]
Zhao L, Zhang Y S, Xue W, et al. Fast and accurate sea-land segmentation of SAR imagery based on multi-source data registration[J]. Geocarto International, 2022, 37(26):13748-13768.

[17]
Gao P, Tian J W. A novel model for edge aware sea-land segmentation[C]//MIPPR 2019: Remote Sensing Image Processing,Geographic Information Systems,and Other Applications. SPIE,2020:107-114.

[18]
梁烽, 张瑞祥, 柴英特, 等. 一种结合上下文与边缘注意力的SAR图像海陆分割深度网络方法[J]. 武汉大学学报(信息科学版), 2023, 48(8):1286-1295.

Liang F, Zhang R X, Chai Y T, et al. A sea-land segmentation method for SAR images using context-aware and edge attention based CNNs[J]. Geomatics and Information Science of Wuhan University, 2023, 48(8):1286-1295.

[19]
Chen L, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[J/OL]. arXiv, 2017(2017-06-17). http://arxiv.org/abs/1706.05587.

[20]
Quan T M, Hildebrand D G C, Jeong W K. FusionNet:A deep fully residual convolutional neural network for image segmentation in connectomics[J]. Frontiers in Computer Science, 2021, 3:613981.

[21]
He K M, Zhang X Y, Ren S Q, et al. Deep re-sidual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778.

[22]
Woo S, Park J, Lee J Y, et al. CBAM:Convolutional block attention module[C]// Computer Vision-ECCV 2018.Springer International Publishing,2018:3-19.

[23]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//31st Annual Conference on Neural Information Processing Systems (NIPS).ACM,2017:6000-6010.

[24]
杨先增, 周亚男, 张新, 等. 融合边缘特征与语义信息的人工坑塘精准提取方法[J]. 地球信息科学学报, 2022, 24(4):766-779.

DOI

Yang X Z, Zhou Y N, Zhang X, et al. Accurate extraction of artificial pit-pond integrating edge features and semantic information[J]. Journal of Geo-Information Science, 2022, 24(4):766-779.

[25]
Zhang Y, Liu F G, Tang Q. Utilize spatial prior in ground truth:Spatial-enhanced loss for semantic segmentation[C]// Artificial Neural Networks and Machine Learning-ICANN 2022.Springer Nature Switzerland,2022:312-321.

[26]
Li X Y, Sun X F, Meng Y X, et al. Dice loss for data-imbalanced NLP tasks[C]// Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics,2020:465-476.

[27]
Salehi S S M, Erdogmus D, Gholipour A. Tversky loss function for image segmentation using 3D fully convolutional deep networks[C]// Machine Learning in Medical Imaging. Springer International Publishing,2017:379-387.

[28]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(2):318-327.

[29]
Kervadec H, Bouchtiba J, Desrosiers C, et al. Boundary loss for highly unbalanced segmentation[J]. Medical Image Analysis, 2021, 67:101851.

[30]
Yang T, Jiang S L, Hong Z H, et al. Sea-land segmentation using deep learning techniques for Landsat8 OLI imagery[J]. Marine Geodesy, 2020, 43(2):105-133.

[31]
Liu Z K, Yuan L, Weng L B, et al. A high resolution optical satellite image dataset for ship recognition and some new baselines[C]// Proceedings of the 6th International Conference on Pattern Recognition Applications and Methods. SciTePress,2017:324-331.

文章导航

/