水土资源

流域绿洲土壤盐分多模型反演效果评估

  • 龙威夷 , 1, 2, 3 ,
  • 施建飞 1, 2, 3 ,
  • 李双媛 1, 2, 3 ,
  • 孙金金 1, 2, 3 ,
  • 王玉刚 , 1, 2, 3
展开
  • 1.中国科学院新疆生态与地理研究所,荒漠与绿洲生态国家重点实验室,新疆 乌鲁木齐 830011
  • 2.中国科学院大学,北京 100049
  • 3.中国科学院阜康荒漠生态系统国家站,新疆 阜康 831505
王玉刚. E-mail:

龙威夷(1998-),男,硕士研究生,研究方向为土壤盐渍化过程模拟. E-mail:

收稿日期: 2024-03-12

  修回日期: 2024-04-05

  网络出版日期: 2025-08-14

基金资助

“天山英才”培养计划(2023TSYCLJ0048)

国家自然科学基金(42371126)

国家自然科学基金(42330503)

Evaluation of multimodel inversion effects on soil salinity in oasis basin

  • LONG Weiyi , 1, 2, 3 ,
  • SHI Jianfei 1, 2, 3 ,
  • LI Shuangyuan 1, 2, 3 ,
  • SUN Jinjin 1, 2, 3 ,
  • WANG Yugang , 1, 2, 3
Expand
  • 1. State Key Laboratory of Desert and Oasis Ecology, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, Xinjiang, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Fukang Station of Desert Ecology, Chinese Academy of Sciences, Fukang 831505, Xinjiang, China

Received date: 2024-03-12

  Revised date: 2024-04-05

  Online published: 2025-08-14

摘要

为更好地实现区域土壤盐分的监测和治理,促进绿洲可持续发展,本文基于气候、地形、植被等相关数据,结合三工河流域平原绿洲土壤表层盐分调查,对比评估不同模型(随机森林,支持向量机,决策树,普通克里金)土壤盐分反演效果。结果表明:绿洲土壤样本盐分含量为0.29~30.18 g·kg-1,平均值为4.06 g·kg-1,变异系数为149.73%,属于强变异;随机森林模型相较于其他模型具有更高的反演精度,决定系数、均方根误差和绝对平均误差分别为0.73、1.89 g·kg-1和1.49 g·kg-1;随机森林模型反演显示,高值区主要分布在西北部和中部区域,并且在9种环境协变量中,高程和地下水矿化度对土壤盐分反演精度影响较大。总的来说,以随机森林模型为手段的机器学习方法,不仅能够避免数据的平滑效应和图斑边界两侧的突变,还能有助于识别绿洲局部空间盐分状况,研究结果可为干旱区绿洲土壤盐渍化的长期监测提供技术和方法参考。

本文引用格式

龙威夷 , 施建飞 , 李双媛 , 孙金金 , 王玉刚 . 流域绿洲土壤盐分多模型反演效果评估[J]. 干旱区研究, 2024 , 41(7) : 1120 -1130 . DOI: 10.13866/j.azr.2024.07.04

Abstract

A case study was conducted on the plain oasis in the Sangong River Basin of Xinjiang, China, to monitor and control soil salinity to improve the sustainable development of oases. Based on the climate, topography, vegetation, groundwater, and salinity of the soil survey data, many model methods, such as the Random Forest model, Support Vector Machine, Decision Tree, and Ordinary Kriging, were applied to estimate the inversion accuracy and the spatial distribution of soil salinity in the topsoil. The results revealed that the range of soil salinity values was 0.29-30.18 g·kg-1 and an average of 4.06 g·kg-1 for the sample sites. The value of the coefficients of variation was 149.73%, indicating a robust spatial variability. Among the four models, the Random Forest model showed a higher simulation precision compared to the others, with a coefficient of determination value of 0.73, a root-mean-square error value of 1.89 g·kg-1, and an absolute mean error value of 1.49 g·kg-1. The results of the Random Forest model inversion revealed that areas of higher soil salinity were concentrated in the northwest and the midbasin. Among the nine environmental covariates, elevation and groundwater salinity had a significant impact on the accuracy of identifying spatial distribution characteristics of soil salinity. In general, the Random Forest model as a machine learning method can not only avoid the smoothing effect and abrupt changes on both sides of the map boundary but also identify the local spatial distribution of soil salinity in the basin. The results of this study can provide technical and methodological applications for the long-term monitoring of soil salinization in arid areas.

土壤是人类生产和生活的基本物质条件。然而,土壤盐分对农业生产构成了严重威胁,全球有超过100个国家受盐分的危害,面积超过9.5×109 hm2,并且还在不断增加[1-2]。据报道,除南极洲外,全球以每年约1.0×106~1.5×106 hm2的速度增加[3]。Hassani等[4]研究表明,1980—2018年在非寒冷地区有1.2×109 hm2的土壤受到盐分的影响,其中耕地为1.6×107 hm2。在全球尺度上,受盐分影响的土地面积在空间分布上有很大差异,其中面积最大的区域是亚洲,尤其是中国、哈萨克斯坦和伊朗[1,4]。统计数据表明,中国各类盐渍土面积约为9.9×107 hm2,约占国土面积的1.03%,耕地中盐渍化面积为9.2×106 hm2,占全国耕地面积的6.62%[3]。通常情况下,盐渍土的形成及分布与成土母质、气候、地形、水文条件和人类活动具有密切关系[5]。新疆位于中国西北干旱区,由于自然降水少、地表蒸发量大以及人类活动剧烈,已成为中国盐渍化最为严重的地区之一[6-7]。因此,掌握快速、准确、全面的区域土壤盐分监测方法,对于解决区域土壤盐渍化问题、实现农业可持续发展具有重要意义。
在实践过程中,因土壤电导率(Electrical Conductivity,EC)与土壤盐渍化具有较强的相关性,常被用于土壤盐渍化的动态监测[7-8]。研究发现,传统的EC分析精度很高,但是速度慢、不连续、成本昂贵且空间有限[7]。由于这些条件的限制,通过传统土壤盐渍化监测方法很难掌握区域土壤盐渍化的过程和趋势[9-10]。为了获取更全面的土壤盐分信息,一些研究利用现有的观测数据,结合地统计方法分析土壤盐分的地理分布[11-12]。然而,地统计方法得出的地理分布通常是近似的,并且难以与对象的真实特征相匹配[2]。随着计算机技术和数字智能化的发展,机器学习被广泛应用于土壤学研究,极大地促进了数字土壤测绘方法的开发,为土壤盐分反演提供了可靠的工具[2]。例如,支持向量机[13-14]、人工神经网络[15-16]、随机森林[17-18]都被用于土壤盐分的反演,并且这些选定的模型都具有良好的性能。蒙莉娜等[19]对比了普通克里格、地理加权回归和随机森林,发现前两个模型在数值模拟上具有较高的平滑效应,不易刻画内部分异特征。杨清等[20]研究也表明,传统的地统计模型在土壤盐分预测精度上存在不足。在土壤盐分反演过程中,盐分与各个环境因子之间可能存在非线性响应,机器学习方法能够捕捉盐分与环境因子的非线性关系,有助于实现精准反演。由此可见,采用机器学习方法开展土壤盐分反演是认识区域土壤盐分运移规律、实施土壤盐渍化治理的关键。
本研究以新疆三工河流域平原绿洲为靶区,使用与地形、气候、植被和土壤相关的9个环境协变量,并结合土壤盐分实测数据构建多种机器学习模型(随机森林、支持向量机和决策树)。通过对比不同机器学习模型与传统的普通克里金模型的反演结果差异,筛选适用于三工河流域绿洲土壤盐分反演的最优模型,并在此基础上探究影响研究区土壤盐分反演的主要环境因子。本研究结果有助于掌握流域空间土壤盐分分布状况,以期为干旱区内陆河流域土壤盐渍化监测和治理提供参考依据。

1 数据与方法

1.1 研究区概况

三工河流域位于博格达峰北麓,古尔班通古特沙漠南缘(87°47′E~88°17′E,44°09′N~44°29′N),行政隶属新疆昌吉州阜康市。流域景观从南至北依次分为三个地貌单元:南部山区、中部平原和北部沙漠。三工河流域内共三条河流,分别为三工河、四工河和水磨河。该流域气候属于干旱大陆型气候,夏季炎热干燥,冬季严寒,降水量较少,蒸发量较大。研究区面积为942 km2,海拔在437~780 m(图1),年均气温为6.6 ℃,最高气温42.3 ℃,最低气温-41.5 ℃,多年平均降水约为163 mm,多年平均水面蒸发量约为1800 mm,其中北部沙漠的年均蒸发量比南部山区高出约500 mm。地形南高北低,由东南向西北倾斜。研究区土地利用类型包括耕地、灌木林、人工林、草地、盐碱地、建设用地、裸地等。自然植被主要为琵琶柴(Reaumuria soongorica)、梭梭(Haloxylon ammodendron)、骆驼刺(Alhagi sparsifolia)以及其他短命植物等。
图1 研究区概况及采样点分布

注:底图采用自然资源部标准地图制作,审图号为GS(2019)3333号,对底图边界无修改。下同。

Fig. 1 Overview of the study area and distribution of sampling points

1.2 数据来源与处理

1.2.1 土壤样本数据

在三工河流域内对不同的土地利用类型进行土壤采集,样点共计100个(图1)。每个样点位置采用五点法进行混合取样,以确保样点的准确性和代表性,取样深度为20 cm。同时,在取样过程中,使用手持GPS记录样点经纬度、海拔等信息。混合均匀后的复合样本放入密封防水袋中并贴上标签带回实验室。样品经过自然风干和人工研磨过筛(<2 mm),按照土壤盐度测量方法[21],采用电导率测量仪(梅特勒S470 SevenExcellence测量仪,瑞士)测定1:5土水比土壤溶液的EC值。基于三工河流域土壤盐分和电导率之间的关系式确定土壤盐分含量[22]
S = 0.2711 × E C 1 : 5 2 + 4.6804 × E C 1 : 5
式中:S为土壤含盐量(g·kg-1); E C 1 : 5为土壤电导率(mS·m-1)。

1.2.2 环境协变量数据获取及预处理

本研究综合考虑气候、地形、植被、地下水埋深和土壤理化性质对土壤盐分的影响,收集了对应时期的气象数据、高程数据、土壤湿度数据、NDVI数据、矿化度数据和pH数据。为了便于开展土壤盐分的预测,所有数据统一重采样为30 m栅格。数据来源的具体信息参见表1
表1 数据及来源

Tab. 1 Data and sources

数据名称 数据精度 数据格式 简介及来源
气象数据 1 km TIFF 气象数据包括气温和降水数据,采用的1901—2022年中国1 km逐月平均气温和降水量数据集,数据来源于国家科技基础条件平台—国家地球系统科学数据中心(http://www.geodata.cn
高程数据 30 m TIFF 高程数据包括高程、坡向、坡度,数据来源于美国NASA和NGA的航天飞机雷达地形测绘项目(Shuttle Radar Topography Mission,SRTM)的成果产品,下载地址为 https://srtm.csi.cgiar.org,坡向和坡度是基于高程在ArcGIS中计算得出
土壤湿度数据 1 km TIFF 土壤湿度数据采用2000—2020年中国1 km土壤湿度日尺度数据集,数据来源于“国家青藏高原科学数据中心”(http://data.tpdc.ac.cn
NDVI数据 30 m TIFF NDVI数据基于Google Earth Engine(GEE)平台,选择可用的Landsat 8数据的波段4(红光波段,R)和波段5(近红外波段,NIR)计算NDVI,其中NDVI=(NIR-R)/(NIR+R)
矿化度数据 30 m TIFF 地下水矿化度数据采用研究区历史数据
pH数据 30 m TIFF pH数据采用研究区实测数据

1.3 研究方法

1.3.1 随机森林

随机森林(Random Forest,RF)模型是Brgiman于2001年提出的一种通过多元回归树来解决回归问题的集成学习方法[23]。该模型的随机性体现在每棵树的训练样本都采用自助法重采样技术随机采样生成[24]。RF模型不需要响应协变量关系的分布假设,Bagging算法能够保证模型的性能,该过程允许对模型泛化能力进行统计上的可靠估算,并且不存在过度拟合风险[25]。随机森林的构建和模拟过程通过Python 3.10中的scikit-learn软件包实现,这一过程主要包括选择和构建训练样本、确定随机森林结构和输入参数、训练模型以及进行模拟。

1.3.2 支持向量机

支持向量机(Support Vector Machine,SVM)模型是一种基于统计学习理论,遵循结构风险最小化原则的机器学习算法[26]。SVM的基本原理由求解分类问题引入,其指导思想是将非线性可分样本数据,通过核函数映射到高维线性可分空间。然后,用最优方法求解划分超平面,并利用超平面上支持向量来构建模型。该方法可以使其结构风险最小化,模型具有避免过拟合、运算简单、稳健性高的特点[24,27]。在本研究中,SVM模型的构建和模拟通过Python 3.10中的scikit-learn软件包实现,这一过程主要包括选择和构建训练样本、确定SVM模型参数、训练模型以及进行模拟。

1.3.3 决策树

决策树(Decision Tree,DT)是一种非参数算法,作用于回归目的的监督机器学习技术[28]。与寻求预测分类标签的分类挑战不同,回归任务侧重于预测连续数值。DT采用树状模型的形式,其中内部节点指示基于特定特征的决策,而叶节点对应于预测的输出值[29]。作为一种非参数算法具有对训练样本分布没有特殊要求、可以同时处理连续和离散数据、分类速度快等特点[29,30]。在本研究中,DT模型的构建和模拟过程通过Python 3.10中的scikit-learn软件包实现,主要包括选择和构建训练样本、确定决策树结构和输入参数、训练模型以及进行模拟。

1.3.4 普通克里金

普通克里金法(Ordinary Kriging,OK)是基于空间自相关性和二阶平稳假设,依据估算误差最小和半方差函数进行分析,建立符合地质规律的统计模型来反映变量的变化规律,并对其空间分布进行预测插值[31]。OK模型通过邻近点的信息,并根据这些点与估计点空间变异性结构的距离为其分配权重[32]。在本研究中,OK模型的预测基于ArcMap完成,数据转换类型为Log,趋势清除选择二阶,半方差函数使用ArcMap自动计算。

1.4 精度验证

为减少不同变量间共线性对模型结果的影响,决策树和随机森林模型采用变量之间共线性相对鲁棒,支持向量机使用核函数和正则化,以此来减少变量之间共线性对模型的影响。对选择的模型使用十折交叉验证,并对每一个模型迭代100次,以避免模型的系统误差,确保模型对预测结果的稳定性。利用均方根误差(Root Mean Square Error,RMSE)、绝对平均误差(Mean Absolute Error,MAE)和决定系数(R2,Coefficient of Determination)评估模型性能。在此基础上,利用每个模型迭代100次得到的均值及标准差来评估其对盐分预测的稳定性。

2 结果与分析

2.1 土壤盐分分布特征

整体而言,三工河流域土壤盐分范围为0.29~30.18 g·kg-1,平均盐分含量为4.06 g·kg-1表2)。研究区土壤盐分的变异系数为149.73%(表2),属于强变异,表明土壤盐分具有强空间变异性。按盐渍化等级划分,研究区内非盐渍化、轻度盐渍化、中度盐渍化、重度盐渍化和盐土样本占比分别为68%、10%、7%、7%和8%,研究区整体盐渍化程度属于轻度盐渍化。此外,非盐渍化、轻度盐渍化和盐土区域土壤盐分变异系数在25%~75%,属于中等强度的变异性,中度盐渍化和重度盐渍化区域,变异系数低于25%,属于弱变异性。由此表明,不同盐渍化程度下盐分的变异性不同可能与不同盐渍化等级和其样本量有关。土壤含盐量(Soil Salt Content,SSC)与影响因子之间的相关性分析结果表明(图2),土壤盐分与归一化植被指数(Normalized Difference Vegetation Index,NDVI)、温度(Temperature,Temp)、地下水矿化度(Groundwater Salinity,GS)、坡向(Aspect)、土壤湿度(Soil Moisture,SM)呈正相关,相关系数分别为0.01、0.11、0.23、0.11和0.24,其中土壤盐分与GS和SM呈显著正相关(P<0.05)。土壤盐分与降水(Precipitation,Pre)、数字高程模型(Digital Elevation Model,DEM)、坡度(Slope)、pH呈负相关,相关系数分别为-0.15、-0.20、-0.17和-0.16,其中土壤盐分与DEM呈显著负相关(P<0.05)。部分影响因子之间存在显著的相关性:DEM与Pre和pH呈显著正相关(P<0.05),Temp与Pre、GS与DEM呈显著负相关(P<0.05)。
表2 三工河流域土壤含盐量描述性统计

Tab. 2 Descriptive statistics of soil salinity in the Sangong River Basin

盐渍化等级 含盐量/(g·kg-1 数量占比/% 均值/(g·kg-1 最小值/(g·kg-1 最大值/(g·kg-1 变异系数/%
非盐渍化 <3 68 1.02 0.29 2.86 66.81
轻度盐渍化 3~6 10 4.36 3.01 5.95 28.67
中度盐渍化 6~9 7 7.67 6.27 8.74 13.82
重度盐渍化 9~12 7 10.57 9.25 11.61 8.50
盐土化 >12 8 20.79 13.40 30.18 27.86
总体样本 100 4.06 0.29 30.18 149.73
图2 土壤盐分与不同特征因子的相关性

注:*表示显著性检验P<0.05,**表示显著性检验P<0.01,***表示显著性检验P<0.001。NDVI、Pre、Temp、GS、DEM、Aspect、Slope、pH、SM、SSC分别表示归一化植被指数、降水、温度、地下水矿化度、高程、坡向、坡度、酸碱度、土壤湿度、土壤含盐量。下同。

Fig. 2 Correlation of soil salinity with different characterization factors

2.2 不同模型盐分反演精度评估

为了减少模型的系统误差,将模型迭代次数最大设置为100次。同时,为了验证四种模型的性能,采用十折交叉验证法对不同模型进行了精度评估。从表3可以看出,四种不同模型的R2大小顺序为RF(0.73)>DT(0.70)>SVM(0.66)>OK(0.28);RMSE大小顺序为OK(4.46)>RF(1.89)>SVM(1.73)>DT(1.66);MAE大小顺序为OK(3.27)>SVM(1.57)>DT(1.53)>RF(1.49)。从模型精度评估参数来看,OK模型的土壤盐分反演精度较低,而RF、SVM和DT模型精度较高。相比于OK模型,三种机器学习模型中,RF模型对土壤盐分预测性能提高最为明显,精度(R2)相对于OK模型提高了61.64%,而误差(MAE)降低了54.43%。此外,为了评估模型的精确度,本研究在保证模型整体性能和不确定性的程度下,分析了在不同盐分含量范围(低盐分含量<5 g·kg-1;中盐分含量10~15 g·kg-1;高盐分含量>20 g·kg-1)的准确度。图3是100次迭代中四种模型精度最高迭代中的十折交叉验证情况,由图3可以看出,DT和OK模型在低盐分含量时具有较高的预测精度,但在中、高盐分含量时预测值明显小于实测值。SVM和RF模型在低盐分含量的预测值大于实测值,但RF模型在中、高盐分含量时预测值与实测值更为接近。对比不同盐分含量条件下四种模型的R2和斜率可以看出,RF模型的R2(0.87)最大,并且斜率更接近1,这说明该模型具有更高的预测精度。因此,相比于SVM、DT和OK模型,RF模型能够有效的提高土壤盐分的空间预测精度,从而更准确的反映土壤盐分的空间分布特征。
表3 不同模型土壤盐分反演精度统计

Tab. 3 Statistical of soil salinity inversion models based on different methods

模型 指标 最小值
/(g·kg-1
最大值
/(g·kg-1
均值
/(g·kg-1
标准差
/(g·kg-1
RF R2 0.66 0.87 0.73 0.05
RMSE 1.02 4.20 1.89 0.44
MAE 0.86 3.11 1.49 0.33
SVM R2 0.61 0.79 0.66 0.04
RMSE 1.35 1.92 1.73 0.15
MAE 1.31 1.76 1.57 0.12
DT R2 0.67 0.74 0.70 0.02
RMSE 0.56 2.33 1.66 0.42
MAE 0.73 2.16 1.53 0.32
OK R2 0.23 0.32 0.28 0.03
RMSE 3.74 5.23 4.46 0.41
MAE 2.81 3.69 3.27 0.25

注:R2为无量纲。

图3 不同模型预测值与实测值的相关性

注:k表示斜率,R2表示决定系数。

Fig. 3 Correlation between predicted and measured values of different models

2.3 不同模型土壤盐分反演结果

采用不同模型对三工河流域土壤盐分进行反演,结果如图4所示。RF、SVM和DT模型反演的土壤盐分分布结果,用100次迭代结果的均值来表示。RF、SVM、DT和OK模型对土壤盐分预测的预测范围分别为0.50~22.41 g·kg-1、0.50~21.00 g·kg-1、0.29~30.18 g·kg-1和0.46~36.22 g·kg-1,均值分别为4.80 g·kg-1、4.03 g·kg-1、3.91 g·kg-1和4.71 g·kg-1表4)。不同模型土壤盐分的预测结果不同,RF、SVM和DT模型预测结果显示,土壤盐分高值区主要分布在流域西北部地区,而OK模型反演主要分布在研究区北部。三种机器学习方法对流域土壤盐分高值区域的预测结果存在一定差异,主要表现在东北部、中部和东南区域。在东北部,RF和SVM模型预测的结果较为分散,并且在中部和东南部均存在高值区分布,但DT模型则在东北部地区相对集中,其他区域未出现高值区。整体而言,相比于RF和SVM模型,OK和DT模型仅能够预测出土壤盐分含量的空间变化规律,缺乏对土壤盐分空间变异的细节描述。
图4 不同模型预测的土壤盐分空间分布

Fig. 4 Spatial distribution of soil salinity predicted by different models

表4 不同模型对土壤盐分预测的统计

Tab. 4 Statistical of soil salinity prediction by different models

模型 最小值
/(g·kg-1
均值
/(g·kg-1
最大值
/(g·kg-1
标准差
/(g·kg-1
RF 0.50 4.80 22.41 2.37
SVM 0.50 4.03 21.00 2.22
DT 0.29 3.91 30.18 5.26
OK 0.46 4.71 36.22 3.96
从土壤盐分的实测值和预测值密度分布可以看出(图5),土壤盐分在1~10 g·kg-1时,所有模型均有一定程度的高估,而在10~15 g·kg-1和20~35 g·kg-1时,存在一定程度的低估。当土壤盐分处于15~20 g·kg-1时,RF和SVM模型与实测值较为接近,而DT和OK模型分别出现了明显的高估和低估现象(图5)。并且,在0~5 g·kg-1,OK模型比其他模型变化更快,峰值更高,因此预测结果与实际偏差更大。三种机器学习模型在5~15 g·kg-1的预测结果变化趋势差异较大,其中RF模型与实测值的变化趋势较为一致,其次是SVM模型,DT模型变化与实测值的变化趋势差异最大。然而,对于极大值的拟合性能上,四种模型预测的最大值分别为DT(25.00 g·kg-1)>RF(23.50 g·kg-1)>SVM(22.50 g·kg-1)>OK(16.00 g·kg-1),均未达到实际测量的最大值(30.18 g·kg-1)。总得来看,在四种模型中,RF模型预测结果不仅能够避免平滑效应和图斑边界两侧的突变,还能识别土壤盐分在绿洲局部的实际变化情况。因此,RF模型对于三工河流域绿洲土壤盐分的总体反演效果最优。
图5 不同模型预测值与实测值的土壤盐分密度

Fig. 5 Plot of soil salinity density between predicted and measured values in different models

2.4 环境协变量对土壤盐分反演重要性贡献

为提高评估的稳定性和结果的可靠性,对随机森林特征因子重要性进行了100次迭代。通过计算100次迭代中土壤盐分特征因子重要性得分的均值,得到不同特征因子对模型的贡献度。从图6可以看出,不同特征因子对土壤盐分预测的重要性贡献有明显差异。DEM和GS对模型的贡献度较高,分别为16%和14.5%;其次为pH、SM、NDVI和Temp,分别为12.37%、12.35%、10.36%和10.02%;而Pre、Slope和Aspect对模型的贡献度较低,分别为8.73%、8.29%和7.35%(图6)。这一结果表明,高程和地下水矿化度对三工河流域绿洲土壤盐分分布起到重要作用,其次为pH值和土壤湿度。
图6 不同环境协变量对RF模型的贡献度

Fig. 6 Contribution rates of different environmental covariates to the RF mode

3 讨论

3.1 模型准确性、不确定性和适用性

近年来,越来越多的机器学习模型被用于土壤盐渍化的研究中,极大地推动了土壤盐渍化监测方法的发展[5,9]。本研究在土壤实测数据的基础上,结合气象数据、地形数据和遥感数据,选用了四种模型对三工河流域绿洲土壤盐分进行预测。通过比较四种模型的反演结果,发现RF模型预测精度最高,其中R2达到0.73,MAE最低为1.49,而OK模型预测精度最低,其中R2仅为0.28,MAE最高为3.27。针对不同盐分含量范围,评估了四种模型预测的精度。RF模型在三种盐分含量范围的预测性能较好,而SVM模型在三种盐分含量范围的拟合性能均不理想(图3)。DT和OK模型在低盐分含量范围(<5 g·kg-1)内的预测精度较高,而在中盐分含量(10~15 g·kg-1)和高盐分含量(>20 g·kg-1)范围内模型的预测值与实测值偏差较大(图3)。这一结果证明了RF模型在对不同盐分含量范围的预测过程中具有较强的泛化能力,能够获得精度较高的预测值,尤其是在存在土壤盐渍化的区域。王瑾杰等[33]对比四种机器学习模型也发现,RF模型能够更稳定更准确的预测干旱区尾闾湖流域的土壤盐分,其中R2达到了0.66。王飞等[34]研究结果表明,RF模型在绿洲土壤盐分空间预测过程中能够反映更为精细的纹理信息,且具有较高的验证精度。Zhang等[2]运用三种机器学习模型对滨海平原区不同深度的土壤盐分进行反演发现,RF模型在不同深度的预测过程中均具有较高的R2和较低的RMSE。这些研究结果均表明,RF模型能够适用于不同区域、不同深度的土壤盐分反演,且能够表现出较高的性能。相关证据也表明[2],RF模型作为一种非线性估计方法,能够在复杂的预测变量的模拟过程表现出较强的性能。另外,本研究发现使用机器学习模型对研究区内土壤盐分的制图效果比OK模型更精准。其他相关研究也表明[19,35],由于受平滑效应的影响,适用于变化平缓的空间属性估计的OK模型对局部细节的预测效果较弱,而RF模型则明显要优于OK模型。Zhang等[2]研究表明,在不同深度的土壤盐分预测过程中,RF的预测性能均优于SVM和反向传播神经网络模型。总的来说,RF模型对三工河流域土壤盐分反演具有较高的准确性,可将该模型应用于流域未来的土壤盐分监测。

3.2 三工河流域土壤盐分空间分布特征

土壤盐渍化是世界上长期存在的环境问题,特别是在干旱和半干旱地区。因此,研究干旱区土壤盐分空间分布特征,对于有效治理土壤盐渍化、保护土壤生态安全、实现农业可持续发展至关重要[6]。一般来说,影响土壤盐分空间变化的主要因素包括地形、气候、生物、母质以及人类活动[2,5]。本研究利用RF模型对三工河流域土壤盐分的反演结果表明,研究区的土壤盐分范围在0.50~22.41 g·kg-1,平均值为4.80 g·kg-1表4)。土壤盐分的低值区主要集中在研究区南部,高值区主要集中在中部地区(图4)。研究区南部为冲洪积扇,海拔较高,因此土壤中的盐分会随降水或雪融水不断向下迁移,从而造成平原区土壤盐渍化现象的发生。因此,地形(海拔)因素是造成研究区土壤盐分空间差异的主要原因之一。Wang等[11]研究也表明,海拔高度是影响三工河流域土壤盐分空间变化的主要因素,这与本研究结果一致。颜安等[36]研究也表明,地形因素是影响玛纳斯河流域表层土壤盐分空间变异的主要因素。除了地形因素外,人类活动可能也是造成研究区中部盐分积累的重要因素。三工河流域中部主要为绿洲平原区,该地区的人类活动剧烈,如土地开垦、农业灌溉、施肥等。Wang等[11]研究表明,在1982—2015年由于人类活动引起的土地利用变化是三工河流域土壤盐分空间变化的主要驱动因素。因此,为有效治理三工河流域土壤盐渍化,必须制定合理的农业管理措施。

3.3 随机森林模型预测结果的主要影响因子

不同环境协变量对土壤盐分的预测精度的影响存在显著差异[10,37]。本研究分析了与地形、气候、植被、土壤和地下水相关的9个环境协变量与流域土壤盐分的相关性及其对模型反演精度的贡献率。其中,土壤盐分与SM、GS、DEM和Slope存在显著相关性(P<0.05),相关系数分别为0.24、0.23、0.20和-0.17(图2)。大量研究表明[11,38],土壤水分是土壤盐分的溶剂,也是土壤盐分运动的重要载体,土壤水分的分布和运移在很大程度上影响着土壤盐渍化的形成与发展。卫雨西等[38]研究表明,在羊石河流域耕地、荒漠的土壤水分含量与土壤盐分呈显著正相关。相关研究表明[6],自1960年以来三工河流域绿洲下游阜北农场超过40%的面积变成了水浇地。这一过程极大的影响了流域内土壤水分和盐分分布特征,因此,本研究将有关土壤水分的参数(如,SM)纳入土壤盐分反演,对提高预测精度具有重要意义。Peng等[10]研究表明,SM是影响新疆南部土壤盐分预测精度的关键因素之一。地形是土壤形成中最重要的影响因素之一,控制着溶质、水和沉积物的流动,进而影响土壤盐的空间分布[25]。因此,基于DEM及其衍生变量通常被纳入地形参数用于土壤盐分制图[19,34]。不同矿化度的地下水通过土体毛管作用而蒸发损失,将所携带的水溶性盐积累于表层土壤中,这是土壤现代盐分积累过程最基本和普遍的形式[39-40]。麦麦提吐尔逊等[41]研究表明,影响伊犁绿洲土壤盐渍化的主要地下水环境因子是GS,随着GS增加研究区耕地土壤含盐量逐渐增大。高婷婷等[42]研究也表明,地形和地下水是影响渭干河-库车河流域土壤盐分的主要影响因素。另外,模型重要性分析结果表明,GS、DEM、pH和SM是对RF模型反演的贡献度较高,累积贡献率高达55.22%。其中,DEM和GS参数的重要性较为突出,贡献率分别为16%和14.5%。大量研究表明[7,34],地形是影响土壤盐分预测精度的重要环境变量之一,其主要原因在于地形因子通过影响太阳辐射、风速、温度、降雨量、土壤质地等因素来间接影响土壤盐分分布。另外,由于干旱区蒸发量大,通过潜水蒸发和土体毛管作用,地下水矿化度引发可溶性盐离子在表层土壤聚积,因此GS与土壤盐分具有较强正相关关系[40]。总体而言,在研究区内对土壤盐分反演精度影响较大的环境协变量,主要包括高程、地下水矿化度、pH值和土壤湿度。

4 结论

在本研究中,通过结合气候、地形、植被和土壤数据,对比分析了不同模型对三工河流域土壤盐分的反演精度,主要研究结论如下:
(1) 新疆三工河流域土壤盐分范围在0.29~30.18 g·kg-1,平均盐分为4.06 g·kg-1,属于轻度盐渍土。不同土壤盐渍化等级范围内,土壤盐分的变异性不同。整体上,区域土壤盐分的变异系数达149.73%,属于强变异。
(2) 相比于SVM、DT和OK模型,RF模型具有更高的精度,其模型R2、RMSE和MAE分别为0.73、1.89 g·kg-1和1.49 g·kg-1。RF模型不仅能够避免数据的平滑效应和图斑边界两侧的突变,还能更好的呈现土壤盐分在流域局部空间的分布状况。
(3) 基于RF模型反演结果,三工河流域土壤盐分含量呈现南低北高的分布状况,土壤盐分高值区主要集中在流域西北部和中部。在9种环境协变量中,高程和地下水矿化度对土壤盐分反演精度影响最大,其次是pH值和土壤湿度,其他因素相对较小。
[1]
Ivushkin K, Bartholomeus H, Bregt A K, et al. Global mapping of soil salinity change[J]. Remote Sensing of Environment, 2019, 231(51): 111260.

[2]
Zhang H R, Fu X, Zhang Y N, et al. Mapping multi-depth soil salinity using remote sensing-enabled machine learning in the yellow river delta, China[J]. Remote Sensing, 2023, 15(24): 5640.

[3]
杨真, 王宝山. 中国盐渍土资源现状及改良利用对策[J]. 山东农业科学, 2015, 47(4): 125-130.

[Yang Zhen, Wang Baoshan. Present status of saline soil resources and countermeasures for improvement and utilization in China[J]. Shandong Agricultural Sciences, 2015, 47(4): 125-130.]

[4]
Hassani A, Azapagic A, Shokri N. Predicting long-term dynamics of soil salinity and sodicity on a global scale[J]. Proceedings of the National Academy of Sciences of the United States of America, 2020, 117(52): 33017-33027.

DOI PMID

[5]
Li J, Zhang T T, Shao Y, et al. Comparing machine learning algorithms for soil salinity mapping using topographic factors and Sentinel-1/2 data: A case study in the yellow river delta of China[J]. Remote Sensing, 2023, 15(9): 2332.

[6]
Wang Y G, Li Y. Land exploitation resulting in soil salinization in a desert-oasis ecotone[J]. Catena, 2013, 100: 50-56.

[7]
Wang J Z, Ding J L, Yu D L, et al. Capability of Sentinel-2 MSI data for monitoring and mapping of soil salinity in dry and wet seasons in the Ebinur Lake Region, Xinjiang, China[J]. Geoderma, 2019, 353(53): 172-187.

[8]
彭杰, 王家强, 向红英, 等. 土壤含盐量与电导率的高光谱反演精度对比研究[J]. 光谱学与光谱分析, 2014, 34(2): 510-514.

[Peng Jie, Wang Jiaqiang, Xiang Hongying, et al. Comparative study on hyperspectral inversion accuracy of soil salt content and electrical conductivity[J]. Spectroscopy and Spectral Analysis, 2014, 34(2): 510-514.]

PMID

[9]
Harti A E, Lhissou R, Chokmani K, et al. Spatiotemporal monitoring of soil salinization in irrigated Tadla Plain (Morocco) using satellite spectral indices[J]. International Journal of Applied Earth Observation and Geoinformation, 2016, 50(18): 64-73.

[10]
李建国, 濮励杰, 朱明, 等. 土壤盐渍化研究现状及未来研究热点[J]. 地理学报, 2012, 67(9): 1233-1245.

[Li Jianguo, Pu Lijie, Zhu Ming, et al. The present situation and hot issues in the salt-affected soil research[J]. Acta Geographica Sinica, 2012, 67(9): 1233-1245.

DOI

[11]
Wang Y G, Deng C Y, Liu Y, et al. Identifying change in spatial accumulation of soil salinity in an inland river watershed, China[J]. Science of The Total Environment, 2018, 621(47): 177-185.

[12]
Li H Y, Shi Z, Webster R, et al. Mapping the three-dimensional variation of soil salinity in a rice-paddy soil[J]. Geoderma, 2013, 195(47): 31-41.

[13]
Wang J Q, Peng J, Li H Y, et al. Soil salinity mapping using machine learning algorithms with the Sentinel-2 MSI in arid areas, China[J]. Remote Sensing, 2021, 13(2): 305.

[14]
Vermeulen D, Niekerk A V. Machine learning performance for predicting soil salinity using different combinations of geomorphometric covariates[J]. Geoderma, 2017, 299(51): 1-12.

[15]
Mohamed S A, Metwaly M M, Metwalli M R, et al. Integrating active and passive remote sensing data for mapping soil salinity using machine learning and feature selection approaches in arid regions[J]. Remote Sensing, 2023, 15(7): 1751.

[16]
Farifteh J, Meer F V D, Atzberger C, et al. Quantitative analysis of salt-affected soil reflectance spectra: A comparison of two adaptive methods (PLSR and ANN)[J]. Remote Sensing of Environment, 2007, 110(1): 59-78.

[17]
Golestani M, Ghahfarokhi Z M, Esfandiarpour-Boroujeni I, et al. Evaluating the spatiotemporal variations of soil salinity in Sirjan Playa, Iran using Sentinel-2A and Landsat-8 OLI imagery[J]. Catena, 2023, 231(51): 107375.

[18]
李小雨, 贾科利, 魏慧敏, 等. 基于随机森林算法的土壤含盐量预测[J]. 干旱区研究, 2023, 40(8): 1258-1267.

[Li Xiaoyu, Jia Keli, Wei Huimin, et al. Prediction of soil salt content based on the random forest algorithm[J]. Arid Zone Research, 2023, 40(8): 1258-1267.]

[19]
蒙莉娜, 丁建丽, 王敬哲, 等. 基于环境变量的渭干河-库车河绿洲土壤盐分空间分布[J]. 农业工程学报, 2020, 36(1): 175-181.

[Meng Lina, Ding Jianli, Wang Jingzhe, et al. Spatial distribution of soil salinity in Ugan-Kuqa River delta oasis based on environmental variables[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(1): 175-181.]

[20]
杨清, 范晓梅, 王林林, 等. 基于贝叶斯最大熵的黄河三角洲土壤含盐量空间分布预测[J]. 土壤, 2024, 56(2): 406-414.

[Yang Qing, Fan Xiaomei, Wang Linlin, et al. Prediction of spatial distribution of soil salinity content in Yellow River Delta based on Bayesian Maximum Entropy Model[J]. Soils, 2024, 56(2): 406-414.]

[21]
鲁如坤. 土壤农业化学分析方法[M]. 北京: 中国农业科技出版社, 2000.

[Lu Rukun, The Analysis Method of Soil Agricultural Chemistry[M]. Beijing: China Agricultural Science and Technology Press, 2000.]

[22]
陈炳铭, 冯文婷, 王玉刚, 等. 脱硫石膏在碱土改良中的无机固碳作用[J]. 土壤学报, 2024, 61(1): 247-257.

[Chen Bingming, Feng Wenting, Wang Yugang, et al. Inorganic carbon sequestration effect of desulfurized gypsum in alkaline soil improvement[J]. Acta Pedologica Sinica, 2024, 61(1): 247-257.]

[23]
Sarkar S K, Rudra R R, Sohan A R, et al. Coupling of machine learning and remote sensing for soil salinity mapping in coastal area of Bangladesh[J]. Scientific Reports, 2023, 13(1): 17056.

[24]
朱婉怡, 张振克, 郭新亚, 等. 马拉河流域植被生态需水特征及估算[J]. 生态学报, 2023, 43(18): 7523-7535.

[Zhu Wanyi, Zhang Zhenke, Guo Xinya, et al. Characteristics and estimation of vegetation ecological water demand in the Mara River Basin[J]. Acta Ecologica Sinica, 2023, 43(18): 7523-7535.]

[25]
马国林, 丁建丽, 韩礼敬, 等. 基于变量优选与机器学习的干旱区湿地土壤盐渍化数字制图[J]. 农业工程学报, 2020, 36(19): 124-131.

[Ma Guolin, Ding Jianli, Han Lijing, et al. Digital mapping of soil salinization in arid area wetland based on variable optimized selection and machine learning[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(19): 124-131.]

[26]
Huang Y, Zhao L. Review on landslide susceptibility mapping using support vector machines[J]. Catena, 2018, 165(46): 520-529.

[27]
王海江, 蒋天池, Yunger J A, 等. 基于支持向量机的土壤主要盐分离子高光谱反演模型[J]. 农业机械学报, 2018, 49(5): 263-270.

[Wang Haijiang, Jiang Tianchi, Yonger J A, et al. Hyperspectral inverse model for soil salt ions based on support vector machine[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(5): 263-270.]

[28]
Haq Y U, Shahbaz M, Asif H M S, et al. Spatial mapping of soil salinity Using Machine Learning and Remote Sensing in Kot Addu, Pakistan[J]. Sustainability, 2023, 15(17): 12943.

[29]
Bouquet A, Laabir M, Rolland J l, et al. Prediction of Alexandrium and Dinophysis algal blooms and shellfish contamination in French Mediterranean Lagoons using decision trees and linear regression: A result of 10 years of sanitary monitoring[J]. Harmful Algae, 2022, 115(21): 102234.

[30]
韩文霆, 崔家伟, 崔欣, 等. 基于特征优选与机器学习的农田土壤含盐量估算研究[J]. 农业机械学报, 2023, 54(3): 328-337.

[Han Wenting, Cui Jiawei, Cui Xin, et al. Estimation of farmland soil salinity content based on feature optimization and machine learning algorithms[J]. Transactions of the Chinese Society for Agricultural Machinery, 2023, 54(3): 328-337.]

[31]
陈琳, 任春颖, 王宗明, 等. 基于克里金插值的耕地表层土壤有机质空间预测[J]. 干旱区研究, 2017, 34(4): 798-805.

[Chen Lin, Ren Chunying, Wang Zongming, et al. Prediction of spatial distribution of topsoil organic matter content in cultivated land using Kriging methods[J]. Arid Zone Research, 2017, 34(4): 798-805.]

[32]
刘新, 郝媛媛, 花立民. 石羊河下游民勤盆地土壤盐分空间分异特征[J]. 干旱区研究, 2023, 40(10): 1615-1624.

[Liu Xin, Hao Yuanyuan, Hua Limin. Spatial differentiation characteristics of soil salinity in Minqin Basin, downstream of Shiyang River, China[J]. Arid Zone Research, 2023, 40(10): 1615-1624.]

[33]
王瑾杰, 丁建丽, 张子鹏, 等. 基于多模型对比的土壤盐分制图及不确定性研究[J]. 新疆大学学报(自然科学版), 2022, 39(5): 513-521, 529.

[Wang Jinjie, Ding Jianli, Zhang Zipeng, et al. Study on soil salinity mapping and uncertainty based on multi model comparison[J]. Journal of Xinjiang University (Natural Science Edition in Chinese and English), 2022, 39(5): 513-521, 529.]

[34]
王飞, 杨胜天, 丁建丽, 等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报, 2018, 34(22): 102-110.

[Wang Fei, Yang Shengtian, Ding Jianli, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(22): 102-110.]

[35]
段梦琦, 张晓光, 王豹. 黄河三角洲典型区土壤盐分空间分布预测方法研究[J]. 中国农业资源与区划, 2021, 42(8): 243-250.

[Duan Mengqi, Zhang Xiaoguang, Wang Bao. Prediction method of spatial distribution for soil salinity in typical areas of the yellow river delta[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2021, 42(8): 243-250.]

[36]
颜安, 蒋平安, 盛建东, 等. 玛纳斯河流域表层土壤盐分空间变异特征研究[J]. 土壤学报, 2014, 51(2): 410-414.

[Yan An, Jiang Ping’an, Sheng Jiandong, et al. Spatial variability of surface soil salinity in Manas River Basin[J]. Acta Pedologica Sinica, 2014, 51(2): 410-414.]

[37]
Ge X Y, Ding J L, Teng D X, et al. Updated soil salinity with fine spatial resolution and high accuracy: The synergy of Sentinel-2 MSI, environmental covariates and hybrid machine learning approaches[J]. Catena, 2022, 212(50): 106054.

[38]
卫雨西, 陈丽娟, 席海洋, 等. 石羊河流域土壤水分和电导率的空间分布特征[J]. 中国沙漠, 2023, 43(3): 264-273.

DOI

[Wei Yuxi, Chen Lijuan, Xi Haiyang, et al. Spatial differentiation of soil moisture and conductivity in Shiyang River Basin[J]. Journal of Desert Research, 2023, 43(3): 264-273.]

DOI

[39]
徐英, 葛洲, 王娟, 等. 基于指示Kriging法的土壤盐渍化与地下水埋深关系研究[J]. 农业工程学报, 2019, 35(1): 123-130.

[Xu Ying, Ge Zhou, Wang Juan, et al. Study on relationship between soil salinization and groundwater table depth based on indicator Kriging[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(1): 123-130.]

[40]
陈永宝, 胡顺军, 罗毅, 等. 新疆喀什地下水浅埋区弃荒地表层土壤积盐与地下水的关系[J]. 土壤学报, 2014, 51(1): 75-81.

[Chen Yongbao, Hu Shunjun, Luo Yi, et al. Relationship between salt accumulation in topsoil of deserted land and groundwater in areas with shallow groundwater table in Kashi, Xinjiang[J]. Acta Pedologica Sinica, 2014, 51(1): 75-81.]

[41]
麦麦提吐尔逊·艾则孜, 米热古力·艾尼瓦尔, 古丽孜巴·艾尼瓦尔, 等. 伊犁绿洲土壤盐渍化与浅层地下水水化学特征分析[J]. 干旱地区农业研究, 2015, 33(5): 193-200, 257.

[Mamattursun Eziz, Mihrigul Anwar, Gulziba Anwar, et al. Analysis on soil salinization and hydrochemical characteristics of shallow ground water in Ili Oasis[J]. Agricultural Research in the Arid Areas, 2015, 33(5): 193-200, 257.]

[42]
高婷婷, 丁建丽, 哈学萍, 等. 基于流域尺度的土壤盐分空间变异特征——以渭干河-库车河流域三角洲绿洲为例[J]. 生态学报, 2010, 30(10): 2695-2705.

[Gao Tingting, Ding Jianli, Ha Xueping, et al. The spatial variability of salt content based on river basin scale: A case study of the delta oasis in Weigan-Kuqa Watershed[J]. Acta Ecologica Sinica, 2010, 30(10): 2695-2705.]

文章导航

/