Ecosystem carbon flux inversion method combining LSTM and fuzzy mathematics

Ruixiang GAO; Geping LUO; Wenqiang ZHANG; Mingjuan XIE; Yuangang WANG

doi:10.12118/j.issn.1000-6060.2025.092

Arid Land Geography >

2025 , Vol. 48 >Issue 12: 2210 - 2219

DOI: https://doi.org/10.12118/j.issn.1000-6060.2025.092

Land Use and Carbon Cycle

Ecosystem carbon flux inversion method combining LSTM and fuzzy mathematics

Ruixiang GAO ^,¹^,² ,
Geping LUO ^,¹ ,
Wenqiang ZHANG ¹ ,
Mingjuan XIE ¹ ,
Yuangang WANG ¹

Expand

¹ Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, Xinjiang, China
² University of Chinese Academy of Sciences, Beijing 100049, China

Received date: 2025-02-24

Revised date: 2025-04-01

Online published: 2026-03-11

Fold

Abstract

This study proposes a carbon flux inversion model based on the long short-term memory (LSTM) network. A comprehensive Euclidean distance index is introduced by integrating FLUXNET flux tower observation data with corresponding remote-sensing biophysical parameter datasets to quantify data heterogeneity between training and testing sets. Furthermore, a fuzzy mathematics theory is incorporated to develop the inversion model. Models were developed using random forest, support vector machine, multiple linear regression, and LSTM algorithms through data preprocessing and model training. Results revealed that the LSTM network performed better than the other algorithms in carbon flux inversion. In addition, using the leave-one cross-validation strategy, many carbon flux machine learning models were developed to reflect the spatial heterogeneity of the surface, and the determination coefficient R² was used to evaluate the models. Results revealed that the comprehensive Euclidean distance was significantly negatively correlated with R². The constructed model was applied to the US flux station for verification, and the mean R² values of the total primary productivity and ecosystem respiration were both 0.72. Overall, this study proposed an effective carbon flux simulation method, which has good application potential.

Key words： machine learning; long short-term memory; remote sensing; carbon flux; fuzzy mathematics

Cite this article

Ruixiang GAO , Geping LUO , Wenqiang ZHANG , Mingjuan XIE , Yuangang WANG . Ecosystem carbon flux inversion method combining LSTM and fuzzy mathematics[J]. Arid Land Geography, 2025 , 48(12) : 2210 -2219 . DOI: 10.12118/j.issn.1000-6060.2025.092

生态时空变化模式一直是生态学研究中的关键任务^[1]。总初级生产力（Gross primary productivity，GPP）和生态系统呼吸（Ecosystem respiration，ER）作为表征碳通量的重要指标，是生态系统碳循环中的关键环节^[2-3]。随着机器学习算法的快速发展，它已成为生态模拟研究最受欢迎的工具之一,被广泛应用于模拟各类生物物理参量^[4]。虽然机器学习方法在碳通量反演领域具有优势，但由于全球碳通量观测站点空间分布稀疏且不均匀，其在区域生态系统碳通量模拟中的实际应用仍面临挑战^[5]。全球共享通量站仅数百个（如FLUXNET），主要分布在北美和欧洲^[6-7]。碳通量动态响应机制与地表植被参数（如叶面积指数）密切相关^[8-9]，但现有涡动协方差观测系统普遍缺乏植被参数的同步原位观测，制约了植被-大气界面碳交换过程的机理解析。所幸，遥感技术的快速发展为定量化监测地表植被覆盖情况提供了新的可能^[10]。尽管基于通量站数据以及遥感数据信息构建的碳通量机器学习模型具有一定应用前景，但其是否能够有效外推到新的地理位置或区域，以及外推结果的可靠性，仍然存在较大争议^[11-12]。

交叉验证是一种有效评估机器学习模型可靠性的方法。留一交叉验证是一种经典的交叉验证方法^[13-14]，即使用一部分或全部来自相同位置的数据用于验证模型，其余数据用于训练模型。因此，留一交叉验证法作为一种稳健的误差估计方法，能够反映模型在待预测点的精度。然而，当模型应用于无观测数据的新地理位置时，其适用性还需进一步的评估^[15]。自然环境中的空间异质性可能导致目标变量与特征空间（即解释变量）之间的关系存在显著的时空差异^[16]。尽管机器学习算法能够基于训练数据学习特征空间和目标变量之间高度复杂的关系和模式^[17-18]，但当新地理位置的数据显著偏离训练数据时，模型的预测结果会出现显著的偏差^[19]。针对这一问题，本文结合模糊数学的思想，使用特征空间的综合欧氏距离作为权重，融合多个模型的预测结果，从而减小模型的不确定性。

基于通量观测数据集和遥感数据构建的机器学习模型进行外推时，在遵循地理相似性理论下，若目标区域与源区域地理环境特征相似，其碳通量动态变化将呈现近似的规律^[20-21]。机器学习模型训练数据中的特征空间（由解释变量构成）与新地理位置上特征空间之间的综合欧氏距离，可作为衡量模型与新地理位置之间的差异或相似性的指标^[22-23]。

本项研究将探讨基于生态系统通量塔数据和相关的遥感以及地理数据构建的GPP和RE机器学习模型的外推适用性，并将模型在美国通量进行验证。研究目标包括：（1）利用随机森林（Random forest，RF）、支持向量机（Support vector machine，SVM）、多元线性回归（Multiple linear regression，MLR）和长短期记忆网络（Long short-term memory，LSTM）算法构建模型，比较不同机器学习模型算法在碳通量模型预测方面中的优劣。（2）采用留一交叉验证，分别建立数百个GPP和RE的机器学习模型；计算训练数据集和验证数据集之间的综合欧式距离，并分析决定系数（R²）和综合欧式距离之间的关系。（3）最后以综合欧式距离为权重，将碳通量模型应用于美国通量站数据进行验证。

1 数据与方法

1.1 研究区概况

涡度相关法是观测陆地-大气间碳交换通量的微气象学观测技术^[24]，通过测量目标气体的浓度和近地层的湍流状况来获得该气体的通量值^[25-26]。该方法已成为研究森林、草地等植被与大气CO₂交换最直接且有效的观测方法^[27-29]。近年来，随着多个区域及大陆尺度的通量观测网络相继建立，碳通量从原位尺度到区域尺度的观测与估算得到了有效的支持。FLUXNET2015通量网为陆地生态系统中碳、水和能量通量的长期监测提供了宝贵数据，并推动了相关领域的研究进展。然而，由于通量站点的分布不均且稀少（表1），这一问题仍然是制约全球碳循环研究的关键因素。

表1 通量塔汇总表

Tab. 1 Flux tower summary table

干旱指数分区	站点数量
干旱区	15
半干旱区	44
半湿润区	20
湿润区	111

1.2 数据来源

表2列出本研究所需要数据和来源，包括 FLUXNET2015数据、遥感数据、地形数据和土壤数据。本研究采用的日尺度要素包括GPP、ER、最高气温（T_max）、最低气温（T_min）、平均气温（T_mean）、降水量（Precipitation，P）、风速（Wind speed，WS）、饱和水汽压差（Vapor pressure deficit，VPD）等。此外，本研究还获取了84个美国通量站数据，此部分通量站点与FLUXNET2015站点不重合，这部分数据用于模型的评估，不参与模型训练。

表2 解释变量汇总表

Tab. 2 List of the explanatory variables used in this study

解释变量	描述	单位	时间/空间分辨率	来源
T_max	最高气温	℃	日	通量塔
T_min	最低气温	℃	日	通量塔
T_mean	平均气温	℃	日	通量塔
P	降水量	mm	日	通量塔
WS	风速	m·s^-1	日	通量塔
VPD	大气水气压差	hPa	日	通量塔
LAI	叶面积指数	m²	8 d/500 m	MODIS
DSR	向下短波辐射	W·m^-2	d/5 km	Seoul National
DEM	高程	m	静态变量	GLOBE from NOAA
Aspect	坡向	(°)	静态变量	GLOBE from NOAA
Slope	坡度	(°)	静态变量	GLOBE from NOAA
Clay	表土黏土占比	%	静态变量	HWSD from FAO
Sand	表土砂占比	%	静态变量	HWSD from FAO
Silt	表土粉砂占比	%	静态变量	HWSD from FAO

本研究主要利用的遥感数据为叶面积指数（Leaf area index，LAI），源自于中分辨率成像光谱辐射计（MODIS）的MOD15A2H产品^[30-31]。向下短波辐射（Downwelling shortwave radiation，DSR）数据源自呼吸地球系统辐射（Harmonized World Soil Datab，BESS）v1数据集^[32]。通量塔的土壤数据源自统一世界土壤数据库（HWSD），包括黏土占比（Clay）、沙土占比（Sand）和粉砂占比（Silt）。通量塔的地形数据源自于GLOBE from NOAA的数字高程模型（Digital elevation model，DEM）^[33]，包括高程、坡向（Aspect）和坡度（Slope）。

1.3 数据处理

在遥感数据集中，通过质量评估/控制指标消除了质量较差的像素^[34]。为了提高每个通量站对应位置上遥感变量的准确性，本文计算了以通量站位置为中心的500 m×500 m区域内的平均像素值。这种方法不仅最大限度地减少了地理位置差异，而且还可以更准确地表示通量塔的足迹^[35]。上述MOD15A2H和BESS数据集的处理是使用Google Earth Engine平台执行的^[36]。涡度协方差塔通量观测数据存在数据缺测。此外，基于遥感的生物物理参数还存在时间分辨率不匹配的问题。本文采用滑动窗口插值方法^[37]来填补缺测的数据。插值过程在2个维度上进行；首先沿时间序列插值以填补数据空缺；其次根据一年中的第几天（Day of year，DOY）序列进行年际间插值。这种方法尽可能确保数据有较高的完整性。

1.4 研究方法

1.4.1 碳通量模型构建

干旱、半干旱、半湿润和湿润地区不同的气候环境条件，导致碳通量产生机理和过程存在差异。基于干旱指数气候分类方案^[38]，将全球通量站划分干旱区、半干旱区、半湿润区和湿润区，形成不同气候分区通量站数据集（表1）。干旱区内获得FLUXNET2015数据29585条数据，半干旱区内90215条数据，半湿润区55150条数据，湿润区内300955条数据。在4个气候区内分别处理得到38351、65301、28490、100444条美国通量站数据用于验证。采用随机森林、支持向量机、多元线性回归和长短期记忆网络^[39-40]算法建立GPP和ER的模拟模型。

在每一个分区当中，均采用留一交叉验证策略来建立碳通量模型，即需要从通量数据集中依次取出一个通量站用于模型评估，利用其余通量站进行模型训练（图1），每次验证选取的通量站点不同，模型验证数据的数据量也不同。构建碳通量模型时，对每一个通量站迭代轮换，可产生与通量站数量相同的碳通量模型，并用R²评估模型的稳健性和精确度。至此每个区域内可建立与通量站数量相同的碳通量模型。采用上述分区建模的方法，不同模型能够表征不同气候类型碳通量产生过程的异质性，从而增强碳通量模型的有效性和适用性。

显示原图|下载原图ZIP|生成PPT

图1 数据处理与模型构建流程图

注：R²为决定系数。下同。

Fig. 1 Flowchart of data processing and model building

1.4.2 碳通量模型敏感性分析

敏感性分析的各种方法长期以来在深度学习领域内被广泛应用。其中，基于梯度反向传播算法的方法在卷积神经网络的可视化解释中占据主导地位^[41]，通过解析输入特征空间各维度对输出响应值的梯度敏感性，实现神经网络决策逻辑的定量表征。通过计算输入目标V_i相对于x_i偏导数的绝对值来计算敏感性值（S_i）。

（1）${S}_{i}\left(x\right)=\left|\frac{\partial {V}_{i}\left(x\right)}{\partial {x}_{i}}\right|$

式中：V_i(x)为输入目标值；S_i(x)为敏感性值；x_i为输入的第i个解释变量。

在本研究中，使用基于梯度的方法来依次计算14个解释变量的重要性，从而确定每个解释变量对LSTM模型的影响。通过分析这些解释变量的敏感性，可以更深入地理解影响LSTM碳通量模型稳定性的因素。

1.4.3 综合欧式距离的计算

本文提出一种综合欧式距离计算方法，表征LSTM模型训练集和验证集之间的差异。首先将模型训练集和验证集中的解释变量按DOY计算多年平均值，作为解释变量的平均DOY数据。然后计算模型训练集和验证集的平均DOY数据之间的欧氏距离，得到14个解释变量的欧氏距离（式2）。

（2）$\mathrm{E}\mathrm{D}=\sqrt{\stackrel{365}{\displaystyle\sum _{i}}({v}_{i}-{V}_{i}{)}^{2}}$

式中：ED为欧式距离；v_i为模型训练集解释变量DOY的平均值；V_i为测试集解释变量的DOY的平均值。

将这14个欧氏距离乘以归一化后解释变量的敏感性（重要性），得到碳通量模型训练集与验证集之间的综合欧式距离（图2，式3）。

（3）$\mathrm{D}\mathrm{i}{\mathrm{s}}_{n}=\mathrm{M}\mathrm{E}\mathrm{A}\mathrm{N}\left[\stackrel{14}{\displaystyle\sum _{i}}(\mathrm{E}{\mathrm{D}}_{i}\times {W}_{i})\right]$

式中：Dis_n为模型n的综合欧式距离；ED_i为解释变量i的欧氏距离；W_i为解释变量i的重要性。

显示原图|下载原图ZIP|生成PPT

图2 综合欧式距离计算流程图

注：DOY为一年中的第几天；EV_i为第i个解释变量；v_ij为模型训练集解释变量的平均DOY值；V_ij为模型测试集解释变量的平均DOY值；W_ij为模型j的第i个解释变量的敏感性；ED_ij为模型j的第i个解释变量与测试集的欧式距离；Dis_n为第n个模型的训练集和测试集之间的综合欧氏距离。

Fig. 2 Flowchart of aggregate euclidean distance calculation

1.4.4 碳通量的模拟

LSTM碳通量模型在应用时，首先计算待预测点与每个LSTM模型训练集之间的综合欧式距离。通常会选择综合欧式距离最小的LSTM模型作为待预测点碳通量的模拟模型。结合模糊数学的思想，并不是综合欧氏距离最小的模型就一定是该待预测点的最适用模型。基于环境相似性^[42-43]，使用综合欧式距离来量化每个待预测点上不同碳通量模型预测结果的权重（式4）。

（4）$Y=\stackrel{n}{\displaystyle\sum _{i}}\left(\begin{array}{cc}1-& \frac{\mathrm{D}\mathrm{i}{\mathrm{s}}_{i}}{\stackrel{n}{\displaystyle\sum _{j}}\mathrm{D}\mathrm{i}{\mathrm{s}}_{j}}\end{array}\right){y}_{i}$

式中：Dis_i、$\mathrm{D}\mathrm{i}{\mathrm{s}}_{j}$分别为第i个、j个模型与当前待预测点之间的综合欧式距离；y_i为第i个模型的碳通量预测结果；Y为多模型融合后的碳通量预测结果。

2 结果与分析

2.1 不同机器学习模型性能对比

为进一步评估不同机器学习算法在碳通量模拟中的表现，使用RF、SVM和MLR建立碳通量模型，并与LSTM模型进行对比。通过留一交叉验证方法对模型进行验证，结果显示GPP模型和ER模型的整体表现较好。具体来看，以上4种机器学习模型构建的GPP和ER模型的决定系数（R²）均值和中位数均在0.5以上（图3）。相比之下，LSTM模型的表现优于其他3种机器学习模型，其在不同区域内构建的碳通量模型性能更加稳定。在每个气候区内，LSTM模型在GPP和ER建模中具有显著优势，特别是在湿润区表现较为突出（图3）。在湿润区，LSTM模型预测精度较高，且箱线图误差棒较短，表明模型性能的稳定性较强；而在干旱区，尽管预测性能的离散程度较高，LSTM模型的中位数和均值依然明显优于其他机器学习模型。在半干旱区和半湿润区，与其他模型相比LSTM模型仍然保持一定优势。已有研究也验证了LSTM在碳通量预测中的潜力^[44-45]，在长期趋势和短期波动的捕捉上更具优势。

显示原图|下载原图ZIP|生成PPT

图3 不同机器学习碳通量模型决定系数（R²）箱线

注：RF为随机森林模型；MLR为多元线性回归；LSTM为长短期记忆网络；SVM为支持向量机。

Fig. 3 R² boxplots of machine learning carbon flux models

本研究使用均方根误差（Root mean square error，RMSE）来评估模型的精度，表中为RMSE的均值和方差。表3列出了4种机器学习模型在GPP和ER留一验证中的RMSE均值。在GPP模型当中，LSTM模型在干旱区、半干旱区、半湿润区优势较为明显。在ER模型当中，LSTM模型在干旱区和半湿润区优势明显。GPP和ER的建模当中，在湿润区LSTM模型在表现与RF较为接近，但均值仍然高于RF模型。总体而言，在4个区域内，LSTM模型在GPP和ER建模当中，RMSE均值均低于其余3种模型，表现出更好的稳定性。

表3 模型均方根误差均值和方差

Tab. 3 Mean and variance of root mean square error of the model 　　　/g C·m^-2·d^-1

干旱指数分区	LSTM模型	RF模型	SVM模型	MLR模型
干旱区（GPP）	0.62（±0.37）	0.80（±0.20）	0.98（±0.55）	0.99（±0.32）
干旱区（ER）	0.78（±0.40）	0.99（±0.65）	1.01（±0.69）	1.17（±0.66）
半干旱区（GPP）	0.74（±0.50）	0.81（±0.52）	0.84（±0.33）	0.80（±0.51）
半干旱区（ER）	0.85（±1.13）	0.96（±1.07）	0.87（±0.76）	0.90（±0.91）
半湿润区（GPP）	1.06（±2.04）	1.31（±2.90）	1.29（±2.64）	2.99（±9.24）
半湿润区（ER）	0.80（±1.14）	0.84（±0.94）	0.90（±1.45）	1.95（±1.05）
湿润区（GPP）	0.61（±0.39）	0.63（±0.34）	0.78（±0.29）	0.70（±0.55）
湿润区（ER）	0.63（±0.45）	0.64（±0.51）	0.83（±0.46）	0.78（±0.70）

注：RF为随机森林模型；MLR为多元线性回归；LSTM为长短期记忆网络；SVM为支持向量机。括号内数值为RMSE的方差；括号外数值为均值。

2.2 碳通量模型敏感性分析

对LSTM构建的碳通量模型进行敏感性分析，发现在不同气候区GPP对解释变量的敏感性存在差异（图4a~d）。在半干旱和半湿润区，GPP对LAI和DSR都较为敏感，在干旱区GPP对LAI和T_min敏感，而在湿润地区，GPP对T_min和DSR敏感。GPP对所有气象变量的敏感性而言，干旱、半干旱和半湿润区的T_min和VPD较高，湿润区的T_min和T_max较高。GPP对非气候变量的敏感性而言，LAI和DSR在所有气候区均表现出较高的敏感性。ER对解释变量的敏感性在不同气候区也存在差异（图4e~h）。在干旱和半干旱地区，ER对LAI、T_min和P较为敏感；在半湿润地区，ER对T_min、LAI和T_mean较为敏感；在湿润地区，ER对气温的敏感性最高。ER对所有气象变量的敏感性方面，在干旱和半干旱地区，T_min、P和VPD敏感性最高；在湿润和半湿润地区，气温变量的敏感性较高；在非气候变量方面，LAI在所有地区都表现出较高的敏感。

显示原图|下载原图ZIP|生成PPT

图4 总初级生产力和生态系统呼吸模型敏感性分析

注：图中y轴为解释变量详细描述见表2。

Fig. 4 Sensitivity analysis of gross primary productivity and ecosystem respiration model

2.3 综合欧式距离与R²的关系

留一交叉验证是一种针对未知空间背景进行有针对性的验证策略。本文提出的综合欧氏距离表征了训练数据与测试数据之间的空间环境差异。在GPP和ER模型中，观察到留一交叉验证的R²与综合欧氏距离呈负相关，即综合欧氏距离越大，R²值越小。虽然这种关系可能不是线性的，但具有负相关的趋势。这种负相关性在GPP模型和ER模型中都非常显著（P<0.01）。但存在一些R²较大的值，其综合欧氏距离也较大（图5）。为了减少这些数据在模型迁移过程中带来的误差，本文选取R²大于0.5的综合欧氏距离的均值作为阈值，以确保得到更适用的碳通量模型。通过综合欧式距离阈值和R²条件选取了图5右上角的模型。

显示原图|下载原图ZIP|生成PPT

图5 综合距离与R²的关系

Fig. 5 Relationship between aggregated distance and R²

2.4 LSTM模型的验证

为验证模型预测结果的有效性，本研究获取了美国的通量站点数据^[46]，这部分数据不参与模型的构建。收集并处理了美国通量站数据共84个，其中干旱地区10个，半干旱地区30个，半湿润地区5个，湿润地区39个。分别在4个区域内，计算每一个美国通量站数据与每一个碳通量模型训练数据之间的综合欧式距离，以综合欧式距离为权重，对多个碳通量模型的预测结果进行加权，使用碳通量观测数据进行评估。在每个分区内GPP和ER的R²均值均大于0.6（图6）。其中湿润区、半湿润区的模拟效果最好，干旱区和半干旱区的R²略低于湿润区。总体而言，GPP和ER的R²均值均为0.72。

显示原图|下载原图ZIP|生成PPT

图6 美国通量站验证R²箱线图

Fig. 6 Boxplot of R² validation at US flux towers

3 讨论

在涡动协方差观测网络数据稀疏性约束下，碳通量时空动态模拟面临挑战。由于空间异质性的存在，构建的碳通量模型在应用和外推时存在不确定性。新地理位置与碳通量模型之间地理环境的差异来自于环境和气候因素，本研究用特征空间中的综合欧氏距离来量化这种差异。特定碳通量机器学习模型的训练数据与新地理位置之间的特征空间综合欧氏距离越大，R²越低（图5）。然而，综合欧氏距离只能表征特征空间中包含的解释变量（气温、降水量等）之间的差异。除了环境因素外，植被类型也是影响碳通量的关键因素之一。然而量化不同植被类型对碳通量影响的差异存在挑战。为此，未来需要持续完善碳通量影响因素的研究，以减少模型的不确定性。

本研究采用LSTM结合模糊数学，来建立碳通量模型，并在美国通量站上进行验证。尽管取得了一定进展，但仍存在许多需要进一步讨论的方面。碳通量模型使用的解释变量为已知影响碳通量的因素。这些变量通常包括气候变量，如气温、辐射、降水量和土壤等。然而，目前对于碳通量驱动因素的理解仍然不完整。需进一步研究生物和非生物因素对碳通量的影响。本文采用梯度法，得到碳通量模型解释变量的敏感性。梯度法能够计算解释变量全局的重要性，但不能给出不同解释变量之间的联合重要性。解释变量重要性作为计算综合欧式距离的一个关键环节，将会对模型的外推和应用产生影响。使用更加完善的特征重要性分析技术可能会为碳通量的外推和应用提供更好的预测结果。

4 结论

本研究中，使用RF、SVM、MLR和LSTM构建了碳通量（GPP和ER）模型。在GPP和ER模型中LSTM的性能优于其他模型，与其对时间序列数据的记忆和学习能力相关。与其3种机器学习方法相比，LSTM能够更有效地捕捉复杂的非线性关系。综上所述，LSTM模型在GPP和ER的建模中表现优异，其精度优于SVM、RF和MLR模型，为区域碳通量动态预测提供了重要工具和理论支持。同时，也进一步验证了LSTM模型在生态系统建模中的广泛应用潜力。

本研究提出了一种特征空间综合欧式距离计算方法。研究结果表明，综合欧式距离与R²之间为显著负相关，表明训练数据与测试数据之间的综合欧式距离可作为模型在外推和应用时的适用性指标。本文提出了一种结合LSTM和模糊数学的碳通量模拟方法。通过留一验证，建立数百个碳通量模型。在模型外推时，以待预测点与每个碳通量模型之间的综合欧式距离为权重，将多个碳通量模型的预测结果进行加权。将此方法在美国通量站数据上验证，GPP和ER的R²均值均为0.72。表明本研究提出了一种有效的碳通量模拟方法。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Kanevski M, Pozdnoukhov A, Timonin V. Machine learning for spatial environmental data: Theory, applications, and software[M]. New York: EPFL Press, 2009: 40-52.

[2]	朴世龙, 何悦, 王旭辉, 等. 中国陆地生态系统碳汇估算: 方法、进展、展望[J]. 中国科学: 地球科学, 2022, 52(6): 1010-1020. [Piao Shilong, He Yue, Wang Xuhui, et al. Estimation of carbon sinks in terrestrial ecosystems in China: Methods, progress, and prospects[J]. Scientia Sinica (Terrae), 2022, 52(6): 1010-1020.]

[3]

Zhan

W W

, Yang

, Ryu

, et al. Two for one: Partitioning CO₂ fluxes and understanding the relationship between solar-induced chlorophyll fluorescence and gross primary productivity using machine learning[J]. Agricultural and Forest Meteorology, 2022, 321: 108980, doi: 10.1016/j.agrformet.2022.108980.

[4]	Pichler M, Hartig F. Machine learning and deep learning: A review for ecologists[J]. Methods in Ecology and Evolution, 2023, 14(4): 994-1016. DOI

[5]	Reichstein M, Camps-Valls G, Stevens B, et al. Deep learning and process understanding for data-driven Earth system science[J]. Nature, 2019, 566(7743): 195-204. DOI

[6]	Hungershoefer K, Breon F-M, Peylin P, et al. Evaluation of various observing systems for the global monitoring of CO₂ surface fluxes[J]. Atmospheric Chemistry and Physics, 2010, 10(21): 10503-10520.

[7]	Ciais P, Peylin P, Bousquet P. Regional biospheric carbon fluxes as inferred from atmospheric CO₂ measurements[J]. Ecological Applications, 2000, 10(6): 1574-1589.

[8]	Foley J A, Prentice I C, Ramankutty N, et al. An integrated biosphere model of land surface processes, terrestrial carbon balance, and vegetation dynamics[J]. Global Biogeochemical Cycles, 1996, 10(4): 603-628. DOI

[9]	Houghton R A, House J I, Pongratz J, et al. Carbon emissions from land use and land-cover change[J]. Biogeosciences, 2012, 9(12): 5125-5142. DOI

[10]	Liang S. Quantitative remote sensing of land surfaces[M]. Canada: John Wiley & Sons, 2005: 10-22.

[11]	Liu X, Lu D, Zhang A, et al. Data-driven machine learning in environmental pollution: Gains and problems[J]. Environmental Science & Technology, 2022, 56(4): 2124-2133. DOI

[12]	Tuia D, Kellenberger B, Beery S, et al. Perspectives in machine learning for wildlife conservation[J]. Nature Communications, 2022, 13(1): 792, doi: 10.1038/s41467-022-27980-y. PMID

[13]	Silva L A, Zanella G. Robust leave-one-out cross-validation for high-dimensional Bayesian models[J]. Journal of the American Statistical Association, 2023, 119(547): 2369-2381. DOI

[14]	Watson G L. On model determination, prediction and statistical learning: The case of space-time data[M]. California: University of California, Los Angeles, 2021: 1-33.

[15]	Meyer H, Pebesma E. Predicting into unknown space? Estimating the area of applicability of spatial prediction models[J]. Methods in Ecology and Evolution, 2021, 12(9): 1620-1633. DOI

[16]	Xu Z, Peng J, Dong J, et al. Spatial correlation between the changes of ecosystem service supply and demand: An ecological zoning approach[J]. Landscape and Urban Planning, 2022, 217: 104258, doi: 10.1016/j.landurbplan.2021.104258.

[17]	Shafahi A, Huang W R, Najibi M, et al. Poison frogs! targeted clean-label poisoning attacks on neural networks[J]. Advances in Neural Information Processing Systems, 2018, 31: 42, doi: 10.48550/arXiv.1804.00792.

[18]	Singla A, Bertino E, Verma D. Preparing network intrusion detection deep learning models with minimal data using adversarial domain adaptation[R]. United States:Proceedings of the 15^th ACM Asia Conference on Computer and Communications Security, 2020.

[19]	Gu X, Easwaran A. Towards safe machine learning for cps: Infer uncertainty from training data[R]. Montreal, QC, Canada:In 10^thACM/IEEE International Conference on Cyber-Physical Systems, 2019.

[20]	Zhu A X, Lu G, Liu J, et al. Spatial prediction based on Third Law of Geography[J]. Annals of GIS, 2018, 24(4): 225-240. DOI

[21]	Zhu A, Lü G, Zhou C, et al. Geographic similarity: Third law of geography[J]. Journal of Geo-information Science, 2020, 22(4): 673-679.

[22]	Jegou H, Douze M, Schmid C. Product quantization for nearest neighbor search[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 33(1): 117-128. DOI

[23]	Sheridan R P, Feuston B P, Maiorov V N, et al. Similarity to molecules in the training set is a good discriminator for prediction accuracy in QSAR[J]. Journal of Chemical Information and Computer Sciences, 2004, 44(6): 1912-1928. PMID

[24]	于贵瑞, 王秋凤, 朱先进. 区域尺度陆地生态系统碳收支评估方法及其不确定性[J]. 地理科学进展, 2011, 30(1): 103-113. DOI [Yu Guirui, Wang Qiufeng, Zhu Xianjing. Methods and uncertainties in evaluating the carbon budgets of regional terrestrial ecosystems[J]. Progress in Geography, 2011, 30(1): 103-113.] DOI

[25]	李宏业, 谢惠春. 基于涡度相关法的不同生态系统碳通量研究进展[J]. 青海草业, 2024, 33(3): 33-38. [Li Hongye, Xie Huichun. Research progress on carbon fluxes in different ecosystems based on eddy correlation method[J]. Qinghai Prataculture, 2024, 33(3): 33-38.]

[26]	Massman W J, Lee X. Eddy covariance flux corrections and uncertainties in long-term studies of carbon and energy exchanges[J]. Agricultural and Forest Meteorology, 2002, 113(1): 121-144. DOI

[27]	Yu G, Fu Y, Sun X, et al. Recent progress and future directions of ChinaFLUX[J]. Science in China Series D: Earth Sciences, 2006, 49(Suppl. 2): 1-23.

[28]	陈世苹, 游翠海, 胡中民, 等. 涡度相关技术及其在陆地生态系统通量研究中的应用[J]. 植物生态学报, 2020, 44(4): 291-304. DOI [Chen Shiping, You Cuihai, Hu Zhongmin, et al. Eddy covariance technique and its applications in flux observations of terrestrial ecosystems[J]. Chinese Journal of Plant Ecology, 2020, 44(4): 291-304.] DOI

[29]	岳斌, 余赛芬, 董晶晶, 等. 温室气体通量测量方法及进展[J]. 光学学报, 2023, 43(18): 90-102. [Yu Bing, Yu Saifen, Dong Jingjing, et al. Measurement methods and progress of greenhouse gas flux[J]. Optics Journal, 2023, 43(18): 90-102.]

[30]	Knyazikhin Y. MODIS leaf area index (LAI) and fraction of photosynthetically active radiation absorbed by vegetation (FPAR) product (MOD15) algorithm theoretical basis document[DB/OL]. [1999-04-30]. http://eospso gsfc nasa gov/atbd/modistables html.

[31]	Myneni R B, Hoffman S, Knyazikhin Y, et al. Global products of vegetation leaf area and fraction absorbed PAR from year one of MODIS data[J]. Remote Sensing of Environment, 2002, 83(1-2): 214-231. DOI

[32]	Ryu Y, Jiang C, Kobayashi H, et al. MODIS-derived global land products of shortwave radiation and diffuse and total photosynthetically active radiation at 5 km resolution from 2000[J]. Remote Sensing of Environment, 2018, 204: 812-825. DOI

[33]	Hastings D, Dunbar P, Elphingstone G, et al. SAFARI 2000 digital elevation model, 1-km (GLOBE)[J]. ORNL Distributed Active Archive Center (DAAC) Dataset, 2002, 630, doi: 10.3334/ORNLDAAC/630.

[34]	Zhang W, Luo G, Chen C, et al. Quantifying the contribution of climate change and human activities to biophysical parameters in an arid region[J]. Ecological Indicators, 2021, 129: 107996, doi: 10.1016/j.ecolind.2021.107996.

[35]	Xiao J F, Zhuang Q L, Law B E, et al. Assessing net ecosystem carbon exchange of US terrestrial ecosystems by integrating eddy covariance flux measurements and satellite observations[J]. Agricultural and Forest Meteorology, 2011, 151(1): 60-69. DOI

[36]	Gorelick N, Hancher M, Dixon M, et al. Google Earth Engine: Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment, 2017, 202: 18-27. DOI

[37]	Kulanuwat L, Chantrapornchai C, Maleewong M, et al. Anomaly detection using a sliding window technique and data imputation with machine learning for hydrological time series[J]. Water, 2021, 13(13): 1862, doi: 10.3390/w13131862.

[38]	Nash D J. World atlas of desertification[J]. The Geographical Journal, 1999, 165: 325-326. DOI

[39]	Hochreiter S, Schmidhuber J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI PMID

[40]	Graves A, Graves A. Supervised sequence labelling with recurrent neural networks[M]. New York Dordrecht London: Springer-Verlag Berlin Heidelberg, 2012: 37-45.

[41]	Ancona M, Ceolini E, Öztireli C, et al. Explainable AI:Interpreting, explaining and visualizing deep learning[M]. Switzerlan: Springer Nature Switzerland AG, 2019: 169-191.

[42]	Zhu A X. Measuring uncertainty in class assignment for natural resource maps under fuzzy logic[J]. Photogrammetric Engineering and Remote Sensing, 1997, 63(10): 1195-1201.

[43]	Fan N Q, Zhao F H, Zhu L J, et al. Digital soil mapping with adaptive consideration of the applicability of environmental covariates over large areas[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 113: 102986, doi: 10.1016/j.jag.2022.102986.

[44]	Farahani M A, Goodwell A E. Causal drivers of land-atmosphere carbon fluxes from machine learning models and data[J]. Journal of Geophysical Research: Biogeosciences, 2024, 129(6): e2023JG 007815, doi: 10.1029/2023JG007815.

[45]	Huang C, He W, Liu J, et al. Exploring the potential of long short-term memory networks for predicting net CO₂ exchange across various ecosystems with multi-source data[J]. Journal of Geophysical Research: Atmospheres, 2024, 129(7): e2023JD040418, doi: 10.1029/2023JD040418.

[46]	Novick K A, Biederman J, Desai A, et al. The AmeriFlux network: A coalition of the willing[J]. Agricultural and Forest Meteorology, 2018, 249: 444-456. DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 数据与方法

1.1 研究区概况

表1 通量塔汇总表

1.2 数据来源

表2 解释变量汇总表

1.3 数据处理

1.4 研究方法

1.4.1 碳通量模型构建

图1 数据处理与模型构建流程图

1.4.2 碳通量模型敏感性分析

1.4.3 综合欧式距离的计算

图2 综合欧式距离计算流程图

1.4.4 碳通量的模拟

2 结果与分析

2.1 不同机器学习模型性能对比

图3 不同机器学习碳通量模型决定系数（R2）箱线

表3 模型均方根误差均值和方差

2.2 碳通量模型敏感性分析

图4 总初级生产力和生态系统呼吸模型敏感性分析

2.3 综合欧式距离与R2的关系

图5 综合距离与R2的关系

2.4 LSTM模型的验证

图6 美国通量站验证R2箱线图

3 讨论

4 结论

References

图3 不同机器学习碳通量模型决定系数（R²）箱线

2.3 综合欧式距离与R²的关系

图5 综合距离与R²的关系

图6 美国通量站验证R²箱线图