生态与环境

基于XGBoost的干旱区典型绿洲主要作物需水量预测模型研究

  • 王伟杰 , 1, 2, 3 ,
  • 于洋 , 1, 2, 3 ,
  • 孙凌霄 1, 3 ,
  • 何婧 1, 3 ,
  • 张凌云 1, 2, 3
展开
  • 1 中国科学院新疆生态与地理研究所, 干旱区生态安全与可持续发展重点实验室, 新疆 乌鲁木齐 830011
  • 2 中国科学院大学, 北京 100049
  • 3 新疆策勒荒漠草地生态系统国家野外科学观测研究站, 新疆 策勒 848300
于洋(1986-),男,研究员,主要从事干旱区生态水文与环境演变. E-mail:

王伟杰(2000-),女,硕士研究生,主要从事农业干旱方面研究. E-mail:

收稿日期: 2024-12-10

  修回日期: 2025-03-13

  网络出版日期: 2026-03-11

基金资助

国家自然科学基金青年基金资助项目(E1120103)

中国科学院基础与交叉前沿科研B类先导专项(XDB0720200)

新疆维吾尔自治区重点研发计划项目(2022B01032-4)

Prediction model of water requirements for main crops in typical oases in arid areas based on XGBoost

  • Weijie WANG , 1, 2, 3 ,
  • Yang YU , 1, 2, 3 ,
  • Lingxiao SUN 1, 3 ,
  • Jing HE 1, 3 ,
  • Lingyun ZHANG 1, 2, 3
Expand
  • 1 Key Laboratory of Ecological Security and Sustainable Development in Arid Zones, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, Xinjiang, China
  • 2 University of Chinese Academy of Sciences, Beijing 100049, China
  • 3 National Field Scientific Observatory of Desert Grassland Ecosystems in Cele, Cele 848300, Xinjiang, China

Received date: 2024-12-10

  Revised date: 2025-03-13

  Online published: 2026-03-11

摘要

通过探索策勒绿洲主要作物需水量的预测模型,直接建立气象因素与作物生长特性同作物需水量之间的复杂联系,有效克服了应用彭曼公式时所面临的数据获取难题,从而为干旱区域绿洲内作物需水量的估算提供了科学依据。研究结合使用了彭曼公式及作物系数法,以每日作物需水量作为目标变量,并根据归因分析结果选取特定气象参数来构建极限梯度提升树(XGBoost)需水量预测模型,同时确定了最佳的基础学习器类型。结果表明:(1) 基于XGBoost回归算法的分析显示,相对湿度、日照时间和最高温度是影响需水量的关键气象因子,重要性合计占比达到了75.81%。(2) 相较于gblinear-XGBoost模型而言,采用gbtree-XGBoost方法构建的模型表现出更高的准确性,决定系数提升了大约84.35%,而均方根误差则降低了约0.625,表明需水量预测值与实际作物需水量之间存在显著相关性。该预测模型能有效反映作物需水规律,gbtree-XGBoost模型可作为策勒绿洲灌溉指导和水资源调配的有力工具,为干旱区绿洲农业水资源高效管理提供了重要支撑。

本文引用格式

王伟杰 , 于洋 , 孙凌霄 , 何婧 , 张凌云 . 基于XGBoost的干旱区典型绿洲主要作物需水量预测模型研究[J]. 干旱区地理, 2025 , 48(12) : 2087 -2098 . DOI: 10.12118/j.issn.1000-6060.2024.756

Abstract

Climate change and water scarcity significantly threaten agriculture in arid regions. The Cele Oasis, located at the southern margin of the Taklimakan Desert in Xinjiang, China, is a typical arid-area oasis with a fragile ecology. An accurate prediction of the water requirements for cultivating crops in this area is crucial for the rational allocation of water resources and the development of sustainable agricultural practices. This study is dedicated to designing a prediction model applicable to the water requirements of the major crops in the Cele Oasis, revealing the intricate relationships among meteorological factors, crop growth characteristics, and water requirements, and circumventing the data-acquisition challenges associated with the Penman formula. This research integrated the Penman formula with the crop coefficient method. The daily water requirement was designated as the target variable. Based on the attribution analysis results, relevant meteorological parameters such as relative humidity, sunshine hours, and maximum temperature were selected to construct “XGBoost”, a water requirement prediction model. Moreover, different base learner types of XGBoost, including gbtree, gblinear, and dart, were explored to identify which among them was most suitable for the model.The results of this study were remarkable. XGBoost-based regression analysis revealed that relative humidity, sunshine hours, and maximum temperature were the dominant meteorological factors influencing crop water requirements, with a cumulative importance ratio reaching 75.81%. Among them, relative humidity demonstrated the highest impact, with an average feature importance of 39.84%, followed by sunshine hours (20.25%) and maximum temperature (15.72%). In terms of performance, the gbtree-XGBoost model demonstrated superior accuracy compared to the gblinear-XGBoost model. The R2 value of the former increased by ~84.35% relative to the latter, with the root mean square error decreasing by ~0.625. The gbtree-XGBoost model could capture the complex nonlinear relationships between variables more effectively, and its predictions correlated markedly with the actual crop water requirements. In conclusion, this study successfully established a crop water requirement prediction model for the Cele Oasis. It could effectively capture the complex relationships among meteorological factors, crop growth characteristics, and water requirements. Among them, the gbtree-XGBoost model showed excellent performance and can be a reliable tool for guiding irrigation and allocating water resources in the Cele Oasis. It provides a scientific basis for the rational management of agricultural water resources in arid oases, which is conducive to improving water use efficiency, ensuring better crop yields, and promoting the sustainable development of agriculture in arid regions. This research also provides valuable references for similar studies in other arid areas, contributing to global efforts in designing water-saving agriculture methods and sustainable water resource management.

近年来,由全球变暖引发的水资源变化引起了国际社会及各领域专家的高度关注,并成为学术研究的重要议题[1]。随着地球温度的升高以及极端气候事件的频发,干旱和半干旱区域内的农业可持续发展及其水资源的有效利用正面临严峻考验。在干旱或半干旱地区,灌溉系统是保证作物生长的关键,通过有效管理灌溉过程,农户能够精准调控植物所需的水分供给,进而促进产量提升。Lobell等[2]研究表明,1980年至今气候趋势变化对全球的作物生产产生了影响;Chen等[3]表明中国绿洲水资源利用率在近40 a下降,合理规范绿洲农业用水和提高农业水资源利用效率刻不容缓。水资源的合理利用和管理对于保障粮食安全具有重要意义,合理利用水资源有利于推动干旱区绿洲农业可持续发展,从而推进一带一路发展。
众多学者就不同区域、各类作物的需水量,以及针对需水模型展开的预测工作,实施了诸多研究。Xu等[4]研究表明京津冀地区灌溉需水量与气象因子呈负相关,与日照时数等呈显著正相关,但研究并未表明相关性强度差异;Casolani等[5]则通过地理加权和构建模型的方式,探寻意大利各省作物需水量与气象因子的回归关系,并给出合理政策建议;Wang等[6]的研究表明,在气候变化的影响下,灌溉水需求的多模型预测显示,灌溉水需求可能会发生变化;Michiel等[7]研究提出了基于生成对抗网络和多变量特征融合的水需求预测模型,这些模型能够生成合成数据,并引入梯度约束来克服过拟合问题;杜云等[8]则通过对LSTM模型选用不同学习器分析研究冬小麦需水量,进而选择更精准预测模型。通过对作物需水量研究及影响因素分析,可以更好地理解和管理农业用水,以实现可持续的水资源管理。
XGBoost具有强大的非线性处理能力,该模型在作物需水量预测领域的应用也逐渐受到关注[9]。因其能够结合气象特征和作物生长阶段特征,为解决小数据条件下的作物需水量预测问题提供新途径。李启巍[10]基于机器学习的蒸散量预测模型方法,通过历史气象特征数据采集、数据预处理、搭建XGBoost模型等多个机器学习模型、调节参数优化模型以及结果预测与评估等步骤,实现模型的高精度预测能力。
策勒绿洲是一个生态环境非常脆弱的典型干旱区绿洲,位于新疆塔克拉玛干沙漠南缘。目前,对于策勒绿洲的学术研究主要集中在地下水资源的利用以及荒漠与绿洲过渡带的生态学研究上[11]。然而,对于该地区作物的需水量相关因素分析及预测模型构建的研究相对较少[12]。由于年均降水量极少,使得策勒绿洲在农业用水供需方面存在显著矛盾,在农业用水配置方面,面临着巨大的挑战[13]。本研究基于XGBoost模型,以策勒绿洲主要作物需水量为研究对象,分析影响作物需水量的主要因子并构建作物需水量预测模型,通过对参数调整实现对农作物需水量的精准预测,实现策勒绿洲水资源的优化配置。

1 数据与方法

1.1 研究区概况

策勒绿洲位于新疆维吾尔自治区和田地区的策勒县境内,位于塔克拉玛干沙漠南部边缘,地形较为平坦,地理位置介于35°18′~39°18′N,80°03′24″~ 82°10′E之间,平均海拔为1365 m(图1)。策勒绿洲属于极度干旱的大陆性气候,光照条件十分优越,每年日照总时长能够达到约2686 h,全年无霜期大概在230 d[14]。气温年均值为11.9 ℃,最高气温可达42 ℃,最低气温可低至-23.9 ℃。降水少且极不均匀,年平均降水量为34 mm[15]。策勒绿洲农业主要水源发源于南部昆仑山脉的策勒河河水补给以及地下水补给,策勒河为农业生产提供了重要的灌溉水源保障,农业是策勒绿洲的重要产业之一,发展农业可以促进当地经济的多元化发展,推动整个地区的经济繁荣[16]
图1 策勒绿洲作物种植结构分布

Fig. 1 Distribution of crop planting structure in Cele Oasis

1.2 数据来源

策勒绿洲具体作物分布数据通过遥感解译技术,识别并提出田块边界,为了确保数据的准确性与可靠性,手持GPS手持机在绿洲内部对每个田块种植结构逐一开展实地勘察工作,从而对整个绿洲的种植结构进行更为精细的划分,将不同作物种类、种植面积、分布边界等信息进行详细记录与整理。依据策勒绿洲种植作物区位分布统计作物种植信息,在策勒绿洲的农业种植结构中,核桃、石榴、红枣和冬小麦是主要的作物。其中,核桃、石榴和红枣共占据了该地区农业种植面积的90%。冬小麦则作为插种作物或在其他作物成熟期进行轮种。作物生长周期、作物系数KC值、根系深度及植株高度等相关资料,则参考了联合国粮农组织(FAO)官方网站(https://www.fao.org/)提供的数据。
收集策勒绿洲2000—2023年逐日气象数据,数据覆盖气温、风速、降水、太阳辐射量等8个气象观测要素,所有数据均源自中国科学院策勒沙漠研究站提供的站点数据(http://cld.cern.ac.cn/)。

1.3 研究方法

1.3.1 作物需水量计算

本研究采用世界粮农组织(FAO)推荐的彭曼(Penman-Monteith)公式计算参考作物蒸散发量,具体计算方法参见FAO灌溉[17]。研究运用作物系数法来对灌区主要作物的需水量予以计算。由于FAO给出的作物系数适用于标准湿润条件下,对干旱区作物适用性较差,因此研究运用修订公式对作物系数进行修订[18-19],公式如下:
$\begin{array}{l}{K}_{\mathrm{C}}=0.04\left({U}_{2}-2\right)-0.04\left(\mathrm{R}{\mathrm{H}}_{\mathrm{m}\mathrm{i}\mathrm{n}}-45\right)\\ {\left(h/3\right)}^{0.3}+{K}_{\mathrm{C}\left(\mathrm{F}\mathrm{A}\mathrm{O}\right)}\end{array}$
式中:KC为调整后的作物系数;KC(FAO)为FAO推荐的作物系数;U2为距离地面2 m处的风速(m·s-1);RHmin为以百分比形式呈现的整个生长周期内日最低相对湿度的平均值;h为作物达到的最大平均高度(m)。
对于某一特定作物j,其整个生长周期内的需水量计算方式是将该作物在各个生长阶段的系数与相应时期内参考作物的需水量相乘[20-21],即:
${\left(\mathrm{E}{\mathrm{T}}_{\mathrm{C}}\right)}_{j}=\displaystyle\sum \left({{K}_{\mathrm{C}}}_{i})_{j}\right(\mathrm{E}{\mathrm{T}}_{0i})_{j}$
式中:(ETC)j为第j种作物在其整个生长周期内的需水量(mm);(ET0i)j为在第i个月该种作物的参考蒸发蒸腾量(mm);(KCi)j为在相同月份内,特定作物类型的修订系数值[22]。基于上述定义,可得策勒绿洲主要农作物KC与生长周期,如表1所示。
表1 策勒绿洲主要作物生长周期及作物系数

Tab. 1 Growth cycle and crop coefficients of major crops in Cele Oasis

作物种类 作物系数 生育初期/d 快速发育期/d 生育中期/d 成熟期/d 生育期/d 生长时间/月
初始阶段 中期阶段 最后阶段
核桃 0.50 1.10 0.65 20 10 130 30 190 4
石榴 0.60 0.95 0.75 65 45 50 50 210 4
红枣 0.50 0.90 0.60 45 55 90 30 220 4
冬小麦 0.70 1.15 0.25 40 140 30 45 255 4

1.3.2 灌溉需水量计算

根据基于作物水分需求的灌区农业用水量估算方法[23],结合田间水分平衡原理与实际种植面积,对净灌溉农业所需水量进行定量分析[24]。农田水量平衡方程的计算公式如下:
${I}_{\mathrm{N}}=\mathrm{\Delta }W+\mathrm{E}{\mathrm{T}}_{\mathrm{c}}-{P}_{\mathbf{e}}-G$
式中:IN为作物整个生长周期内所需的净灌溉水量(mm);$\mathrm{E}{\mathrm{T}}_{\mathrm{c}}$为同一时期作物的总需水量(mm);$\mathrm{\Delta }W$为作物生长期间土壤水分的变化量(mm);Pe为有效降水量(mm);G为地下水补给量(mm)。计算作物所需净灌溉水量时,考虑到策勒绿洲地区地下水位通常位于地表以下超过3 m处,并且灌溉区域内的土壤水分波动主要受人为灌溉措施影响。因此,地下水补给及土壤水分变化的影响可以忽略不计[25]。基于此,上述方程简化为:
${I}_{\mathrm{N}}=\mathrm{E}{\mathrm{T}}_{\mathrm{c}}-{P}_{\mathrm{e}}$
其中,有效降水量计算公式为:
${P}_{\mathrm{e}}=\left\{\begin{array}{l}P(4.17-0.2P),P<8.3\\ 4.17+0.1P,P\ge 8.3\end{array}\right.$
式中:P为日降水量(mm)。

1.3.3 XGBoost回归分析

极限梯度提升树(eXtreme Gradient Boosting,XGBoost)基于梯度提升框架,通过集成多个弱分类器(通常是决策树)来构建一个强大的集成模型[26]。XGBoost采用正则化技术来防止过拟合,支持并行计算以加快模型训练过程。在树的分裂过程中,它会根据特征组合对作物需水量的影响来选择最优的分裂特征,从而能够学习到气象因子之间的联合效应。XGBoost提供了对特征重要性的评估功能,可以帮助确定哪些特征对结果影响更大,从而进行有效的归因分析[27]。与传统模型相比,它无需依赖简化的线性假设,通过其梯度提升机制,自动学习不同气象因子在极端温差和高强度光照下对作物需水量的综合影响。
XGBoost模型主要运用3种基学习器搭配,分别是gbtree-XGBoost、gblinear-XGBoost和dart-XGBoost。gbtree是XGBoost中最常用的基学习器,它使用决策树作为基本单元,具有强大的能力来捕捉输入特征和目标变量之间的非线性关系。gbtree的决策过程相对直观,因为每一个节点的分裂都是基于一个特征和一个阈值,通过查看树的结构可以理解模型是如何根据不同特征进行决策的。这在分析模型结果和向非技术人员解释模型时非常有帮助,能够明确指出哪些因素在模型决策中起关键作用。在处理高维数据时,gbtree可以通过选择最重要的特征进行分裂,有效地处理特征空间的复杂性。gblinear是一种基于线性模型的基学习器,它假设输入特征和目标变量之间是线性关系。当数据具有较强的线性趋势时,使用gblinear可以更简单、直接地建立模型。对于一些数据集,尤其是数据量较大但特征之间线性关系较为明显的情况,gblinear可能具有更高的计算效率。dart是一种结合了Dropout技术和加法回归树的学习器,它在训练过程中会随机丢弃一些树,有助于减少过拟合,提高模型的泛化能力。
XGBoost回归训练过程如下:假设模型中有K棵树,其模型的基本函数可用如下形式表示:
${\stackrel{ˆ}{y}}_{i}=\mathrm{\varnothing }\left({x}_{i}\right)=\stackrel{K}{\displaystyle\sum _{k=1}}{f}_{k}\left({x}_{i}\right),{f}_{k}\in F$
$\mathrm{w}\mathrm{i}\mathrm{t}\mathrm{h}F=\left\{f\left(x\right)={\omega }_{q\left(x\right)}\right\},q\left(x\right):{R}^{m}\to \left\{\mathrm{1,2},\cdots,T\right\},\omega \in {R}^{T}$
式中:${\stackrel{ˆ}{y}}_{i}$为模型对于给定样本的预测结果;$\mathrm{\varnothing }\left({x}_{i}\right)$为整个XGBoost模型的函数;fk(xi)为第k棵决策树对第i个样本xi的预测值或输出值;F为所有构成模型树的集合,每棵树通过函数f(x)来描述其特性;T为单棵树上的叶子节点个数;q(x)为将输入样本与树中的特定叶子节点相对应的映射机制;$\omega $为叶子节点在预测过程中的重要性或贡献度;RmRT分别为一个由m个、T个实数组成的向量集合。
XGBoost回归模型算法核心是不断地添加树,根据多棵树的得分累计结果获取最终的预测得分。该算法采用了一种逐步累加的方法进行训练,并且在每一步中都致力于优化目标函数,直至找到最优解为止。XGBoost目标函数如下:
$\mathrm{O}\mathrm{b}\mathrm{j}\left(\theta \right)=\stackrel{n}{\displaystyle\sum _{i}}l\left({y}_{i},{\stackrel{ˆ}{y}}_{i}\right)+\stackrel{K}{\displaystyle\sum _{k=1}}\mathrm{\Omega }\left({f}_{k}\right)$
$\mathrm{\Omega }\left({f}_{k}\right)=\gamma T+\frac{1}{2}\lambda \stackrel{T}{\displaystyle\sum _{j=1}}{w}_{j}^{2}$
式中:$\stackrel{n}{\displaystyle\sum _{i}}l\left({y}_{i},{\stackrel{ˆ}{y}}_{i}\right)$为模型损失函数;$\mathrm{\Omega }\left({f}_{k}\right)$为第k棵树的正则项;参数$\gamma $$\lambda $为XGBoost中的可调节参数,用于限制每棵树叶子节点的数量以及调控节点预测值的幅度;wj为叶子节点j的权重。

1.3.4 GSCV算法

网格搜索交叉验证(Grid Search Cross-Validation,GSCV)是一种超参数优化技术。在机器学习模型中,超参数是在训练之前需要人为设定的参数,它们不是通过模型训练得到的,在没有GSCV技术时,人们往往需要手动调整超参数,手动调参耗时且效率低下。GSCV通过系统地遍历超参数的可能取值空间(网格),可以避免这种盲目性,全面地评估不同超参数组合下模型的性能。

1.3.5 模型评估指标

评估指标包括:绝对误差(MAE)、均方误差(MSE)、均方根误差(RMSE)和决定系数(R2)。
$\mathrm{M}\mathrm{A}\mathrm{E}=\frac{1}{n}\stackrel{n}{\displaystyle\sum _{i=1}}\left|{y}_{i}-{\stackrel{ˆ}{y}}_{i}\right|$
$\mathrm{M}\mathrm{S}\mathrm{E}=\frac{1}{n}\stackrel{n}{\displaystyle\sum _{i=1}}{\left({y}_{i}-{\stackrel{ˆ}{y}}_{i}\right)}^{2}$
$\mathrm{R}\mathrm{M}\mathrm{S}\mathrm{E}=\sqrt{\frac{1}{n}\stackrel{n}{\displaystyle\sum _{i=1}}{\left({y}_{i}-{\stackrel{ˆ}{y}}_{i}\right)}^{2}}$
${R}^{2}=1-\frac{\stackrel{n}{\displaystyle\sum _{i=1}}{\left({y}_{i}-{\stackrel{ˆ}{y}}_{i}\right)}^{2}}{\stackrel{n}{\displaystyle\sum _{i=1}}\left({y}_{i}-{\stackrel{-}{y}}^{2}\right)}$
式中:n为测试集的样本数量;yi为需水量实际值;${\stackrel{ˆ}{y}}_{i}$为模型预测值;$\stackrel{-}{y}$为作物需水量均值。

2 结果与分析

2.1 蒸散量与需水量分析

2.1.1 主要作物需水量分析

根据Penman-Monteith公式及作物系数法,计算得出策勒绿洲主要作物在各阶段的作物需水量以及生育期的作物总需水量(图2)。核桃需水量远大于其余3种作物,不同作物之间的总需水量存在显著差异。在生育初期,作物的需水量较低,其需水量分布范围在46.41~195.67 mm之间。而在发育中期,作物需水量在生育阶段需水量中达到最大值,需水量分布范围为186.38~785.80 mm,这是由于在该时期气温偏高,作物的光合作用强烈,使得作物蒸散量增大,并且发育中期的天数较多,此阶段是作物生长发育的关键时期,必须满足作物的需水需求,否则会对作物产量产生极大的不良影响。
图2 2000—2023年策勒绿洲主要作物不同生长阶段需水量及差异水平

注:显著水平设定为0.05,图中不同小写字母表示作物彼此间存在显著差异。下同。

Fig. 2 Water requirements and difference levels at different growth stages of main crops in Cele Oasis from 2000 to 2023

2.1.2 灌溉需水量分析

依据作物的水分需求与有效降水量,计算主要作物在不同生长阶段多年平均所需的灌溉量并进行分析(图3)。不同作物灌溉需水量与实际需水量变化波动相近,作物总需水量数值排序为核桃(982.78 mm)>红枣(764.92 mm)>石榴(774.01 mm)>冬小麦(688.63 mm)。对作物生长阶段的灌溉需水量进行分析可知,主要作物在生育初期的灌溉需水量处于最低水平;进入快速发育期与成熟期后,灌溉需水量相较于生育初期有所升高;而在发育中期,灌溉需水量达到最高值。其中,核桃的灌溉需水量变化最为显著,在发育中期攀升至峰值,此阶段的灌溉需水量在全生育阶段灌溉需水量中所占比例高达77.5%。就主要作物灌溉需水量占作物需水量的比率而言,其大小排序依次为红枣(97.6%)、冬小麦(96.3%)、石榴(95.9%)、核桃(95.8%)。
图3 2000—2023年策勒绿洲主要作物不同生长阶段灌溉需水量

Fig. 3 Irrigation water requirement for different growth stages of major crops in Cele Oasis from 2000 to 2023

2.2 需水量归因分析

为了更深入地定量分析策勒绿洲主要作物的需水量及其灌溉需求的影响因素,本研究采用了XGBoost回归方法进行探索。把研究区域的逐日气象数据当作因变量,而4种主要作物的需水量和灌溉需水量设为自变量来实施数据分析,并依据模型特征值开展重要度排序。基于模型特征值的重要性排序,该模型的R2值介于0.726~0.846之间,显示出良好的拟合效果。进一步计算了6种不同的气象因素对于核桃、石榴、红枣以及冬小麦这几种作物需水量及灌溉需求的影响程度(图4),相对湿度和最高气温这2个气象因子对主要作物需水量及灌溉需水量的影响力最为突出。其中,相对湿度的平均特征重要性高39.84%,意味着在众多影响因素中,相对湿度的变化对作物需水状况的改变起到了极为关键的作用。当相对湿度较高时,可以减少植物的蒸发散失,从而降低它们的水分需求;最高气温的平均特征重要性15.72%,较高的气温通常会加速作物的生理活动,包括光合作用和蒸腾作用等,从而导致作物需水量的上升。降水对作物需水量的影响程度相对较低,其平均特征重要性仅0.625%。这主要是因为在策勒绿洲典型干旱地区,降水本身较为稀少,且降水的分布往往不均匀,难以成为作物稳定且可靠的水分来源。降水量因子对于灌溉需水量而言,其影响力有了较为明显的提升,平均特征重要性达到了9.25%。这是由于降水在一定程度上能够补充土壤中的水分含量,从而减少了人工灌溉的需求。当降水较为充沛时,灌溉的频率和水量都可以相应地减少。
图4 XGBoost回归分析特征重要性

Fig. 4 Importance plot of XGBoost regression analysis characteristics

为掌握不同气象因子间相互作用关系,研究采用皮尔逊相关系数法分析各气象因子及作物需水量相关性(图5),依据各气象因子间的相互作用关系及与作物需水量的关系,灌溉策略需灵活调整。当出现高温-低湿组合,因作物蒸腾显著增强,应在早晚时段增加灌溉频率与水量;大风-低湿-强光照组合下,作物水分散失快,需及时充分灌溉;针对晴天和多云天气,前者日照强、作物需水量大,后者则相反,依土壤湿度调整灌溉。此外,还需长期关注气象因子趋势,遇持续高温干旱提前制定灌溉预案,合理调配水资源以满足作物生长周期的水分需求。
图5 各气象因子及作物需水量相关性

注:*、**、*** 分别表示显著水平P<0.05、P<0.01、P<0.001。

Fig. 5 Correlation of various meteorological factors and crop water requirement

2.3 基于XGBoost构建作物需水量预测模型

2.3.1 模型构建

XGBoost具有强大的非线性处理能力,作物需水量与气象因子之间的关系往往是非线性的。通过将多个决策树组合(集成学习),每棵决策树可以拟合数据中的一种非线性模式,众多决策树的集成结果可以很好地捕捉到作物需水量与气象因子之间复杂多变的关系。XGBoost在分析这类非线性问题时展现出更佳的灵活性和准确性。
XGBoost模型的构建主要遵循以下步骤:
(1) 需确定booster基学习器类型。其涵盖了“gbtree”(基于树的模型)“gblinear”(线性模型)以及“dart”(一种改进的树模型)。在本研究中,依据实际情况与数据特征,依据模型精度选定最为适配的基学习器类型,以保障模型构建的科学性与有效性。
(2) 设定提升器参数。引用GSCV算法结合XGBoost模型实现模型超参数优化,对于特定参数给定范围进行网格式交叉验证,在所有超参数组合完成交叉验证后,比较它们的平均性能指标,选择性能指标最好的超参数组合作为最优解(表2)。以研究区作物生长季内的逐日气象数据,包括最低气温、最高气温、相对湿度、风速,以及作物生长阶段和作物系数作为模型的自变量,将4种主要作物需水量设定为目标变量展开深入分析。将2000—2023年的数据集按8:2的比例划分为训练集与测试集。其中,80%的训练集用于拟合模型,捕捉变量间的内在规律;剩余20%的测试集则用于评估模型在未知数据上的预测精度与泛化能力。由于不同生长作物全育期天数不同,因此研究采用作物对应生长期做逐日需水量分析,根据模型数据分割情况(表3)进行测试。在训练数据过程中采用交叉验证的方法,进一步提升模型的稳定性与可靠性,有效避免过拟合现象的发生。
表2 GSCV-XGBoost参数

Tab. 2 Parameters of GSCV-XGBoost

参数 范围值
n_estimators [50, 100, 200, 300]
max_depth [3, 5, 7, 9]
min_child_weight [1, 3, 5]
learning_rate 0.1
表3 模型数据集分割

Tab. 3 Model dataset splitting

作物 生育期天数/d 训练数据集/组 测试训练集/组
红枣 220 4224 1056
核桃 190 3648 912
石榴 210 4032 1008
冬小麦 255 4896 1224
在同一作物时间尺度保持统一情境下,将各作物模型数据集依次导入至GSCV-XGBoost模型中,并选取不同基学习器,构建gbtree-XGBoost、gblinear-XGBoost以及dart-XGBoost模型并开展实验。

2.3.2 需水量预测模型结果评估

在XGBoost模型中,3种基学习器处理不同维度数据具有不同优势,gbtree梯度提升树对非线性数据处理能力强,能够自动学习特征之间的交互作用;gblinear线性基学习器计算效率高,线性模型的形式简单,参数的含义明确,相比于复杂的非线性模型,线性模型具有较低的模型复杂度;dart能够有效防止过拟合,提高模型的鲁棒性,在面对数据的微小变化或噪声干扰时,具有更好的稳定性,适宜挖掘具有复杂结构数据中的潜在模式。对于基学习器的分析研究,有利于找出在精度、误差等性能指标上表现最优的基学习器,从而构建出更准确的作物需水量预测模型。
将3种模型需水量预测值与作物需水量实际值进行分析(图6~7),基于gbtree-XGBoost模型与dart-XGBoost模型预测值一致,研究选用gbtree-XGBoost模型结果代为展示,根据预测结果与实际结果点密度图可知,gblinear-XGBoost模型数据离散程度较大,尤其是冬小麦预测模型离散最严重,最大误差达到3.98,对于作物日需水量的预测来说,较大误差会导致灌溉水过度或灌溉不足,无法与实际需水量相适应,不合理灌溉会造成作物减产,因此gblinear-XGBoost模型在策勒绿洲农业区域用于指导作物需水量管理方面存在局限性,不适合直接应用于水资源调度。gbtree-XGBoost模型数据离散程度较小,斜率近似于1,相关性程度极高,其中冬小麦作物需水量模型表现最佳,这主要是因为冬小麦生长期最长,模型能够较好地学习到生长阶段及作物系数与作物需水量的复杂拟合关系。
图6 gbtree-XGBoost模型作物需水量预测值与实际值分析

Fig. 6 Analysis of predicted and actual crop water requirement values in the gbtree-XGBoost model

图7 gblinear-XGBoost模型作物需水量预测值与实际值分析

Fig. 7 Analysis of predicted and actual crop water requirement values in the gblinear-XGBoost mode

gblinear-XGBoost模型的效果不及gbtree-XGBoost模型。从各模型预测结果点密度图对比来看,gblinear-XGBoost模型的数据离散程度较高,且数据分布范围广、密度低,这说明该模型预测的作物需水量与实际值之间存在较大差距,从而反映出其较低的有效性。在红枣作物需水量预测方面,gbtree-XGBoost模型相较于gblinear-XGBoost模型,决定系数(R2)提升了44.26%,RMSE值降低了0.288;对于核桃作物,gbtree-XGBoost模型的R2比gblinear-XGBoost模型提升了110.07%,RMSE值降低了0.505;在石榴作物需水量预测中,gbtree-XGBoost模型相比gblinear-XGBoost模型,R2提升幅度达到128.40%,RMSE值降低了0.461;而在冬小麦作物上,gbtree-XGBoost模型相较于gblinear-XGBoost模型,R2提升了54.68%,RMSE值降低了1.259。具体精度数值可参考表4
表4 模型精度对比

Tab. 4 Comparison of model accuracy

作物 gbtree-XGBoost模型 gblinear-XGBoost模型 dart-XGBoost模型
R2 RMSE R2 RMSE R2 RMSE
红枣 0.792 0.610 0.549 0.898 0.792 0.610
核桃 0.723 0.936 0.344 1.441 0.723 0.936
石榴 0.770 0.661 0.338 1.122 0.770 0.661
冬小麦 0.945 0.395 0.609 1.654 0.945 0.395

注:RMSE为均方根误差;R2为决定系数。

经由对这3种基学习器模型的全面对比与深入分析,清晰地发现gbtree-XGBoost模型与dart-XGboost展现出更为卓越的精度表现且精度值相同,RMSE数值亦处于更低水平,在针对4种作物需水量预测的模型应用场景中,均能够稳定且出色地发挥作用,表现出优异的预测性能与泛化能力,这说明模型输入因子存在较为明显相关性,在不需要引入dropout机制下仍能较好完成任务。gblinear-XGBoost模型在预测作物需水量时的表现相对较差,其值通常低于gbtree-XGBoost,而RMSE值则较高。gblinear-XGBoost在某些作物上的表现甚至更差,尤其是在核桃和冬小麦上,RMSE明显高于其他2种模型。

3 讨论

策勒绿洲由于年降水量稀缺且蒸发潜力巨大,加之降水分布极不均衡,导致农业灌溉面临严峻挑战,从而显著影响了农作物产量[28],研究选取策勒绿洲种植结构较为稳定且种植面积较大的4种作物,对其水分需求情况进行计算,围绕其主要作物需水量趋势分析及预测模型精度分析,对策勒绿洲农业有效管理作物用水进行有力补充,在一定程度弥补该地区对作物需水量研究的空缺。同时也为策勒绿洲灌溉农业提供必要的参考依据[29]
从基于XGBoost构造作物需水量预测模型来看,gbtree-XGBoost模型精度较高,预测值与实际作物需水量值相关性程度高,在仅需基础气象数据参与模型情况下,仍可以以较高精度指导策勒绿洲农业灌溉,减少作物需水量对高精度净辐射仪及土壤热通量专业测量的依赖[30]。XGBoost作物需水量模型展现出诸多优点,模型能精准适配复杂气候与地理条件,捕捉微气候特征与作物需水量间的复杂非线性关系,实现多源数据融合与高效利用,将气象、作物生理等多源数据协同处理,并自动处理数据缺失与噪声,降低异常数据干扰,而传统线性回归模型难以企及。此外,通过超参数本地化调优,提升模型预测精度与适应性,并具备动态模型更新能力,依据新数据实时更新,适应环境与种植模式变化,为当地水资源管理和灌溉决策提供有力支持。
依据模型预测结果可制定不同灌溉措施,当预测需水量接近土壤有效含水量下限且未来短期内无降雨预报时,及时启动灌溉。例如,在冬小麦抽穗期,模型预测显示未来3~5 d内土壤水分将无法满足作物需水需求,应立即安排灌溉,避免因缺水影响小麦的产量和品质。将需水量预测结果结合不同水源的水量和水质情况综合考虑,进行多水源联合调度,如在作物需水量较大的时期,优先利用地表水,当地表水不足时,合理开采地下水,并根据地下水水位变化及时调整开采量,实现水资源可持续。
从与其他研究差异之处来看,种植面积变量也是影响作物需水量的重要因素之一且通过了显著性检验[31],但本文并未涉及种植面积的原因在于本研究主要关注的是作物自身生理特性以及周边环境条件对需水量的影响。相比之下,种植面积本质上并不直接影响单位面积作物的需水特性,它更多地是从宏观规模上影响区域总需水量,因此未将种植面积纳入研究范围[32-33]。此外,在对作物水分供需状况进行评估的过程中,由于未能获取策勒绿洲的农业灌溉用水量,因此无法准确评估作物的受旱情况。在此情况下,仅能提供需水量模型作为需水的参考依据,而无法将水资源调配和作物产量之间的关系进行综合考量。

4 结论

(1) 通过对作物需水量与灌溉需水量分析得知,2000—2023年核桃需水量远超其他作物且不同作物总需水量差异显著,研究区内主要作物生育中期需水量达生育阶段最大值。
(2) 通过XGBoost回归分析可知,影响策勒绿洲主要作物需水量和灌溉需水量的主要气象因子是相对湿度、日照时数和最高气温,平均特征重要性分别为39.84%、20.25%和15.72%,总计占比75.81%。
(3) 根据模型精度得知,gbtree-XGBoost模型与dart-XGBoost模型精度值一致,均高于gblinear-XGBoost模型,鉴于dart-XGBoost模型对于dropout机制引入及随机丢弃树机制影响数据分析速度与效果,本研究选用gbtree-XGBoost模型作为最合适作物需水量模型,gbtree-XGBoost模型较gblinear-XGBoost模型R2提高约84.35%,RMSE降低约0.625。gbtree-XGBoost选用参数设定基学习器数量为50,学习率为0.1,最大树深为5,模型预测结果与实际需水量相关性明显,模型效果较好,与实际需水量变化相符,可作为灌溉指导依据以及未来气候情境下水资源调配数据支持。
[1]
陈亚宁, 李稚, 范煜婷, 等. 西北干旱区气候变化对水文水资源影响研究进展[J]. 地理学报, 2014, 69(9): 1295-1304.

DOI

[Chen Yaning, Li Zhi, Fan Yuting, et al. Research progress on the impact of climate change on water resources in the arid region of northwest China[J]. Acta Geographica Sinica, 2014, 69(9): 1295-1304.]

DOI

[2]
Lobell D B, Schlenker W, Costa-Roberts J. Climate trends and global crop production since 1980[J]. Science, 2011, 333(6042): 616-620.

DOI PMID

[3]
Chen P, Wang S, Liu Y X, et al. Water availability in China’s oases decreased between 1987 and 2017[J]. Earth’s Future, 2023, 11(4): 303-340.

[4]
Xu C C, Lu C Y, Sun Q Y. Impact of climate change on irrigation water requirement of wheat growth: A case study of the Beijing-Tianjin-Hebei region in China[J]. Urban Climate, 2021, 39: 85-91.

[5]
Casolani N, Cartone A, Postiglione P, et al. Climate variability in agriculture and crop water requirement: Spatial analysis of Italian provinces[J]. Journal of Cleaner Production, 2020, 262: 121331, doi: 10.1016/j.jclepro.2020.121331.

[6]
Wang J, Zhu Y, Sun T, et al. Forty years of irrigation development and reform in China[J]. Australian Journal of Agricultural and Resource Economics, 2020, 64(1): 126-149.

DOI

[7]
Michiel D V, Tom M, Luise M R, et al. A meta-analysis of projected global food demand and population at risk of hunger for the period 2010—2050[J]. Nature Food, 2021, 2(7): 494-501.

DOI PMID

[8]
杜云, 张婧婧, 雷嘉诚, 等. 冬小麦需水量的预测模型对比分析[J]. 新疆农业科学, 2024, 61(7): 1590-1596.

DOI

[Du Yun, Zhang Jingjing, Lei Jiacheng, et al. Forecasting method of water requirement of winter wheat[J]. Xinjiang Agricultural Sciences, 2024, 61(7): 1590-1596.]

DOI

[9]
邵玉. 甘肃地区基于智能算法的灌溉系统节水优化及应用[J]. 农业工程技术, 2024, 44(17): 28-29.

[Shao Yu. Water-saving optimization and application of irrigation systems in Gansu region based on intelligent algorithms[J]. Agricultural Engineering Technology, 2024, 44(17): 28-29.]

[10]
李启巍. 基于机器学习的蒸散量响应因素权重分析[D]. 北京: 北京林业大学, 2020.

[Li Qiwei. Weight analysis of evapotranspiration response factors based on machine learning[D]. Beijing: Beijing Forestry University, 2020.]

[11]
高宇婷, 于洋, 孙凌霄, 等. 策勒绿洲地下水和地表覆被时空变化的研究[J]. 干旱地区农业研究, 2020, 38(6): 200-208.

[Gao Yuting, Yu Yang, Sun Lingxiao, et al. Spatio-temporal variability of groundwater and land coverage in Qira oasis[J]. Agricultural Research in the Arid Areas, 2020, 38(6): 200-208.]

[12]
龚栋栋, 高凡, 吴彬, 等. 基于GRACE的新疆平原区地下水干旱时空变化及其对气象干旱的响应[J]. 干旱区地理, 2024, 47(9): 1496-1507.

DOI

[Gong Dongdong, Gao Fan, Wu Bin, et al. Spatiotemporal change of groundwater drought in the plain area of Xinjiang based on GRACE and its response to meteorological drought[J]. Arid Land Geography, 2024, 47(9): 1496-1507.]

DOI

[13]
周洪华, 杨玉海, 朱成刚, 等. 供需平衡视角下昆仑山北坡县域单元地表水资源开发利用潜力初探[J]. 干旱区地理, 2024, 47(7): 1106-1115.

DOI

[Zhou Honghua, Yang Yuhai, Zhu Chenggang, et al. Development and utilization potential of surface water resources of the counties on the northern slope of Kunlun Mountains from the perspective of supply and demand balance[J]. Arid Land Geography, 2024, 47(7): 1106-1115.]

DOI

[14]
周晓兵, 陶冶, 张元明. 塔克拉玛干沙漠南缘荒漠绿洲过渡带不同土地利用影响下优势植物化学计量特征[J]. 草业学报, 2018, 27(5): 15-26.

DOI

[Zhou Xiaobing, Tao Ye, Zhang Yuanming. The C, N and P stoichiometry of dominant species in different land use types in a desert-oasis ecotone of the southern Taklimakan Desert[J]. Acta Prataculturae Sinica, 2018, 27(5): 15-26.]

DOI

[15]
何强强, 毛东雷, 徐佳瑞, 等. 策勒绿洲-沙漠过渡带不同沙丘的沉积物粒度特征及沉积环境[J]. 水土保持研究, 2023, 30(3): 135-145.

[He Qiangqiang, Mao Donglei, Xu Jiarui, et al. Sediment granularity characteristics and deposition environment of different dunes in the Cele Oasis-Desert Ecotone[J]. Soil and Water Conservation Research, 2023, 30(3): 135-145.]

[16]
Fan M T, Xu J H, Chen Y N, et al. How to sustainably use water resources: A case study for decision support on the water utilization of Xinjiang, China[J]. Water, 2020, 12(2): 35-64.

DOI

[17]
Rg A. Crop evapotranspiration: Guidelines for computing crop water requirements[J]. FAO Irrig Drain, 1998, 56: 147-151.

[18]
刘钰, Pereira L S. 对FAO推荐的作物系数计算方法的验证[J]. 农业工程学报, 2000, 16(5): 26-30.

[Liu Yu, Pereira L S. Validation of FAO methods for estimating crop coefficients[J]. Transactions of the Chinese Society of Agricultural Engineering, 2000, 16(5): 26-30.]

[19]
Guo H, Li S E, Kang S Z, et al. Crop coefficient for spring maize under plastic mulch based on 12-year eddy covariance observation in the arid region of northwest China[J]. Journal of Hydrology, 2020, 588: 108-125.

[20]
AL-Omran A, Eid S, Alshammari F. Crop water requirements of date palm based on actual applied water and Penman-Monteith calculations in Saudi Arabia[J]. Applied Water Science, 2019, 9(4): 1-9.

DOI

[21]
Geng Q L, Zhao Y K, Sun S K, et al. Spatio-temporal changes and its driving forces of irrigation water requirements for cotton in Xinjiang, China[J]. Agricultural Water Management, 2023, 280: 108-218.

[22]
Döll P, Siebert S. Global modeling of irrigation water requirements[J]. Water Resources Research, 2002, 38(4): 1037, doi: 10.1029/2001WR000355.

[23]
史梦霞, 张佳笑, 石晓宇, 等. 近20年河北省几种高耗水作物的水分利用效率分析[J]. 作物学报, 2021, 47(12): 2450-2458.

DOI

[Shi Mengxia, Zhang Jiaxiao, Shi Xiaoyu, et al. Water use efficiency of several water-intensive crops in Hebei Province in recent 20 years[J]. Acta Agronomica Sinica, 2021, 47(12): 2450-2458.]

DOI

[24]
Wriedt G, Van V M, Aloe A, et al. Estimating irrigation water requirements in Europe[J]. Journal of Hydrology, 2009, 373(3-4): 527-544.

DOI

[25]
Bathiany S, Hidding J, Scheffer M. Edge detection reveals abrupt and extreme climate events[J]. Journal of Climate, 2020, 33(15): 6399-6421.

DOI

[26]
Jia Q M, Sun L F, Wang J J, et al. Limited irrigation and planting densities for enhanced water productivity and economic returns under the ridge-furrow system in semi-arid regions of China[J]. Field Crops Research, 2018, 221: 207-218.

DOI

[27]
郑芳, 李芳然, 甘义群, 等. 极端气候事件对洞庭湖水文连通性变化的影响[J]. 南水北调与水利科技(中英文), 2024, 22(1): 67-79.

[Zheng Fang, Li Fangran, Gan Yiqun, et al. The impact of extreme climatic events on hydrological connectivity of Dongting Lake[J]. South-to North Water Transfers and Water Science & Technology, 2024, 22(1): 67-79.]

[28]
赵冰茜, 王光焰, 刘毅, 等. 干旱区绿洲用水效率模拟及分析——以策勒绿洲为例[J]. 节水灌溉, 2020(5): 11-15.

[Zhao Bingqian, Wang Guangyan, Liu Yi, et al. Simulation and analysis of water use efficiency in an oasis in arid area: A case study in Cele Oasis[J]. Water-saving Irrigation, 2020(5): 11-15.]

[29]
张波. 干旱绿洲区滴灌骏枣需水规律及优化灌溉制度研究[D]. 石河子: 石河子大学, 2022.

[Zhang Bo. Study on water requirement and optimal irrigation system of Jujube under drip irrigation in arid oasis[D]. Shihezi: Shihezi University, 2022.]

[30]
刘昀昊, 李雪冬, 费龙, 等. 基于特征选择与遗传神经网络的土壤水分反演[J]. 中国农业气象, 2024, 45(10): 1095-1108.

[Liu Yunhao, Li Xuedong, Fei Long, et al. Retrieving soil moisture based on feature selection and genetic neural network[J]. Chinese Journal of Agrometeorology, 2024, 45(10): 1095-1108.]

DOI

[31]
Tan Q H, Liu Y J, Pan T, et al. Changes and determining factors of crop evapotranspiration derived from satellite-based dual crop coefficients in North China Plain[J]. The Crop Journal, 2022, 10(5): 1496-1506.

DOI

[32]
Zhang P, Ma W D, Hou Lei, et al. Study on the spatial and temporal distribution of irrigation water requirements for major crops in Shandong Province[J]. Water, 2022, 14(7): 1051, doi: 10.3390/w14071051.

[33]
Xu C C, Zhang X C, Zhang J X, et al. Estimation of crop water requirement based on planting structure extraction from multi-temporal MODIS EVI[J]. Water Resources Management, 2021, 35(7): 2231-2247.

DOI

文章导航

/