img

官方微信

高级检索

中国沙漠, 2023, 43(5): 18-30 doi: 10.7522/j.issn.1000-694X.2023.00026

黄河景电灌区土壤盐渍化反演的多模型对比

蒋小芳,1,3, 徐青霞4, 段翰晨1,2, 廖杰1,2, 郭平林1,3, 黄翠华1,2, 薛娴,1,2

1.中国科学院西北生态环境资源研究院,沙漠与沙漠化重点实验室,甘肃 兰州 730000

2.中国科学院西北生态环境资源研究院,干旱区盐渍化研究站,甘肃 兰州 730000

3.中国科学院大学,北京 100049

4.民勤县水务局,甘肃 民勤 733300

Multi-model comparison on soil salinization inversion in Jingdian irrigation area of the Yellow River

Jiang Xiaofang,1,3, Xu Qingxia4, Duan Hanchen1,2, Liao Jie1,2, Guo Pinglin1,3, Huang Cuihua1,2, Xue Xian,1,2

1.Key Laboratory of Desert and Desertification /, Northwest Institute of Eco-Environment and Resources,Chinese Academy of Sciences,Lanzhou 730000,China

2.Drylands Salinization Research Station, Northwest Institute of Eco-Environment and Resources,Chinese Academy of Sciences,Lanzhou 730000,China

3.University of Chinese Academy of Sciences,Beijing 100049,China

4.Water Authority Bureau of Minqin County,Minqin 733300,Gansu,China

通讯作者: 薛娴(E-mail: xianxue@lzb.ac.cn

收稿日期: 2023-02-06   修回日期: 2023-03-22  

基金资助: 第二次青藏高原综合科学考察研究项目.  2019QZKK0305

Received: 2023-02-06   Revised: 2023-03-22  

作者简介 About authors

蒋小芳(1991—),女,湖南永州人,博士研究生,主要从事干旱区土壤盐渍化研究E-mail:1695090635@qq.com , E-mail:1695090635@qq.com

摘要

位于中国西北干旱区东部的景电灌区是黄河景泰川电力提灌二期工程覆盖的重要地区。不合理的水资源利用和区内排水不畅导致该区成为次生盐渍化发生的重点区域。为更好地预测景电灌区的土壤盐渍化问题,服务盐渍化防治和盐渍土改良的国家需求,基于地表实测高光谱反射率和土壤电导率数据,从模型稳定性、噪声问题、共线性问题和准确度4个方面对比分析了深度神经网络(Deep neural network,DNN)、分布式随机森林(Distributed random forest,DRF)和梯度提升机(Gradient boosting machine,GBM)3个模型在景电灌区土壤盐分预测方面的适用性。结果表明:(1)实测高光谱反射率数据与土壤电导率之间存在较强的相关性,高光谱数据为土壤盐分预测研究提供了便利;(2)DNN模型的稳定性高,对噪声和共线性问题的处理能力更强,模拟准确度相对较高,而DRF和GBM模型模拟结果差别较小。DNN模型更适于景电灌区土壤盐分预测研究,这在模型适用性方面为该区域的土壤盐渍化研究提供了参考。

关键词: 高光谱反射率 ; DNN ; DRF ; GBM ; 盐渍化 ; 景电灌区

Abstract

Located in the eastern part of the arid area of northwest China, Jingdian irrigation area is an important region covered by the second phase of the Jingtaichuan electric power irrigation project of the Yellow River. Irrational water resources utilization and poor drainage in the area led to the occurrence of secondary salinization in the area. In order to better monitor the soil salinization problem in Jingdian irrigation area and serve the national demand for salinization prevention and improvement of saline soil, this paper compares and analyzes the deep neural network (DNN), distributed random forest (DRF), and gradient boosting machine (GBM) from four aspects: model stability, noise problem, collinearity problem, and accuracy based on the measured hyperspectral reflectance and soil electrical conductivity on the land surface. The results show that: (1) There is a strong correlation between the measured hyperspectral reflectance data and the electric conductivity of soil samples, and the hyperspectral data provides convenience for soil salinity prediction research. (2) The DNN model has high stability, stronger ability to deal with noise and collinearity problems, and relatively high simulation accuracy, while the simulation results of DRF and GBM models are less different. The results show that the DNN model is more suitable for soil salinity prediction in Jingdian irrigation area, which provides a reference for soil salinization research in this area in terms of model applicability.

Keywords: hyperspectral reflectance ; DNN ; DRF ; GBM ; salinization ; Jingdian irrigation area

PDF (5320KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

蒋小芳, 徐青霞, 段翰晨, 廖杰, 郭平林, 黄翠华, 薛娴. 黄河景电灌区土壤盐渍化反演的多模型对比. 中国沙漠[J], 2023, 43(5): 18-30 doi:10.7522/j.issn.1000-694X.2023.00026

Jiang Xiaofang, Xu Qingxia, Duan Hanchen, Liao Jie, Guo Pinglin, Huang Cuihua, Xue Xian. Multi-model comparison on soil salinization inversion in Jingdian irrigation area of the Yellow River. Journal of Desert Research[J], 2023, 43(5): 18-30 doi:10.7522/j.issn.1000-694X.2023.00026

0 引 言

土壤盐渍化是严重的土地退化问题,全球大部分干旱区的土地面临此挑战1-4。盐渍土主要包括盐土和碱土,盐土中的NaCl和Na2SO4含量较高,碱土则以苏打(Na2CO3)和小苏打(NaHCO3)为主5。土壤中的盐分含量过高会破坏植被体内的离子平衡关系,而苏打和小苏打水解会形成NaOH,腐蚀农作物根系,影响土壤的透水性和通气性。这两种类型均不利于植被生长,降低作物产量,影响农业发展和粮食安全。因此,盐渍化防治和盐渍土改良日益成为全球土地退化和农业研究领域重点关注的问题。

西北干旱区地表径流较为缺乏,流域外调水可以缓解干旱区农业用水的短缺,从而促进农业发展。然而,该区气候干旱导致蒸发强烈。流域外大量地表径流的涌入抬升了区内地下水位,在强烈的蒸发作用下,盐分向地表聚集,易于引发次生盐渍化。景电灌区作为利用黄河水进行灌溉的重要区域,次生盐渍化问题日益严重,危害农业生产和粮食安全。实现盐渍化防治和盐碱地改良,需要准确和实时地了解盐渍化土壤的分布和动态变化过程。因此,在景电灌区开展盐渍化研究,提出盐渍化防治策略至关重要。但是,相关研究尤其是机器学习模型和遥感技术在景电灌区的适用性和可行性极为有限。

遥感数据具有省时、高效和广域的优点,有利于开展快速、适时和高精度的盐渍化遥感监测研究5-8。遥感数据中的可见光和近红外光谱包含较多土壤属性敏感信息,有利于对土壤属性进行预测研究9。高光谱数据在光谱信息和光谱分辨率方面具有显著优势,被广泛应用于土壤属性预测研究10-14。高光谱数据分为地基高光谱、机载高光谱和星载高光谱。地基高光谱主要来源于手持光谱仪,机载高光谱则是将传感器搭载于无人机或直升飞机等飞行器上,星载高光谱则是将传感器搭载于遥感卫星或其他航天器。在黑龙江省海伦市15和江西省奉新县北部16有机质的预测过程中,高光谱数据发挥了至关重要的作用。手持高光谱数据和Hyperion星载高光谱反射率数据为分析土壤有机质、总磷、pH和阳离子交换容量提供了便利17

基于遥感数据的土壤盐分预测模型有线性模型、机器学习模型和深度学习模型等,大量研究表明机器学习和深度学习模型在处理高维复杂数据方面明显优于线性模型18-20。机器学习框架整合了多种机器学习方法,兼具数据处理、模型建立和模型评估验证等功能,极大地提高了使用效率。目前已有的机器学习框架包括Apache Singa、MapReduce、H2O、MLlib(Spark)、Scikit-Learn、TensorFlow、GraphLab和Torch等。其中,H2O框架提供了Python、Java、Scala和R语言等多种开发环境,支持多种机器学习算法。但不同机器学习方法在处理数据共线性和噪声问题方面存在差异,模型的稳定性和鲁棒性各不相同。Wang等21利用实测光谱数据和土壤盐分数据建立了随机森林回归算法(Random forest regression,RFR)、支持向量机(Support vector regression,SVR)、梯度提升回归树算法(Gradient-boosted regression tree,GBRT)、多层感知机回归算法(Multilayer perceptron regression,MLPR)和最小角回归算法(Least angle regression,Lars),从共线问题、数据噪声、稳定性和准确性4个方面对各模型的土壤盐分反演能力进行评估,发现RFR算法在处理数据共线性和噪声问题方面表现最佳。其他研究使用多层感知机-人工神经网络(Multilayer perceptron-artificial neural network,MLP-ANN)、模型树M5算法(M5 model tree,M5)、分类与回归树(Classification and regression tree,CART)、随机森林(Randon forest,RF)、高斯过程回归(Gaussian processes regression,GPR)、高斯径向基函数核(Gaussian radial basis functions,GRBF)和降低错误率剪枝(Reduced error pruning tree,REPTree)等算法进行土壤盐渍化预测研究,最终发现在精度和稳定性方面最优的算法为RF、M5和GRBF22

本研究采用H2O机器学习框架的分布式随机森林(Distributed random forest,DRF)、深度神经网络(Deep neural network,DNN)和梯度提升机(Gradient boosting machine,GBM)模型对景电灌区的土壤盐渍化进行反演,以探究不同机器学习方法的差异以及在这一区域的适用性,从而为日后开展大规模长期连续监测提供方法参考。

1 研究区概况和研究方法

1.1 研究区概况

景电灌区所在的景泰县位于甘肃省白银市,处于河西走廊东段,位于36°43′—37°38′N、103°33′— 104°43′E(图1)。该区属于温带大陆性气候,年降水量约为200 mm,而蒸发量高达3 000 mm,全年平均气温4~17 ℃。景泰县的主要土壤类型有洪积灰棕荒漠土和灰钙土,主要农作物为小麦、玉米、土豆、甜菜和枸杞等。景泰县地势西南高、东北低,位于黄土高原与腾格里沙漠交界地带,黄河从景泰县东部穿流而过。1974年建成景泰川电力提灌一期工程,1994年基本建成景泰川电力提灌二期工程,这两项工程通过提水为黄河周边地势高亢地区的农业发展带来了大量水源,解决了景泰县地表径流缺乏的难题。但是强烈的蒸发作用、不合理的农业灌溉加上部分地区排水不畅导致土壤次生盐渍化问题日益严重。因此,对景电灌区的土壤盐渍化问题进行预测研究具有重要的现实意义。

图1

图1   研究区地理位置和土壤取样点分布

Fig.1   Location of the study area and soil samples


1.2 野外样品采集和实验室处理

西北干旱区冬春时节降水较少,由于缺乏地表径流淋洗,强烈的蒸发作用导致盐分聚集于土壤表层,有利于开展土壤盐分预测研究。因此,本研究土壤样品和高光谱反射率数据的采集时间为2022年3月1—7日,基于五点混合取样法采集0~5 cm的表层土壤样品139个。在采集土壤样品的过程中,同时利用美国SOC公司生产的全光谱便携式地物光谱仪PSR-3500测得土壤反射率。PSR-3500光谱仪的光谱范围为350~2 500 nm,光谱分辨率分别为3.5 nm(350~1 000 nm)、10 nm(1 000~1 900 nm)和7 nm(1 900~2 500 nm);测量时段约为当地时间11:00—15:00;每次测量前使用白板进行校准。我们首先在每个土壤样点的5个子样本点分别采集50条光谱曲线,然后累加求取平均值作为该样点的最终反射率数值。为了消除噪声干扰,本研究删去了噪声影响波段,仅保留400~1 800 nm波段的数据,且在Unscrambler X 10.4软件中对其进行了Savitzky-Golay滤波处理23

在实验室内处理过程中,首先对土壤样品进行室内阴干处理,剔除大石块、树叶和植被根系;然后采用1 mm的土壤筛对其进行筛分处理,按照1∶5的土水比制备成土壤提取液;最后利用上海仪电科学仪器股份有限公司生产的LEICI DDS-307A电导率仪测得土壤样品的电导率数据。电导率数据是土壤盐分的重要替代性指标,因此本研究采用电导率数据研究土壤盐渍化问题24

1.3 模型建立

H2O机器学习框架具有开源、分布式和基于内存的特点,支持DRF、GBM、广义线性模型(Generalized linear modeling,GLM)、泛化低秩模型(Generalized low rank modeling,GLRM)和K均值聚类算法(K-means)等。本研究采用H2O机器学习框架建立DNN、DRF和GBM模型,对比分析3类模型在研究区的适用性。

H2O框架的DNN算法基于多层前馈人工神经网络,该网络包括输入层、隐藏层和输出层,使用反向传播的随机梯度下降训练,包含大量的隐藏层,由具有Tanh、Rectifier和Maxout函数的神经元组成(图2)。神经网络具有自学习、联想存储和高速寻找优化解的优点。

图2

图2   技术流程

Fig.2   Technical flow chart of this study


DRF算法具有强大的回归功能,基于一定数据生成一个分类或回归树森林,每棵树都是建立在行和列子集上的弱学习器,然后对所有树进行平均预测,以做出最终预测。DRF算法能够处理高维度数据,训练速度快,实现比较简单。

GBM是一种前向学习集成方法,H2O框架的GBM以完全分布式的方式在数据集的所有特征上依次构建回归树,且每棵树都是并行构建的。GBM算法擅长处理复杂的非线性数据,精度较高,计算效率高,具有单一决策树的优点。

为深入对比分析DNN、DRF和GBM等3个模型的综合性能,本研究从噪声处理、模型稳定性、共线性问题和模型准确度4个方面开展研究。高斯白噪声是分析信道加性噪声的理想模型,为了评价各个模型对噪声的处理性能,本研究在MATLAB R2017a软件中将原始数据按照10、20、40、60 dB和80 dB信噪比加入到高斯白噪声中,通过与回归分析结果的比较来评价各个模型处理噪声的性能。此外,本研究取原始光谱反射率数据的4/4、3/4、2/4和1/4衡量模型的稳定性。建模数据存在较强的共线性问题时会影响模型的模拟结果,易于引发欠拟合或过拟合问题,而模型对共线性问题的处理能力存在差异。高光谱数据的波段维度较高,波段之间存在数据冗余问题,一些波段可被其他波段线性表示,因此对波段进行降维处理有利于保证模型模拟能力。本研究对EC和土壤反射率之间的Spearman相关系数进行从大到小排列,取前5、10、20、40、60、80和100个波段作为模型的输入参数,模型运行过程中不再进一步筛选建模参数,最后对不同模型的反演精度进行对比分析。本研究采用五折交叉验证评估3个模型的模拟准确度。

1.4 模型验证

本研究采用均方根误差(Root mean square error,RMSE)和决定系数(Coefficient of determination,R2)验证模型的模拟精度。RMSE与模型模拟精度成正比,其数值愈大,模型模拟精度愈高。R2介于0和1之间,1表示模型的拟合结果完全正确,0表示拟合结果完全失真。此外,本研究将各算法的稳定性(Stability,STA)看作校准精度(Calibration accuracy,CAL)与验证精度(Validation accuracy,VAL)之间的差异22,并采用Z分数验证模型性能。

STA=(XCAL-YVAL)×100/XCAL

式中:XCALYVAL分别为不同模型的建模数据集和验证数据集的R2RMSE

ZSTA =(X-θ)/σ

式中:X是不同模型的原始STA数据;θ是所有模型STA的均值;σ是所有模型STA值的标准差。

Z=ZR+ZRMSE

式中:Z分数(Standard score)是模型的稳定系数,值越小,模型的稳定性越高22

2 结果

2.1 土壤电导率

H2O机器学习框架使用概率分割方法将输入数据分为训练集和验证集,训练集占3/4,验证集占1/4,因此139个样品中104个样品为训练集,35个样品为验证集。全部样品的平均值、中位数、标准差和变异系数均介于训练集和验证集之间。土壤样品的变异系数均高于1,说明该区的土壤样品电导率变异程度偏高(表1)。土壤属性数据之间的差异较大有利于采用模型进行回归预测25

表1   景电灌区土壤样本电导率数据统计特征

Table 1  Statistical characteristics of soil samples

数据集样品 数目

最大值

/(mS·cm-1)

最小值

/(mS·cm-1)

平均值

/(mS·cm-1)

中位数

/(mS·cm-1)

标准差

/(mS·cm-1)

变异 系数
训练集10423.000.042.930.345.201.77
验证集3525.200.083.570.226.571.84
全部样品13925.200.043.090.285.561.80

新窗口打开| 下载CSV


2.2 土壤高光谱反射率曲线

本研究参考前人的盐渍化程度分级标准26对土壤进行分级,景电灌区不少非盐渍化、轻度盐渍化和中度盐渍化土壤的光谱反射率低于0.4,而不少重度和极重度盐渍化土壤的光谱反射率高于0.4(图3)。在景电灌区的野外考察中,我们发现盐渍化程度愈重的区域颜色愈浅。通常情况下,土壤盐渍化程度越重,地表盐分含量越高,光谱反射率越强27。土壤是一个较为复杂的系统,土壤的粒径越粗,光谱反射率越强;土壤湿度越大,颜色越深,光谱反射率越弱;土壤有机质含量越高,颜色同样越深,光谱反射率越弱。诸多因素导致景电灌区的光谱反射率和电导率之间并未存在显著的正相关关系。由于水分吸收的影响,土壤样品的光谱曲线在1 400 nm处出现了吸收谷28。土壤电导率和高光谱反射率之间的Spearman相关性系数显示,随着波长的增加,二者之间的相关系数波动降低,这说明可见光和近红外波段包含的土壤敏感信息更为丰富。

图3

图3   景电灌区土壤样品光谱反射率(A1~A5)和EC-地表反射率之间的相关性(B)

Fig.3   Soil samples reflectance (A1-A5) and correlation between EC and soil reflectance (B)


2.3 土壤电导率反演模型构建与验证

2.3.1 共线性问题处理结果

本研究对土壤反射率与EC进行相关性分析,并对相关性数据进行倒序排列,选取不同数目的高相关性波段建立土壤盐渍化反演模型,发现随着波段数量的增加,模型的模拟准确度呈波动下降趋势(表2)。这说明高光谱数据极高的光谱分辨率有利于保证模型准确度,其中部分波段包含对土壤监测有效的光谱信息,但也存在对土壤监测无效的波段。400~450 nm波段存在极高的土壤盐分敏感信息,因而基于相关性最强的前5个波段建立的DNN和GBM模型模拟准确度明显高于基于其他波段的模型(图4)。在本研究采用的模型中,DNN模型的RMSE略低于DRF和GBM,其R2略高于DRF和GBM。3个模型中DRF的模拟精度偏低,GBM居中,DNN的模拟准确度最高。

表2   基于相关性倒序排列筛选的不同波段数目的建模结果

Table 2  Modeling results of different band filtering number based on correlation reversed arrangement

波段数DNNDRFGBM
RMSER2RMSER2RMSER2
51.730.802.360.631.880.77
102.860.743.260.703.160.74
203.360.693.400.563.570.65
403.510.734.20.643.570.72
603.460.723.560.703.490.71
802.250.753.550.512.990.59
1003.270.663.580.623.220.65
均值2.920.733.420.623.130.79

新窗口打开| 下载CSV


图4

图4   基于相关性倒序排列筛选的不同波段及DNN、DRF和GBM中的最佳建模结果

Fig.4   The best modeling results in DNN, DRF, and GBM based on the different bands filtered by reversed correlation order


2.3.2 噪声处理结果

遥感数据在采集和传输过程易于受到仪器以及环境的干扰,这导致遥感图像的质量受到影响而存在噪声。在地物光谱的测量过程中,传感器本身的混合效应、像元中的多种物质成分和大气层的干扰会影响土壤的光谱信息。光谱仪器的稳定性也会影响遥感数据的质量。评估模型对遥感数据噪声的规避和处理能力能够有效地提升模拟性能。模型模拟结果表明,DNN对噪声的处理能力优于DRF和GBM,后两者对噪声的处理能力相当。当信噪比高于20时,DNN、DRF和GBM的拟合能力较好(表3)。

表3   基于不同信噪比数据源的建模结果

Table 3  Modeling results of data source with different signal-to-noise ratio

数据 类型DNNDRFGBM
RMSER2RMSER2RMSER2
SNR-5 dB4.870.515.880.245.610.31
SNR-10 dB4.600.544.940.425.120.39
SNR-20 dB2.300.751.820.812.040.75
SNR-30 dB2.860.712.760.693.190.61
SNR-40 dB3.620.612.990.622.960.66
SNR-50 dB3.690.503.750.483.370.60
均值3.660.603.690.543.720.55

新窗口打开| 下载CSV


2.3.3 稳定性

由于不同模型在结构、算法复杂度和算法适用性方面存在差异,导致模型对数据维度的处理能力各不相同。当模拟场景发生变化时,不同模型模拟结果的变化程度不同。通过计算不同模型的Z分数,本研究发现DNN的Z分数略高于GBM和DRF,说明三者的稳定性较为接近(图5)。本研究选择所有波段的1/4、2/4、3/4和4/4分别建立盐渍化反演模型,以衡量DNN、DRF和GBM的稳定性。结果显示DNN模型的模拟结果精度较高,模型的稳定性较好。DRF和GBM的RMSER2近似(图6~7)。

图5

图5   不同数据源的Z分数

Fig.5   Z score of different data sources


图6

图6   基于在所有波段中占比不同的波段数量的模型拟合结果

Fig.6   Modeling fitting results of different bands proportion in all bands


图7

图7   不同数据源的建模结果(A1、A2:在所有波段中占比不同的波段的建模结果;B1、B2:基于相关性倒序排列筛选不同数目波段的建模结果;C1、C2:基于不同信噪比输入数据的建模结果)

Fig.7   Modeling results of different data sources (A1, A2: modeling results of different bands proportion in all bands; B1, B2: modeling results of different band filtering number based on correlation reversed arrangement; C1, C2: modeling results of data source with different signal-to-noise ratio)


2.3.4 准确度

本研究采用五折交叉验证评估DNN、DRF和GBM的模拟精度,按照R2大小对3个模型进行排序的结果为DNN(R2=0.81)、DRF(R2= 0.72)和GBM(R2=0.68),这说明DNN的模拟精度较高,而GBM和DRF的预测精度偏低(图8)。

图8

图8   不同模型的五折交叉验证结果

Fig.8   Results of five-fold cross-validation of different models


3 讨论

3.1 DNNDRFGBM模型的对比

本文证实DNN算法在盐渍化研究方面的预测精度最优,模型的稳定性、鲁棒性、处理共线性问题和噪声问题的能力较DRF和GBM好。深度学习算法被广泛应用于环境因子预测研究,是机器学习的进一步发展,为机器学习的分支29-34,DNN是深度学习算法中的一种,起源于人工神经网络。Zhang等35采用LOR(Logistic regression)、RFR、SVR(Support vector regression)、DTR(Decision tree regression)、MPR(Multilayer perceptron regression)和DNN算法对中国东北吉林大安市土壤盐渍化进行研究,结果表明DNN神经网络算法表现最佳,因为神经网络算法善于深入地学习抽象信息。Farifteh等36对比分析了PLSR和ANN在欧洲荷兰和匈牙利盐渍化土壤研究中的适用性,发现ANN神经网络算法的模拟精度高于PLSR。

本文的DRF和GBM模型在稳定性、共线性问题、噪声问题和模拟准确度方面较为接近。其他研究证实了这一结论37。RF和GBM被广泛应用于各项土壤指标的预测研究38-39,二者的提出人分别为Breiman40和Friedman41。RF和GBM均属于集成学习算法,这类算法是采用结合器对多个估计器进行整合,综合了单个估计器的优势,能够提升模型的鲁棒性。目前已有的集成学习算法主要包括基于Bagging或基于Boosting的算法。Bagging算法使用有放回的自助随机均匀取样法生成多个训练数据集,基于此训练多个模型,最后计算模型结果的均值作为预测结果。RF对Bagging算法进行了扩展,以CART为基学习器,且RF将随机特征应用至训练过程。RF基于大量决策树进行回归,有利于防止出现单棵决策树的过拟合问题,具有训练时间短和鲁棒性强的优点42-44。Boosting算法是根据错误率非随机取样。与Bagging算法不同,Boosting算法的各个预测函数必须按顺序生成,且函数之间有权重41。GBM算法基于损失函数的梯度下降方向建模。部分研究发现GBM的模拟结果较RF更优29-30。Jang等45通过2010年以来的L波段微波遥感图像以及KNN(K-nearest neighbor)、ANN、RF、XGBoost(Extreme gradient boost)、LightGBM(Light gradient boosting model)和GBRT等7种机器学习方法监测海洋表面含盐量,其中GBRT表现最佳。其他研究认为RF的模拟结果更优46-47。Quintano等48采用RF算法研究葡萄牙中部的火灾后地表的烧伤严重程度,取得了较好的结果。Wang等21对比分析了RFR、SVR、GBRT、MLPR和Lars,发现RFR在处理共线性问题和噪声问题方面效果更佳。因此,不同模型的适用区域和适用条件存在差异,在选择模型的时候应综合考虑区域异质性和数据源的适用性。

3.2 土壤盐分敏感波段

本研究中可见光和近红外高光谱反射率数据与电导率之间的相关性明显高于短波红外,这或许是土壤化学物质与高光谱数据极高光谱分辨率综合作用的结果。已有研究表明红光和近红外光谱区域与盐胁迫和地壳中形成的土壤矿物质的鉴定有关449。土壤中的黏土、粉砂和有机碳等的敏感波段位于1 900~2 400 nm,这些重要的土壤参数在短波红外光谱区具有吸收特征50-51。然而其他研究发现400~600 nm光谱波段在土壤化学元素和有机碳预测模型中具有较高的重要性52-53。王爽等54对新疆渭干河-库车河绿洲土壤盐渍化进行研究,发现盐渍化土壤的敏感波段主要位于可见光和近红外光谱范围(462、828、1 221 nm和2 016 nm)。传感器的噪声通常会随着光谱分辨率的增加而增加,增高光谱分辨率可能导致低信噪比,尤其是短波红外光谱区域55。因而可见光和近红外光谱波段包含的土壤信息较短波红外丰富,这与本研究的结论相符。

3.3 机器学习模型在未来土壤盐渍化空间监测研究中的可能性

野外实测高光谱数据能够提供土壤点数据,可采用空间插值法对土壤属性数据进行空间大尺度反演56-57。Ding等58基于Landsat数据采用泛克里金(Universal kriging)、光谱指数回归(Spectral index regression)和回归克里金(Regression kriging)建立了渭干河-库车河绿洲干湿两季的盐浓度分布模式,其中回归克里金的结果最准确。因此未来可以尝试采用回归克里金方法获得景电灌区的盐渍化土壤时空分布数据。

星载遥感图像数据与机器学习模型的结合为高精度的盐渍化土壤空间分布研究提供了可能性。Peng等18验证了Cubist较PLSR模型在研究区的拟合准确度更高,最终采用Cubist模型和Landsat 8 OLI遥感图像数据对新疆温宿县典型冲积扇的盐渍化土壤空间分布情况开展研究工作。不同算法适用条件存在差异,因而在研究过程中应该因地制宜22。Garajeh等59采用DL-CNN(Deep learning convolutional neural network)研究伊朗中部纳马克湖地区的盐渍化土壤分布情况,证实了神经网络算法在盐渍化土壤研究中的可行性。本研究对比分析了DNN、DRF和GBM算法在景电灌区的适用性,结果表明DNN神经网络算法的准确度和稳定性最优,因此下一步工作可基于遥感图像数据从时间序列和空间分布上深入研究景电灌区的土壤盐渍化状况。

4 结论

中国西北地区气候较为干旱,强烈的蒸发作用和不合理的农业活动加重了黄河灌溉区的土壤盐渍化问题。本研究基于景电灌区野外实测高光谱数据,从模型稳定性、噪声处理性能、共线性问题和模型准确度4个方面综合对比分析了DNN、DRF和GBM模型在土壤盐渍化程度预测研究中的适用性,力求在模型和数据源选择方面为景电灌区及其他气候干旱的灌区土壤盐渍化监测研究提供有价值的参考。

本研究发现DNN的综合性能最优,DRF和GBM的模拟能力较为接近。在模型稳定性方面,DNN最佳,GBM和DRF较为接近。在噪声处理性能方面,当输入数据的信噪比高于20时,DNN、DRF和GBM的模拟精度均较为理想。在共线性问题处理能力和预测准确度方面,DNN最强,GBM次之,DRF最弱。景电灌区的野外实测高光谱数据与EC之间的相关性较高,尤其是可见光和近红外波段,说明这些光谱波段含有丰富的盐分敏感信息。当与EC相关性高的波段数量增加时,模型的模拟精度波动降低。

参考文献

Sidike AZhao SWen Y.

Estimating soil salinity in Pingluo County of China using QuickBird data and soil reflectance spectra

[J].International Journal of Applied Earth Observation and Geoinformation,201426156-175.

[本文引用: 1]

Gorji TYildirim AHamzehpour Net al.

Soil salinity analysis of Urmia Lake Basin using Landsat-8 OLI and Sentinel-2A based spectral indices and electrical conductivity measurements

[J].Ecological Indicators,2020112106173.

Hopmans J WQureshi A SKisekka Iet al.

Critical knowledge gaps and research priorities in global soil salinity

[M]//Sparks Donald L.Advances in Agronomy.Pittsburgh,USAAcademic Press2021.

Allbed AKumar LAldakheel Y Y.

Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries:applications in a date palm dominated region

[J].Geoderma,20142301-8.

[本文引用: 2]

Aldabaa A A AWeindorf D CChakraborty Set al.

Combination of proximal and remote sensing methods for rapid soil salinity quantification

[J].Geoderma,2015239/24034-46.

[本文引用: 2]

Corwin D L.

Climate change impacts on soil salinity in agricultural areas

[J].European Journal of Soil Science,20212):13010.

Metternicht G IZinck J A.

Remote sensing of soil salinity:potentials and constraints

[J].Remote Sensing of Environment,2003851):1-20.

Guzinski RNieto H.

Evaluating the feasibility of using Sentinel-2 and Sentinel-3 satellites for high-resolution evapotranspiration estimations

[J].Remote Sensing of Environment,2019221157-172.

[本文引用: 1]

Hong YChen SChen Yet al.

Comparing laboratory and airborne hyperspectral data for the estimation and mapping of topsoil organic carbon:Feature selection coupled with random forest

[J].Soil & Tillage Research,2020199104589.

[本文引用: 1]

Castaldi FPalombo ASantini Fet al.

Evaluation of the potential of the current and forthcoming multispectral and hyperspectral imagers to estimate soil texture and organic carbon

[J].Remote Sensing of Environment,201617954-65.

[本文引用: 1]

An DZhao GChang Cet al.

Hyperspectral field estimation and remote-sensing inversion of salt content in coastal saline soils of the Yellow River Delta

[J].International Journal of Remote Sensing,2016372):455-470.

Roy C MDas SChristopher Jet al.

Improving biomass and grain yield prediction of wheat genotypes on sodic soil using integrated high-resolution multispectral,hyperspectral,3d point cloud,and machine learning techniques

[J].Remote Sensing,20211317):3482.

Zhu KSun ZZhao Fet al.

Relating hyperspectral vegetation indices with soil salinity at different depths for the diagnosis of winter wheat salt stress

[J].Remote Sensing,2021132):250.

Gomez CAdeline KBacha Set al.

Sensitivity of clay content prediction to spectral configuration of VNIR/SWIR imaging data,from multispectral to hyperspectral scenarios

[J].Remote Sensing of Environment,201820418-30.

[本文引用: 1]

唐海涛孟祥添苏循新.

基于CARS算法的不同类型土壤有机质高光谱预测

[J].农业工程学报,2021372):105-113.

[本文引用: 1]

钟亮郭熙国佳欣.

基于不同卷积神经网络模型的红壤有机质高光谱估算

[J].农业工程学报,2021371):203-212.

[本文引用: 1]

Lu PWang LNiu Zet al.

Prediction of soil properties using laboratory VIS-NIR spectroscopy and Hyperion imagery

[J].Journal of Geochemical Exploration,201313226-33.

[本文引用: 1]

Peng JBiswas AJiang Qet al.

Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province,China

[J].Geoderma,20193371309-1319.

[本文引用: 2]

Yang NYang SCui Wet al.

Effect of spring irrigation on soil salinity monitoring with UAV-borne multispectral sensor

[J].International Journal of Remote Sensing,202123/241-18.

Zeraatpisheh MAyoubi SJafari Aet al.

Digital mapping of soil properties using multiple machine learning in a semi-arid region,central Iran

[J].Geoderma,2019338445-452.

[本文引用: 1]

Wang S JChen Y HWang M Get al.

Performance comparison of machine learning algorithms for estimating the soil salinity of salt-affected soil using field spectral data

[J].Remote sensing,20191122):2605.

[本文引用: 2]

Wang FShi ZBiswas Aet al.

Multi-algorithm comparison for predicting soil salinity

[J].Geoderma,2020365114211.

[本文引用: 4]

Savitzky AGolay M J.

Smoothing and differentiation of data by simplified least squares procedures

[J].Analytical Chemistry,1964368):1627-1639.

[本文引用: 1]

Wang FYang SWei Yet al.

Characterizing soil salinity at multiple depth using electromagnetic induction and remote sensing data with random forests:a case study in Tarim River Basin of southern Xinjiang,China

[J].The Science of the Total Environment,2021754142030.

[本文引用: 1]

Gomez CLagacherie PCoulouma G.

Regional predictions of eight common soil properties and their spatial structures from hyperspectral Vis-NIR data

[J].Geoderma,2012189/190176-185.

[本文引用: 1]

Ivushkin KBartholomeus HBregt A Ket al.

Global mapping of soil salinity change

[J].Remote Sensing of Environment,2019231111260.

[本文引用: 1]

Rao B R MSharma R CRavi Sankar Tet al.

Spectral behaviour of salt-affected soils

[J].International Journal of Remote Sensing,19951612):2125-2136.

[本文引用: 1]

Bowers S ASmith S J.

Spectrophotometric determination of soil-water content

[J].Soil Science Society of America Journal,1972366):978-980.

[本文引用: 1]

Camacho De Coca FBaret FWeiss Met al.

Comparison of physically-based and empirical methods for retrieval of LAI and FAPAR over specific and generic crops using Landsat-8 data

[C]//Recent Advance in Quantitative Remote Sensing.Torrent,Valencia,Spain2017.

[本文引用: 2]

Suo XJiang YMei Yet al.

Artificial neural network to predict leaf population chlorophyll content from cotton plant images

[J].Agricultural Sciences in China,201091):38-45.

[本文引用: 1]

Liu MLiu XLi Met al.

Neural-network model for estimating leaf chlorophyll concentration in rice under stress from heavy metals using four spectral indices

[J].Biosystems Engineering,20101063):223-233.

Kira OLinker RGitelson A.

Non-destructive estimation of foliar chlorophyll and carotenoid contents:focus on informative spectral bands

[J].International Journal of Applied Earth Observation and Geoinformation,201538251-260.

Sehgal V KChakraborty DSahoo R N.

Inversion of radiative transfer model for retrieval of wheat biophysical parameters from broadband reflectance measurements

[J].Information Processing in Agriculture,201632):107-118.

Verrelst JMuñoz JAlonso Let al.

Machine learning regression algorithms for biophysical parameter retrieval:opportunities for Sentinel-2 and-3

[J].Remote Sensing of Environment,2012118127-139.

[本文引用: 1]

Zhang QLi LSun Ret al.

Retrieval of the soil salinity from Sentinel-1 dual-polarized sar data based on deep neural network regression

[J].IEEE Geoscience and Remote Sensing Letters,2022191-5.

[本文引用: 1]

Farifteh JVan der Meer FAtzberger Cet al.

Quantitative analysis of salt-affected soil reflectance spectra:a comparison of two adaptive methods (PLSR and ANN)

[J].Remote Sensing of Environment,20071101):59-78.

[本文引用: 1]

Golden C ERothrock M JMishra A.

Comparison between random forest and gradient boosting machine methods for predicting Listeria spp.prevalence in the environment of pastured poultry farms

[J].Food Research International,201912247-55.

[本文引用: 1]

Brillante LGaiotti FLovat Let al.

Investigating the use of gradient boosting machine,random forest and their ensemble to predict skin flavonoid content from berry physical-mechanical characteristics in wine grapes

[J].Computers and Electronics in Agriculture,2015117186-193.

[本文引用: 1]

Belgiu MDrăguţ L.

Random forest in remote sensing:a review of applications and future directions

[J].ISPRS Journal of Photogrammetry and Remote Sensing,201611424-31.

[本文引用: 1]

Breiman L.

Random forests

[J].Machine Learning,2001451):5-32.

[本文引用: 1]

Friedman J H.

Stochastic gradient boosting

[J].Computational Statistics & Data Analysis,2002384):367-378.

[本文引用: 2]

Cutler D REdwards T CBeard K Het al.

Random forests for classification in ecology

[J].Ecology,20078811):2783-2792.

[本文引用: 1]

Rodriguez-Galiano V FGhimire BRogan Jet al.

An assessment of the effectiveness of a random forest classifier for land-cover classification

[J].ISPRS Journal of Photogrammetry and Remote Sensing,20126793-104.

Wang XGao XZhang Yet al.

Land-cover classification of coastal wetlands using the RF algorithm for Worldview-2 and Landsat 8 images

[J].Remote Sensing,20191116):1927.

[本文引用: 1]

Jang EKim Y JIm Jet al.

Global sea surface salinity via the synergistic use of SMAP satellite and HYCOM data based on machine learning

[J].Remote Sensing of Environment,2022273112980.

[本文引用: 1]

Nawar SMouazen A M.

Comparison between random forests,artificial neural networks and gradient boosted machines methods of on-line VIS-NIR spectroscopy measurements of soil total nitrogen and total carbon

[J].Sensors,2017172428.

[本文引用: 1]

Sorenson P TSmall CTappert M Cet al.

Monitoring organic carbon,total nitrogen,and pH for reclaimed soils using field reflectance spectroscopy

[J].Canadian Journal of Soil Science,2017972):241-248.

[本文引用: 1]

Quintano CFernandez-Manso ARoberts D A.

Enhanced burn severity estimation using fine resolution ET and MESMA fraction images with machine learning algorithm

[J].Remote Sensing of Environment,2020244111815.

[本文引用: 1]

Zhang TZeng SGao Yet al.

Using hyperspectral vegetation indices as a proxy to monitor soil salinity

[J].Ecological Indicators,2011116):1552-1562.

[本文引用: 1]

Ben-Dor EChabrillat SDemattê J A Met al.

Using imaging spectroscopy to study soil properties

[J].Remote Sensing of Environment,2009113S38-S55.

[本文引用: 1]

Rossel R A VBehrens T.

Using data mining to model and interpret soil diffuse reflectance spectra

[J].Geoderma,20101581/2):46-54.

[本文引用: 1]

Viscarra Rossel R AFouad YWalter C.

Using a digital camera to measure soil organic carbon and iron contents

[J].Biosystems Engineering,20081002):149-159.

[本文引用: 1]

Melendez-Pastor INavarro-Pedreño JGómez Iet al.

Identifying optimal spectral bands to assess soil properties with VNIR radiometry in semi-arid soils

[J].Geoderma,20081473/4):126-132.

[本文引用: 1]

王爽丁建丽王璐.

基于地表光谱建模的区域土壤盐渍化遥感监测研究

[J].干旱区地理,2016391):190-198.

[本文引用: 1]

Lobell D BAsner G P.

Moisture effects on soil reflectance

[J].Soil Science Society of America Journal,2002663):722-727.

[本文引用: 1]

Guo LZhang HShi Tet al.

Prediction of soil organic carbon stock by laboratory spectral data and airborne hyperspectral images

[J].Geoderma,201933732-41.

[本文引用: 1]

Ding J LYao YWang F.

Detecting soil salinization in arid regions using spectral feature space derived from remote sensing data

[J].Acta Ecologica Sinica,20143416):4620-4631.

[本文引用: 1]

Ding JYu D.

Monitoring and evaluating spatial variability of soil salinity in dry and wet seasons in the Werigan-Kuqa Oasis,China,using remote sensing and electromagnetic induction instruments

[J].Geoderma,2014235/236316-322.

[本文引用: 1]

Garajeh M KBlaschke THaghi V Het al.

A comparison between Sentinel-2 and Landsat 8 OLI satellite images for soil salinity distribution mapping using a deep learning convolutional neural network

[J].Canadian Journal of Remote Sensing,2022483):452-468.

[本文引用: 1]

/