img

官方微信

高级检索

中国沙漠, 2025, 45(2): 191-204 doi: 10.7522/j.issn.1000-694X.2024.00115

基于蒲公英优化随机森林模型的沙漠土壤Fe2O3 含量高光谱遥感反演

胡昕,1, 买买提·沙吾提,1, 张峰1, 崔锦涛1, 艾尼玩·艾买尔2, 阿斯娅·曼力克2

1.新疆大学 地理与遥感科学学院/绿洲生态教育部重点实验室/智慧城市与环境建模自治区普通高校重点实验室/塔克拉玛干沙漠腹地绿洲过程新疆野外科学观测研究站,新疆 乌鲁木齐 830017

2.新疆畜牧科学院 草业研究所/天山北坡草地生态环境野外定位观测研究站,新疆 乌鲁木齐 830057

Hyperspectral remote sensing estimation of Fe2O3 content in desert soil based on dandelion-optimized random forest model

Hu Xin,1, Mamat Sawut,1, Zhang Feng1, Cui Jintao1, Ainiwan Aimaier2, Asiya Manlike2

1.College of Geography and Remote Sensing Sciences / MOE Key Laboratory of Oasis Ecology / Key Laboratory of Smart City and Environment Modelling of Higher Education Institute / Xinjiang Field Scientific Observation and Research Station for the Oasisization Process in the Hinterland of Taklamakan Desert,Xinjiang University,Urumqi 830017,China

2.Grassland Research Institute / Field Orientation Observation and Research Station of Grassland Ecological Environment on the Northern Slope of Tianshan Mountains,Xinjiang Academy of Animal Science,Urumqi 830057,China

通讯作者: 买买提·沙吾提(E-mail: korxat@xju.edu.cn

收稿日期: 2024-07-30   修回日期: 2024-12-03  

基金资助: 新疆自然科学计划(自然科学基金)联合基金项目.  2021D01C055
国家科技基础资源调查专题.  2017FY101004

Received: 2024-07-30   Revised: 2024-12-03  

作者简介 About authors

胡昕(1997—),女,山西晋中人,硕士研究生,研究方向为干旱区高光谱定量反演E-mail:107552201144@stu.xju.edu.cn , E-mail:107552201144@stu.xju.edu.cn

摘要

沙漠土壤光谱与氧化铁(Fe2O3)含量之间的关系尚不明确,且缺乏有效监测方法。以新疆古尔班通古特沙漠为研究区,采集沙漠样本,获取其Fe2O3含量和光谱数据。通过对原始光谱进行分数阶微分(FOD)和连续小波变换(CWT),利用相关性分析确定了沙漠土壤Fe2O3含量的最优光谱变换形式,并采用遗传算法(GA)进行敏感波段的提取。建立了蒲公英优化随机森林(DO-RF)模型估算沙漠土壤Fe2O3含量。结果表明:(1)随着Fe2O3含量的增加,沙漠土壤的反射率逐渐降低,即沙漠土壤Fe2O3含量和土壤光谱反射率负相关;(2)FOD和CWT均可以提高沙漠土壤反射率及其Fe2O3含量反演的相关性水平。其中,基于1.2阶次的FOD和1尺度下CWT的相关性最高,相关系数分别达0.840和0.839;(3)GA能够有效剔除共线性较强的冗余波段,在1.2阶次的FOD下,从512个光谱波段中优选出31个特征波段,压缩了93.945%,在1尺度的CWT下,从119个光谱波段中优选出13个特征波段,压缩了89.076%;(4)基于CWT处理的DO-RF模型精度和稳定性最佳,模型验证决定系数(R2)达0.908,均方根误差(RMSE)为0.340,相对分析误差(RPD)为3.390,比未优化的RF、PLSR和SVM,R2分别提高了2.7%、22.6%、4%,RMSE分别降低了6.6%、27.8%、8.7%,RPD分别提高了54.9%、152.2%、68.6%。

关键词: 沙漠土壤 ; Fe2O3含量 ; 高光谱遥感 ; 蒲公英优化 ; 随机森林

Abstract

The relationship between desert soil spectra reflectance and iron oxide (Fe2O3) content remains unclear, and effective monitoring methods are lacking. In this study, we focus on the Gurbantunggut Desert in Xinjiang, where desert soil samples were collected to obtain both Fe2O3 content and spectral data. Using fractional order differentiation (FOD) and continuous wavelet transform (CWT) to preprocess the original spectral data, we performed correlation analysis to identify the optimal spectral transformations for estimating Fe2O3 content in desert soils. Genetic algorithms (GA) were employed to extract sensitive spectral bands, and a Dandelion Optimization-based Random Forest (DO-RF) model was developed for Fe2O3 content estimation. The results indicate the following: (1) With the increase of Fe2O3 content, the reflectance of desert soil gradually decreases, showing a negative correlation between Fe2O3 content and soil spectral reflectance; (2) Both FOD and CWT can enhance the correlation between desert soil reflectance and its Fe2O3 content. Specifically, the highest correlations are achieved with FOD at the 1.2 order and CWT at a scale of 1, reaching 0.840 and 0.839 respectively; (3) GA effectively eliminates highly collinear redundant bands. Under a 1.2-order Fractional Order Derivative (FOD), it selects 31 optimal feature bands from 512 spectral bands, compressing them by 93.945%. Similarly, under a 1-scale Continuous Wavelet Transform (CWT), it identifies 13 optimal feature bands from 119 spectral bands, achieving an 89.076% compression; (4) The DO-RF model based on CWT processing exhibits the best accuracy and stability. The model validation coefficient of determination (R2) reaches 0.908, the root mean square error (RMSE) is 0.340, and the relative prediction deviation (RPD) is 3.390. Compared to the unoptimized RF, PLSR, and SVM, the R2 increases by 2.7%, 22.6%, and 4%, while the RMSE decreases by 6.6%, 27.8%, and 8.7%, and the RPD increases by 54.9%, 152.2%, and 68.6% respectively. These findings can serve as a reference for future satellite spectral remote sensing monitoring of Fe2O3 content in desert soil.

Keywords: desert soil ; Fe2O3 content ; hyperspectral remote sensing ; dandelion optimization ; random forest

PDF (3621KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

胡昕, 买买提·沙吾提, 张峰, 崔锦涛, 艾尼玩·艾买尔, 阿斯娅·曼力克. 基于蒲公英优化随机森林模型的沙漠土壤Fe2O3 含量高光谱遥感反演. 中国沙漠[J], 2025, 45(2): 191-204 doi:10.7522/j.issn.1000-694X.2024.00115

Hu Xin, Mamat Sawut, Zhang Feng, Cui Jintao, Ainiwan Aimaier, Asiya Manlike. Hyperspectral remote sensing estimation of Fe2O3 content in desert soil based on dandelion-optimized random forest model. Journal of Desert Research[J], 2025, 45(2): 191-204 doi:10.7522/j.issn.1000-694X.2024.00115

0 引言

铁氧化物作为土壤中最丰富的金属氧化物,在全球各种类型土壤中广泛分布1。铁氧化物具有较强的地球化学敏感性2,能够吸附沙漠土壤中的大量重金属、非金属离子和含氧阴离子,进而影响这些元素在沙漠中的浓度、形态和迁移转化3,是沙漠土壤形成和发育的函数4。因此,快速准确掌握大尺度沙漠土壤的Fe2O3含量信息对于监测沙漠土壤环境质量、预防和缓解沙化以及合理开发利用土地资源等方面具有重要意义。虽然传统的土壤Fe2O3含量监测方法能够提供较为准确的结果,但其操作繁琐,成本高,且难以满足大尺度土壤Fe2O3含量的测定需求。

随着遥感技术的发展,高光谱技术已被用于土壤氧化铁含量反演,此方法能够以其波段连续性强、光谱分辨率高等优点快速准确获取大范围的土壤Fe2O3信息。Camargo等5以巴西甘蔗种植园土壤中氧化铁为研究对象,基于土壤光谱数据,利用偏最小二乘回归(Partial least squares regression,PLSR)构建了土壤氧化铁含量预测模型,其最高R2为0.832,并绘制了土壤氧化铁含量空间分布图;郭颖等6以亚热带典型地区珠江三角洲水稻土为例,在Pearson相关性分析基础上通过逐步多元线性(Stepwise multiple liner,SML)以及主成分分析(Principal component analysis,PCA)的手段提取特征光谱波段,建立土壤氧化铁的反演模型(R2=0.93,RPD=12.20);谭洁等7对大围山森林土壤光谱进行一阶微分、去包络线等5种预处理,并利用多元逐步回归(Multiple stepwise regression,MSR)和PLSR在经过相关性分析筛选出的敏感波段上建立了土壤氧化铁全量反演模型,以去包络线处理的土壤光谱反射率为自变量建立别的土壤氧化铁PLSR模型的R2最高,为0.936;赵海龙等8以云南省禄丰恐龙谷南缘地表的土壤实验室光谱及其氧化铁含量为主要数据源,利用连续小波变换(Continuous wavelet transformation,CWT)后的多尺度敏感波段进行竞争性自适应重加权算法(Competitive adaptive reweighted sampling,CARS)的特征波段筛选,结合以遗传算法(Genetic algorithm,GA)优化的支持向量机(Support vector machine,SVM)成功构建了土壤氧化铁含量的估算模型,结果显示以第4尺度的CWT构建的模型效果最好,其建模集和验证集R2分别为0.760和0.663。尽管上述研究已经取得良好的结果,但大多是针对亚热带农田、山地土壤氧化铁进行反演,而针对沙漠土壤的仍较为稀缺,因此这些方法在干旱区沙漠土壤中的适用性和推广性受到限制。此外,尽管高光谱技术在干旱区土壤参数反演方面已经取得一些进展,主要在土壤水分、盐分、有机质含量等方面,而对土壤Fe2O3含量反演方面仍需进一步研究。特别是沙漠土壤光谱与Fe2O3含量之间的关系尚未明确。以往的研究多采用全谱段数据进行土壤Fe2O3含量预测,但研究表明,土壤氧化铁含量的特征波段主要在可见光和近红外波段范围内9-11,因此使用全谱段进行反演往往显得冗余,且计算过程复杂、耗时较长,可能会降低模型的准确性和稳定性。因此,进一步探讨如何利用高光谱数据高效、准确地反演沙漠土壤中的Fe2O3含量,显得尤为必要。

基于此,研究选择中国第二大沙漠——古尔班通古特沙漠为研究区,结合高光谱遥感技术和实地采集的沙漠土壤样本,开展土壤Fe2O3含量的反演研究。研究旨在:①揭示沙漠土壤光谱与Fe2O3含量之间的关系,确定与沙漠土壤Fe2O3含量相关的敏感波段位置;②构建基于蒲公英优化的RF模型,以反演沙漠土壤Fe2O3含量,为今后沙漠土壤Fe2O3含量卫星光谱遥感监测提供参考。

1 材料与方法

1.1 研究区概况

研究区为中国新疆准噶尔盆地中部的古尔班通古特沙漠,面积约4.88万km2,约占全国沙漠面积的6.8%。古尔班通古特沙漠是中国第二大沙漠,也是受西风带影响最大的固定、半固定沙漠。该区域是典型的温带大陆性荒漠气候,夏季干燥炎热,冬季寒冷漫长。年平均气温6.6 ℃,年降水量70~180 mm,年蒸发量约1 000 mm。新成风砂土为沙漠土壤主要基质,由1.3%黏土、13.7%壤土和85%砂土组成12

1.2 野外实测数据采集及Fe2O3 含量测定

于2017年9—10月及2018年10月,在古尔班通古特沙漠及其周围的河流区域,通过套筒法采集表层样品(0~10 cm)共30个,包括22个沙漠沙样品和8个河流沙样品(天山北坡河流沙)。采样点的具体分布如图1所示。具体采样流程为使用直径5 cm的不锈钢管进行垂直采样,并使用GPS记录采样点的经纬度和高程。粒度测定通过筛析法进行,选取粒径在125~250 μm的样品进行Fe2O3含量测定。该测定工作在中国科学院地球环境研究所黄土与第四纪国家重点实验室完成,所用仪器为Axios advanced PW4400型(荷兰产)X射线荧光光谱仪。

图1

图1   研究区示意图

Fig.1   Study area


1.3 土壤光谱数据采集与处理

研究使用内置光源的美国ASD FieldSpec 4光谱仪接触式探头进行土壤光谱采集,其波长范围为350~2 500 nm,重采样间隔为1 nm,有效波段数为2 151个。土壤光谱采集在标准暗室内进行,每次测量前进行暗电流和白板校正。对于每个样品,采集人员在样品中心及其周边6个点位各重复测量3次,最终每个样品共测得21条光谱曲线。为降低噪声影响,使用Viewspec PRO软件剔除350~399 nm和2 400~2 500 nm两个光谱区间的光谱数据,并对剩余的400~2 399 nm的光谱数据求取平均值。此外,使用Savitzky-Golay(SG)滤波对光谱数据进行平滑处理。利用分数阶微分变换或连续小波变换处理可有效去除冗余的光谱信息,扩宽光谱的吸收特性13-14。因此,本研究利用这两种方法对原始光谱进行进一步处理,以提高数据质量。

分数阶微分变换(Fractional order differential, FOD)是关于函数任意阶微分和积分的数学理论和拓展运用的方法,更是对传统整数阶微分的结合和延续,本研究选择最适合信号处理的Grünwald-Letnikov分数阶微分变换13

dvf(x)dxvf(x)+(-v)f(x-1)+(-v)(-v+1)2f(x-2)++Γ(-v+1)m!Γ(-v+n+1)f(x-m)

式中:x为光谱自变量;v为阶数;Γ()为Gamma函数;m为微分上下限差。以0.1为步长进行0~2.0阶微分变换,v=0.0、0.1、0.2、…、2.0,其中v=0.0表示原始光谱,v=1.0表示一阶微分,v=2.0表示二阶微分,其他阶次以此类推,利用Matlab软件完成分数阶微分的计算。

连续小波变换(Continuous wavelet transformation,CWT)作为一种信号处理方法,可以有效去除白噪音14,故研究采用与沙漠土壤光谱曲线特征相似的Gaussian4函数为小波基函数15

ψa,b(λ)=1aψλ-ba

式中:λ为波谱曲线的波段数;a为尺度因子,a=1、2、…、10;b为平移因子,b=2;ψ(·)为小波基函数。小波分解后可以得到不同波长和分解尺度下的小波系数,即

Wf(a,b)=-+f(λ)ψa,b(λ)dλ

式中:f(λ)为光谱反射率;小波系数Wf(a,b)是一个行为尺度数,其列为波长数的矩阵16。本研究利用Matlab软件对原始光谱进行1~10尺度的变换分解。

1.4 特征波段选择

遗传算法(Genetic algorithm,GA)为全局自适应搜索算法,参考了自然界生物进化机制。该算法通过模拟种群中个体的选择、交换、变异等遗传操作,在每次迭代中按照个体的适应度高度对其进行保留和去除处理,以筛选最优特征组合17。GA具有全局搜索能力,消除无关变量的优势,并能够有效规避过拟合18。因此,本研究选择该算法进行建模变量提取。

1.5 Fe2O3 含量反演模型构建

分别以两种光谱变换下的GA选择光谱特征作为模型输入参数,基于Matlab软件,选择PLSR、SVM、RF机器学习回归模型建立基于波谱响应特征的沙漠土壤Fe2O3含量反演模型。

PLSR是典型的线性回归模型,集成了多元回归、典型相关分析以及主成分分析等多种优点19,现已被广泛用于土壤光谱数据建模和分析。该方法的主要优势是能够有效解决自变量之间的多重共线性问题20

SVM基于结构风险最小化原则,旨在最大化模型的泛化能力21,具有灵活、高效的特点,同时表现出良好的泛化能力和鲁棒性,能够有效避免过拟合问题22。相关研究表明,SVM在土壤属性估算建模过程中表现出较好的稳定性和较高的预测精度23-24

RF是基于决策树的机器学习算法,通过构建多颗决策树并将其预测结果进行集成,从而实现回归预测25。作为集成学习方法,RF能够显著提高模型的预测精度和稳定性,并有效避免数据过拟合现象,尤其在处理高维数据和复杂问题时表现出优异性能26

1.6 蒲公英优化随机森林模型

蒲公英优化(Dandelion optimization,DO)算法27比其他优化算法具有收敛快、全局搜索能力强等优势,但其在土壤属性反演中的可行性尚未探索。故本研究运用基于DO的RF机器学习方法建立了土壤Fe2O3含量反演模型,将其结果与未改进的RF、PLSR、SVM方法结果进行对比。本研究利用Matlab软件进行Fe2O3含量反演模型的构建。

蒲公英优化算法仿照蒲公英的御风长距离飞行,包括上升、下降和着陆3个阶段,进而建立数学模型。

上升阶段。蒲公英种子需要达到一定高度后才能分散。受风速、温度、湿度等影响,蒲公英种子上升高度不同,按天气可分为晴天和雨天。其中,晴天蒲公英种子呈现螺旋状上升,雨天蒲公英种子无法充分地随风上升,种子在局部领域中飘逸。

Xt+1=Xt+αvxvyln YXs-Xtrandn<1.5Xtkelse

式中:Xt+1Xt表示蒲公英种子在迭代tt+1时的位置;α为步长;vxvy表示与分离涡有关的升力分量的速度;ln Y为服从对数正态分布的风速;Xs表示迭代t过程中在搜索空间中随机选取的位置;k为调节局部搜索域的系数;randn( )是服从标准正态分布的随机数。

下降阶段。通过在全局空间中不断调整飞行方向,上升到一定高度后种子稳定下降。

Xt+1=Xt-αβtXmean_t-αβtXt

式中:βt表示布朗运动,是服从标准正态分布的随机数;Xmean_t表示种群在第i次迭代中的平均位置,其数学表达式为:

Xmean_t=1popi=1popXi

式中:pop为种群规模;Xi 为种群的第i个个体。

着陆阶段。在风和天气的影响下,蒲公英种子随机选择位置降落,随着迭代次数增加,算法有望收敛于全局最优解,反映种子最容易存活的近似位置。在确定最优种子生长位置后,利用当前精英个体局部领域内的信息,可以使算法精确收敛于全局最优解。

Xt+1=Xelite+levy (λ)αXelite-Xtδ
Levy (λ)=s×w×σ|t|1β
σ=Γ(1+β)×sin πβ2Γ1+β2×β×2β-12

式中:Xelite表示蒲公英种子在第i次迭代中的最优位置;levy (λ)表示levy飞行的函数;β=1.5;s=0.01;wt是[0,1]内的随机数;δ是[0,2]内的线性增函数;Γ()为Gamma函数。

1.7 模型构建及精度评价

将30个土壤样本按照2∶1的比例随机抽取20个样本用于建模,剩余10个样本用于验证。采用决定系数(Coefficient of Determination,R2)、均方根误差(Root Mean Squared Error,RMSE)、相对分析误差(Ratio of performance to deviation,RPD)作为评价指标。R2越大,说明实测值和预测值的拟合程度越高,模型越稳定。RMSE越小,说明模型精度越高,反演能力越强。RPD越大,模型预测能力越好。当RPD>2,表明模型预测能力极好;1.4<RPD<2,表明模型能够对样本进行粗略估计;RPD<1.4,表明模型无法对样本进行预测28

2 结果与分析

2.1 土壤Fe2O3 含量统计特征

研究区沙漠土壤Fe2O3含量(wt)为0.970%~4.580%,均值为2.324%,变异系数为49.733%,表明该区域沙漠土壤Fe2O3含量呈现高度变异(表1)。这一结果反映了该研究区土壤Fe2O3含量的空间异质性较大,所选样本具有较高代表性。此外建模集和验证集的Fe2O3含量平均值和标准差差异较小,这表明建模集和验证集具有相似的Fe2O3含量分布,其划分合理,有助于模型的建模和验证。

表1   沙漠土壤Fe2O3 含量统计特征

Table 1  Statistical characteristics of desert soil Fe2O3 content

样本集样本数量Fe2O3含量/%
最小值最大值平均值标准差变异系数
建模集200.9704.5802.1551.14853.258
验证集101.1604.1802.6601.15443.397
全集300.9704.5802.3241.15649.733

新窗口打开| 下载CSV


2.2 沙漠土壤光谱特征

研究区沙漠土壤样本的反射率为0.10~0.50,整体反射率较低且光谱曲线较为平坦,显示出土壤的典型光谱特征(图2)。同时,全部土壤样本的光谱曲线变化趋势基本相似。沙漠土壤样本在不同波长下的平均反射率为0.10~0.40。在可见光波段(400~600 nm)反射率急剧上升,从601 nm至近红外1 100 nm,反射率上升较为缓慢且平稳,并在1 000 nm波段附近,由于沙漠土壤中常见的黏土矿物雷蒙石的影响,光谱曲线出现弱吸收峰29。此外,在短波红外波段(1 101~2 400 nm),光谱曲线在1 400、1 900、2 200、2 300 nm波段附近由于水分、黏土、有机物等的吸收作用,出现明显波动30。因此,为减少水分、黏土、有机物等对沙漠土壤中Fe2O3含量的干扰,研究选取与沙漠土壤Fe2O3相关性较高的可见光-近红外(400~1 300 nm)波段进行后续分析。沙漠土壤Fe2O3含量和土壤光谱反射率负相关。沙漠沙土壤反射率高于河流沙,但二者的变化趋势基本相同。造成这种差异的原因是河流沙和沙漠沙的形成环境和物质组成不同。

图2

图2   沙漠土壤光谱曲线

Fig.2   Spectral curve of desert soil


2.3 土壤Fe2O3 与光谱反射率相关性

对沙漠土壤光谱反射率分别进行FOD和CWT处理后,将其与Fe2O3含量进行Pearson相关性分析,并在P=0.001水平下进行相关系数r的显著性检验(图34)。随着FOD变换阶次的增大,敏感波段数量逐渐减少,出现的位置也发生较大变化。这或许是因为较高阶次的分数阶微分变换使光谱数据经历了更多的变换和平滑操作,对于光谱数据中的噪音和细节更为敏感,从而使得相关性发生剧烈变化。其中,0~0.8阶次微分变换下,相关性曲线整体趋于一致,且最大相关系数绝对值均大于原始光谱(0阶次微分变换)的最大相关系数绝对值0.741,敏感波段主要在500 nm之后的波段。从1.0阶次微分变换开始,相关性开始出现较大波动,且最大相关系数绝对值普遍高于原始光谱,其中1.2阶次微分变换时的相关性最高,达到0.84,出现在722 nm附近。

图3

图3   沙漠土壤Fe2O3含量与FOD的相关系数

Fig.3   Correlation coefficient between Fe2O3 content of desert soil and fractional order differential transformation


图4

图4   沙漠土壤Fe2O3含量与CWT的相关系数

Fig.4   Correlation coefficient between Fe2O3 content of desert soil and continuous wavelet transformation


随着CWT尺度的增大,敏感波段的数量整体呈现递增趋势,出现的位置逐渐稳定(图4)。这或许是由于随着尺度的增大,平滑效应能够减小噪音的影响,使得光谱数据整体趋于一致,从而增加了通过显著性检验的波段数量。其中,1~6变化尺度的波动较大,其最大相关系数绝对值均大于原始光谱 (0尺度变换)的最大相关系数绝对值0.741。尤其是在1尺度变换时,最大的相关系数达到0.839,这可能是因为较小的CWT变换尺度对应的小波函数更加关注信号的细节特征,因此能较好地平衡对信号细节和整体特征的捕捉。在此变换尺度下,敏感波段主要在500、700、1 200 nm波段附近,这与1.2阶微分变换下的敏感波段位置大致相同。而在7~10变化尺度下,敏感波段的分布趋于稳定,主要在可见光400~700 nm波段和近红外900 nm之后的区域。

2.4 土壤Fe2O3 特征波段提取

仅通过Pearson相关性分析得到的沙漠土壤Fe2O3敏感波段数量较大,并且某些波段之间存在共线性问题。因此,研究在此基础上进一步使用GA对土壤Fe2O3敏感波段进行提取,以便更加精确地识别与沙漠土壤Fe2O3含量相关的波段。为了直观展示特征波段的分布情况,绘制了基于GA提取的不同变换下的特征波段分布(图5)。在FOD变换下,1.2阶微分变换仍表现出最高相关性,其最大相关系数绝对值达0.827,出现在676 nm波段。这表明1.2阶微分变换能够更好地捕捉到与沙漠土壤Fe2O3含量相关的信息。在此阶次下,提取出的波段数量为31,较Pearson相关性分析得到的512个敏感波段大幅减少,且这些敏感波段主要分布在760 nm之后的近红外区域,在600 nm之前的可见光波段也有少量分布。另外,在CWT处理下,最大相关性仍然出现在1变化尺度下。此时,490 nm波段的最大相关系数绝对值为0.839,敏感波段数量显著低于Pearson相关性分析中所得的119个,仅为13个,主要分布在可见光490~700 nm和近红外880~1 100 nm。上述分析表明,GA可以有效地筛选出与沙漠土壤Fe2O3含量密切相关的敏感波段,为后续建模提供重要的光谱参量。

图5

图5   基于GA的不同变换下特征波段分布

Fig.5   Characteristic band distribution under different transformations based on GA


2.5 土壤Fe2O3 含量反演模型构建

基于GA筛选的1.2阶次微分(FOD1.2)和1变换尺度(CWT1)的特征波段,采用RF、PLSR和SVM模型对沙漠土壤Fe2O3含量进行建模(表2)。运用RF模型进行建模时,无论FOD变换和CWT处理,R2均大于0.8,表明实测值与模型预测值拟合程度高,模型较为稳定;其RMSE值均较小,说明该模型精度较高,反演能力较强;RPD均大于2,说明模型有极好的预测能力。同时,通过对比得出,这两种变换方法在建模和验证时效果基本相同。同样,FOD变换和CWT处理的RF验证结果显示,其R2均大于0.8,RMSE值均较小,RPD均大于2,表明模型较为稳定,精度较高,预测能力好,进一步证明利用该模型能够较好地对沙漠土壤Fe2O3含量进行估算。另外,运用PLSR和SVM进行建模和验证的结果显示,其R2RPD均较基于RF构建的模型小,RMSE值均较大。这表明RF模型相比PLSR和SVM对于沙漠土壤Fe2O3含量能够更好地体现。为了更加直观地对比3种模型效果,绘制建模集与验证集的预测值和实测值拟合分析(图67),无论是FOD变换和CWT处理,相比PLSR和SVM,RF的数据分布较为均匀,与上述分析一致。然而,从散点图中可以看出,部分样本的预测值和实测值之间还存在着较大差距,精度有待提高。

表2   基于3种模型构建的反演结果评价指标

Table 2  Estimation model results based on three models

模型变换类型建模集验证集
R2RMSERPDR2RMSERPD
RFFOD1.20.8640.4322.6600.8730.3952.926
CWT10.8470.4912.3370.8810.4062.841
PLSRFOD1.20.7340.5771.9890.6900.6101.893
CWT10.7110.6011.9090.6820.6181.868
SVMFOD1.20.7880.5382.1330.6740.6441.794
CWT10.8290.4752.4170.8680.4272.704

新窗口打开| 下载CSV


图6

图6   基于FOD1.2的3种模型Fe2O3含量实测值与预测值散点图

Fig.6   Scatter plots of measured and predicted values of three models based on FOD1.2


图7

图7   基于CWT1的3种模型Fe2O3含量实测值与预测值散点图

Fig.7   Scatter plots of measured and predicted values of three models based on CWT1


2.6 土壤Fe2O3 含量反演模型优化

依据上述分析,虽然运用RF模型能够对沙漠土壤Fe2O3含量进行更为准确的估算,但前人研究发现引入群智能优化算法构建土壤理化参数RF反演模型能够取得更优效果31-32。研究基于DO进行RF模型的优化,以期更为准确地估算沙漠土壤Fe2O3含量(表3)。运用DO优化RF模型进行建模和验证时R2均大于0.9,这表明该模型拟合能力极强,稳定性好;RMSE值较小,为0.305~0.357,说明模型的预测误差小,准确度较高;RPD均大于3,说明模型有极好的预测能力。其中,在FOD变换下进行优化建模时,建模集R2提高了4.9%,RMSE降低了7.5%,RPD提高了55.9%;验证集R2提高了4.9%,RMSE降低了8.5%,RPD提高了79.2%。在CWT处理下进行优化建模时,建模集R2提高了9.1%,RMSE降低了18.6%,RPD提高了142.9%;验证集R2提高了2.7%,RMSE降低了6.6%,RPD提高了54.9%。

表3   基于RFDO优化前后反演结果评价指标对比

Table 3  Comparison of estimation model results before and after DO based on RF

模型变换类型建模集验证集
R2RMSERPDR2RMSERPD
RFFOD1.20.8640.4322.6600.8730.3952.926
CWT10.8470.4912.3370.8810.4062.841
DO-RFFOD1.20.9130.3573.2190.9220.3103.718
CWT10.9380.3053.7660.9080.3403.390

新窗口打开| 下载CSV


无论是FOD变换和CWT处理,实测值与预测值分布均较均匀(图8)。综上所述,DO成功实现了对RF模型的参数优化,DO-RF模型反演沙漠土壤Fe2O3含量能够在一定程度上提高模型精度和拟合效果,具有极高的沙漠土壤Fe2O3含量估算能力。

图8

图8   基于DO-RF的Fe2O3含量实测值与预测值散点图

Fig.8   Scatter plots of measured and predicted values based on DO-RF


3 讨论

沙漠地区通常面临气候恶劣、地形复杂、交通可达性差等挑战,这些因素使得土壤监测工作具有一定的难度。然而,高光谱技术的应用能够为克服这些困难提供有效的解决方案。本研究以古尔班通古特沙漠土壤为研究对象,通过实测沙漠土壤的高光谱反射率和Fe2O3含量,结合FOD和CWT 两种光谱变换方法、GA特征波段提取方法以及机器学习建模方法等,构建沙漠土壤Fe2O3含量反演模型。研究结果不仅揭示了沙漠土壤光谱特征及其与Fe2O3含量的关系,还有效提高了模型的估算精度。这为进一步加深对干旱区土壤高光谱机理的理解提供了新的视角,也为今后基于卫星高光谱影像的监测提供参考。

研究结果表明,沙漠土壤Fe2O3含量与土壤光谱反射率呈负相关,这一结论与何挺等9对不同土地利用类型和土壤类型的土壤氧化铁光谱特征研究得出的结论一致。此外,FOD变换和CWT处理均提高了沙漠土壤Fe2O3含量和土壤光谱反射率的相关性,以1.2阶次FOD变换和1尺度CWT处理的相关性最高。然而,FOD变换最佳阶次不同于赵启东等33对土壤有机碳(SOC)进行光谱估测时发现1.6阶微分变换的效果最优,张俊华等34发现基于0.2阶微分处理下构建的模型对银川平原土壤有机质(SOM)的反演精度最佳。这或许是因为二者土样均位于农田,且SOC和SOM在光谱上的反演特征与Fe2O3有所不同。此外,CWT处理最优尺度也与王雪梅等14基于新疆渭干河-库车河三角洲绿洲农田土壤的研究结果存在差异,他们发现4~6尺度的CWT有效提升了光谱反射率和土壤有害元素As之间的相关性。同时,叶淼等35对北京市永久农田土壤的研究也表明,第5变换尺度下SOM反演模型精度最高。究其原因可能是沙漠土壤与农田土壤在物理、化学和生物特性上存在很大差异,进而导致它们在光谱上的反映特征不同,故CWT处理的最佳变换尺度会有所不同。

在上述变换基础上进行Pearson相关性分析发现某些波段之间存在共线性问题。为解决这一问题,研究采用了GA,由于其超强的全局搜索能力,GA在特征波段提取中得到了广泛应用。张婷婷等18利用GA将全波谱的853个波段压缩至25个有效波段,结果表明,基于此25个特征波段建立的模型相比全波段精度更高。本研究也通过GA将经过FOD变换和CWT处理的敏感波段分别由103~867个和63~666个压缩至15~36个和4~31个有效波段,在保留关键信息的同时降低了数据的维度,去除了冗余信息,提高了数据处理的效率,有助于模型精度和稳定性的提高。

此外,本文使用RF来构建沙漠土壤Fe2O3含量反演模型,并与PLSR、SVM两种经典回归模型进行对比。PLSR是利用Vis-NIR估算土壤属性最常用的线性回归方法,在土壤属性与光谱反射率呈线性关系的地区效果较好。如Das等36发现PLSR模型相比非线性模型在印度Modipuram的SOC估算中表现更好,能够减少模型所需的计算时间。然而,当土壤属性空间异质性较大时,传统的线性回归模型可能无法很好地处理土壤属性值的复杂性和非线性关系,此时非线性模型成为首选。根据以往研究,SVM能够捕捉土壤复杂的非线性特征,在土壤光谱中使用较多,其估算能力优于一般线性统计回归模型37,玉米提·买明等38的研究表明SVM回归模型更适用于新疆渭库绿洲土壤有机质含量的估测,模型精度和稳定性均高于PLSR模型。RF具有抗噪能力强、可解释性强等优点,在土壤属性反演研究中表现良好39,其准确性和鲁棒性优于一般的机器学习模型。刘靖宇等40基于特征优选和机器学习对塔里木盆地东缘绿洲土壤Cd元素含量进行预测,结果显示RF模型对研究区土壤Cd元素含量预测效果最佳,相比于非线性模型,线性模型对土壤重金属的空间预测精度偏低。这一发现与本研究结果一致,相比PLSR模型,RF、SVM有更高的精度,究其原因或许是沙漠土壤类型、粒径等差异所导致的Fe2O3含量空间异质性较大,使用RF、SVM等非线性模型能够较PLSR线性模型更准确地捕捉沙漠土壤Fe2O3含量和土壤反射率之间的复杂关系,进而拥有更高的反演精度。

运用RF模型虽然能够在一定程度上对沙漠土壤Fe2O3含量进行准确估算,但是越来越多研究发现群智能优化算法结合机器学习算法能够显著提高模型反演精度32。DO通过模拟蒲公英种子的散布和生长过程,不同于传统的优化算法41,具有收敛快、全局搜索能力强等优势,此外,DO对于参数设置不敏感,更易于应用于沙漠土壤Fe2O3含量反演模型的优化。故研究基于DO进行RF模型的优化,结果显示DO使得RF模型精度大幅提高,成功实现了对RF模型的参数优化,为沙漠土壤Fe2O3含量监测提供了一种切实可行的优化方案。

本研究虽基于光谱反射率构建沙漠土壤Fe2O3含量反演模型,但并未考虑沙漠土壤pH值、颜色等因素对土壤光谱的影响。因此,在后续研究中,考虑引入pH值、沙漠土壤全氮含量等多种协变量参与建模,以便从多个维度解析沙漠土壤Fe2O3含量与周边环境之间的响应关系,进而提高模型精度和适用性。同时,本研究中机器学习算法结合群智能优化算法反演沙漠土壤Fe2O3含量结果有效可靠,近年来深度学习在土壤属性估算方面的应用逐渐增多42,但是深度学习算法需要大量样本支撑,由于沙漠土壤样本难以获取,样本数量一般偏少,导致数据差异性不足,小样本对于模型精度和泛化能力难以保证,在后续研究中可以考虑扩充土壤样本以提高模型精度和泛化能力。

4 结论

沙漠土壤Fe2O3含量和土壤光谱反射率呈负相关关系,即随着Fe2O3含量的增加,沙漠土壤的反射率逐渐降低。这为通过光谱反射率来估算沙漠土壤中Fe2O3含量提供了有力支持,证明了光谱数据在土壤成分分析中的潜力。

FOD和CWT两种变化均可以提高沙漠土壤Fe2O3含量和土壤光谱反射率的相关性水平。在不同阶次和尺度的处理下,1.2阶次FOD变换和1尺度CWT的处理展现了最佳相关性,相关系数最大绝对值分别达0.840和0.839,有效提高了沙漠土壤反射率和Fe2O3含量的相关性。

GA有效降低了光谱数据的维度,并成功剔除了共线性较强的冗余波段。在1.2阶次的FOD处理下,GA从512个光谱波段中优选出31个特征波段,而在1尺度的CWT处理中,则从119个光谱波段中优选出13个特征波段。这一过程使得数据维度明显降低,提升了模型的计算效率和估算精度。

在不同机器学习模型的Fe2O3含量估算中,CWT1-RF模型显示了最高的验证集精度(R2 为0.881,RMSE为0.406,RPD为2.841),表明了RF模型相较于PLSR、SVM模型,能够对Fe2O3含量进行更为准确的估算。

DO-RF模型应用于Fe2O3含量估算时,相较于未优化的RF模型有更高的建模精度。相比之下验证集R2 提高了2.7%,RMSE降低了6.6%,RPD提高了54.9%,显示出DO-RF模型在沙漠土壤Fe2O3含量估算中的可靠性和优势,其为古尔班通古特沙漠土壤Fe2O3含量的准确估算提供了有力的工具。

参考文献

Richter NJarmer TChabrillat Set al.

Free iron oxide determination in mediterranean soils using diffuse reflectance spectroscopy

[J].Soil Science Society of America Journal,2009731):72-81.

[本文引用: 1]

徐祖亮陆晓辉曾海莲.

贵州典型喀斯特流域土壤氧化铁特征分异及其影响因素

[J].土壤学报,2024615):1284-1298.

[本文引用: 1]

蔡妙珍邢承华.

土壤氧化铁的活化与环境意义

[J].浙江师范大学学报(自然科学版),20043):67-70.

[本文引用: 1]

刘玉晶陆晓辉罗丹.

贵州喀斯特山区典型土壤氧化铁特征及其与土壤类型分异关系

[J].土壤通报,2021523):505-514.

[本文引用: 1]

Camargo L AMarques JBarron Vet al.

Mapping of clay,iron oxide and adsorbed phosphate in Oxisols using diffuse reflectance spectroscopy

[J].Geoderma,2015251/252124-132.

[本文引用: 1]

郭颖郭治兴刘佳.

亚热带典型区域水稻土氧化铁高光谱反演:以珠江三角洲为例

[J].应用生态学报,20172811):3675-3683.

[本文引用: 1]

谭洁陈严周卫军.

基于实验室高光谱数据的大围山森林土壤氧化铁全量反演

[J].土壤,2021534):858-864.

[本文引用: 1]

赵海龙甘淑袁希平.

基于多尺度连续小波分解的土壤氧化铁反演

[J].光学学报,20224222):209-216.

[本文引用: 1]

何挺王静程烨.

土壤氧化铁光谱特征研究

[J].地理与地理信息科学,20062):30-34.

[本文引用: 2]

彭杰向红英周清.

土壤氧化铁的高光谱响应研究

[J].光谱学与光谱分析,2013332):502-506.

阳洋黄伟濠卢瑛.

土壤游离氧化铁高光谱特征与定量反演

[J].华南农业大学学报,2020411):91-99.

[本文引用: 1]

Xu G QMcdowell N GLi Y.

A possible link between life and death of a xeric tree in desert

[J].Journal of Plant Physiology,201619435-44.

[本文引用: 1]

王瑾杰丁建丽葛翔宇.

分数阶微分技术在机载高光谱数据估算土壤含水量中的应用

[J].光谱学与光谱分析,20224211):3559-3567.

[本文引用: 2]

王雪梅玉米提·买明黄晓宇.

基于连续小波变换下的土壤有害元素砷含量估测

[J].光谱学与光谱分析,2023431):206-212.

[本文引用: 3]

Zhang SShen QNie Cet al.

Hyperspectral inversion of heavy metal content in reclaimed soil from a mining wasteland based on different spectral transformation and modeling methods

[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2019211393-400.

[本文引用: 1]

彭咏石陈水森陈金月.

基于连续小波系数的叶绿素a浓度估测模型

[J].激光与光电子学进展,2021588):431-439.

[本文引用: 1]

刘燕德肖怀春孙旭东.

柑桔叶片黄龙病光谱特征选择及检测模型

[J].农业工程学报,2018343):180-187.

[本文引用: 1]

张婷婷赵宾杨丽明.

基于高光谱成像技术结合SPA和GA算法测定甜玉米种子电导率

[J].光谱学与光谱分析,2019398):2608-2613.

[本文引用: 2]

Guo FXu ZMa Het al.

Estimating chromium concentration in arable soil based on the optimal principal components by hyperspectral data

[J].Ecological Indicators,2021133108400.

[本文引用: 1]

Song JShi XWang Het al.

Combination of feature selection and geographical stratification increases the soil total nitrogen estimation accuracy based on vis-NIR and pXRF spectral fusion

[J].Computers and Electronics in Agriculture,2024218108636.

[本文引用: 1]

SeemaGhosh A KDas B Set al.

Application of VIS-NIR spectroscopy for estimation of soil organic carbon using different spectral preprocessing techniques and multivariate methods in the middle Indo-Gangetic plains of India

[J].Geoderma Regional,202023e00349.

[本文引用: 1]

Li WXiang YLiu Xet al.

Estimation of soil moisture content based on fractional differential and optimal spectral index

[J].Agronomy,2024141):184.

[本文引用: 1]

Xiao XHe QMa Set al.

Environmental variables improve the accuracy of remote sensing estimation of soil organic carbon content

[J].Scientific Reports,2024141):18964.

[本文引用: 1]

Maynard J JLevi M R.

Hyper-temporal remote sensing for digital soil mapping:characterizing soil-vegetation response to climatic variability

[J].Geoderma,201728594-109.

[本文引用: 1]

Bai YYang WWang Zet al.

Improving the estimation accuracy of soil organic matter based on the fusion of near-infrared and Raman spectroscopy using the outer-product analysis

[J].Computers and Electronics in Agriculture,2024219108760.

[本文引用: 1]

Gao JMeng BLiang Tet al.

Modeling alpine grassland forage phosphorus based on hyperspectral remote sensing and a multi-factor machine learning algorithm in the east of Tibetan Plateau,China

[J].ISPRS Journal of Photogrammetry and Remote Sensing,2019147104-117.

[本文引用: 1]

Zhao SZhang TMa Set al.

Dandelion Optimizer:A nature-inspired metaheuristic algorithm for engineering applications

[J].Engineering Applications of Artificial Intelligence,2022114105075.

[本文引用: 1]

张秋霞张合兵刘文锴.

高标准基本农田建设区域土壤重金属含量的高光谱反演

[J].农业工程学报,20173312):230-239.

[本文引用: 1]

宁京邹滨涂宇龙.

土壤As含量光谱指数反演方法评估

[J].光谱学与光谱分析,2024445):1472-1481.

[本文引用: 1]

聂磊超曲柯莹崔丽娟.

不同粒径湿地土壤高光谱特征及碳氮磷含量反演模型研究

[J].生态学报,20244415):6618-6629.

[本文引用: 1]

谢鹏王正海肖蓓.

基于海鸥算法优化随机森林的土壤硒含量高光谱反演

[J].激光与光电子学进展,20236017):370-379.

[本文引用: 1]

Tan JDing JWang Zet al.

Estimating soil salinity in mulched cotton fields using UAV-based hyperspectral remote sensing and a seagull optimization algorithm-enhanced random forest model

[J].Computers and Electronics in Agriculture,2024221109017.

[本文引用: 2]

赵启东葛翔宇丁建丽.

结合分数阶微分技术与机器学习算法的土壤有机碳含量光谱估测

[J].激光与光电子学进展,20205715):253-261.

[本文引用: 1]

张俊华尚天浩陈睿华.

基于光谱FOD与优化指数的银川平原土壤有机质含量反演

[J].农业机械学报,20225311):379-387.

[本文引用: 1]

叶淼朱琳刘旭东.

基于连续小波变换、SHAP和XGBoost的土壤有机质含量高光谱反演

[J].环境科学,2024454):2280-2291.

[本文引用: 1]

Das BChakraborty DSingh V Ket al.

Partial least square regression based machine learning models for soil organic carbon prediction using visible-near infrared spectroscopy

[J].Geoderma Regional,202333e00628.

[本文引用: 1]

Shi LO'rourke S D ESantana F Bet al.

Prediction of soil bulk density in agricultural soils using mid-infrared spectroscopy

[J].Geoderma,2023434116487.

[本文引用: 1]

玉米提·买明王雪梅.

连续小波变换的土壤有机质含量高光谱估测

[J].光谱学与光谱分析,2022424):1278-1284.

[本文引用: 1]

Tan KWang HChen Let al.

Estimation of the spatial distribution of heavy metal in agricultural soils using airborne hyperspectral imaging and random forest

[J].Journal of Hazardous Materials,2020382120987.

[本文引用: 1]

刘靖宇李若怡梁永春.

基于特征优选和机器学习的塔里木盆地东缘绿洲土壤镉元素含量预测及健康风险评价

[J].环境科学,2024458):4802-4811.

[本文引用: 1]

田雨欣王正海谢鹏.

基于特征筛选结合PSO-BPNN和GA-BPNN算法的土壤重金属高光谱定量反演

[J].遥感技术与应用,2024391):259-268.

[本文引用: 1]

Tasan MDemir YTasan Set al.

Comparative analysis of different machine learning algorithms for predicting trace metal concentrations in soils under intensive paddy cultivation

[J].Computers and Electronics in Agriculture,2024219108772.

[本文引用: 1]

/