基于多源遥感和机器学习方法的科尔沁沙地植被覆盖度反演
1.
2.
Inversion of vegetation coverage based on multi-source remote sensing data and machine learning method in the Horqin Sandy Land, China
1.
2.
通讯作者:
收稿日期: 2021-09-06 修回日期: 2021-12-13
基金资助: |
|
Received: 2021-09-06 Revised: 2021-12-13
作者简介 About authors
张亦然(1996—),女,内蒙古巴彦淖尔人,硕士研究生,主要从事生态环境遥感研究E-mail:
关键词:
Keywords:
本文引用格式
张亦然, 刘廷玺, 童新, 段利民, 贾天宇, 季亚新.
Zhang Yiran, Liu Tingxi, Tong Xin, Duan Limin, Jia Tianyu, Ji Yaxin.
0 引言
因此,本研究基于航天、无人机遥感影像并辅以地面调查,通过局部区域的高精度反演,逐步实现基于低空间分辨率遥感数据的大区域植被覆盖度的精确估算。以期通过多源遥感数据和机器学习方法,对科尔沁沙地进行单元、区域尺度的反演,提高植被覆盖度的准确性,以及探寻机器学习模型的适用性,为该地区生态系统健康评价提供科学参考。
1 研究区与研究方法
1.1 研究区概况
研究区位于科尔沁沙地东南部,是一个内陆闭合流域,行政隶属于内蒙古自治区通辽市科尔沁左翼后旗,为典型荒漠化的农牧交错区(42°40′—43°42′N、122°00′—123°20′E,海拔150—650 m,图1),总面积约8 000 km2。属于半干旱温带大陆性季风气候,受蒙古冷高压和太平洋暖低压消长变化影响,冬季多刮偏北风或偏西风,夏季则以偏南和西南风为主,年降水量300—400 mm,70%—80%发生于7—9月。植被呈斑块化分布,空间异质性较强,沙丘以沙生灌木、半灌木为主,草地以菊科、禾本科多年生植被为优势种[18]。整个研究区由多个沙丘-草甸-湖泊相间的地貌单元组成(图1),在研究区内选取一典型单元作为试验区(43°18′48″—43°21′24″N、122°33′00″—122°41′00″E,图1),面积约55 km2。
图1
图1
研究区、试验区位置及无人机航拍区域
Fig.1
Location of research area, test area and UAV aerial photography area
1.2 数据获取与预处理
1.2.1 遥感数据
在试验区选取一条典型沙丘-草甸相间带(图1),于2019年7月28—31日使用无人机携带的可见光(RGB)相机进行了影像拍摄;在研究区内以试验区为核心,经线每隔15′(约20.3 km),纬线每隔10′(约18.5 km),选取5条经线、5条纬线的交汇点(18个)进行无人机影像的拍摄。无人机型号为DJI Phantom 4 Pro V2.0,试验区设置飞行样地大小为北部(HB)500 m×2 000 m、南部(HN)500 m×1 500 m;研究区设置飞行样地大小均为500 m×2 000 m。飞行高度80 m,旁向重叠率65%,航向重叠率80%。每个飞行样地采集图像800—850张。样地内均匀布设地面控制点(总误差<0.5 m)便于无人机正射影像地理配准矫正。然后,利用Agisoft PhotoScan Professional软件进行照片匹配、建立密集点云、生成网格、纹理、数字高程、正射影像以及矫正地面控制点7项处理,获得无人机飞行样带正射影像,空间分辨率为0.03 m。
Worldview-2多光谱遥感影像于2019年7月30日获取,包括0.5 m空间分辨率的全色波段和1.8 m分辨率的多光谱波段。其中,新增的近红外2波段反射率受大气影响较少,可增强植被特征。利用ENVI5.3软件对遥感影像进行辐射定标、大气校正、几何校正预处理。
Landsat 8 OLI多光谱遥感影像于2019年7月27日获取,来源于中国科学院计算机网络信息中心(
1.2.2 地面数据
地面调查工作于7月28日至8月1日进行。在无人机飞行的样带上共布置40个调查点(HB:25个,HN:15个),为同卫星、无人机影像的像元大小相匹配,每个调查点布设一个大-小嵌套式样方,即先布设一个30 m×30 m的调查大样方(灌木),然后在大样方的四角和中心布设5个2 m×2 m(半灌木)或1 m×1 m(草本)的调查小样方。调查内容为植被的密度、冠幅(灌木)。对于分布规整的农田和乔木林做简单踩点调查。地面调查数据用于无人机影像植被覆盖度提取的阈值确定与验证。
1.3 研究方法
1.3.1 植被信息提取
鉴于无人机获取的正射影像与可见光波段差异植被指数(visible-band difference vegetation index, VDVI)在植被与非植被间具有高分离度[19],本文选用VDVI进行无人机影像植被覆盖度信息的提取。结合地面调查数据及目视解译,经反复调整确定VDVI的阈值为0.035,即当VDVI>0.035时,代表该区域为植被像元,反之亦然。
式中:
1.3.2 遥感特征变量的选取
用于单元尺度(试验区)、区域尺度(研究区)模型构建的遥感变量包括Worldview-2、Landsat 8 OLI波段、主成分分析(Principal Component Analysis, PCA)的前3个分量(PCA1、PCA2、PCA3)、窗口大小为3×3的纹理方差(Variance, Var)和归一化植被指数(NDVI)。其中,结合前人研究,基于Worldview-2影像特有的近红外2(NIR2)波段,试验区模型构建的遥感变量增加了一个归一化植被指数2(NDVI2)[20]。研究利用Python中sklearn库,采用递归特征消除(recursive feature elimination, RFE)-交叉验证(cross validation, CV)的方法对遥感变量进行特征选择[21]。具体步骤为:在5折交叉验证的循环过程中,计算每个特征量的重要性,移除当前最不重要的特征,不断重复递归,直至找到最优的特征数量与特征变量,在此过程中,特征变量被消除的次序就是特征的排序,特征的重要性值越大则输入特征的重要性程度越高[22]。
纹理方差Var计算公式:
式中:
NDVI和NDVI2的计算公式如下:
式中:NIR、R分别为Worldview-2、Landsat 8 OLI影像中近红外波段、红色波段;NIR2为Worldview-2影像中近红外2波段。
1.3.3 模型构建
本研究选用人工神经网络(back propagation neural network, BP-ANN)、支持向量回归(support vector regression, SVR)与随机森林(random forest, RF)等机器学习算法构建模型。其中,对于SVR和RF算法,80%的样本作为训练集,其余20%的样本作为测试集;对于BP-ANN算法,80%的样本作为训练集,10%的样本作为测试集,另外10%的样本作为验证集。
人工神经网络算法具有较强的柔韧性、可塑性和函数逼近能力,主要结构包括输入层、隐含层、输出层[23]。隐含层和神经元的数量决定学习精度的高低和泛化能力的强弱,本研究根据试错过程确定其最优数量,并选用Levenberg-Marquardt函数对所建模型进行神经网络训练。利用MATLAB语言Neural Network工具箱实现BP-ANN模型的构建与验证。
支持向量回归算法在非线性及高维模式识别问题中具有优势,其在高维空间中构建一组超平面,在超平面上,利用核函数对样本进行非线性到线性的转换,并选择最优线性分离器完成回归和其他任务[24]。本研究以径向基函数(RBF)为核函数,利用MATLAB语言libsvm工具箱中的网格搜索法确定重要参数,完成SVR模型的构建与验证。
随机森林算法泛化能力强,不会过度拟合,性能稳定。其基于booststrap抽样,每个训练样本用于构建决策树(classification and regression trees, CART),按照节点不纯度最小化原则不断被选择,直到形成一个完整的树。当形成多个决策树时,通过投票来获得最终的预测结果[25]。本研究利用MATLAB语言RF-MexStandalone-v0.02工具箱中的RF函数进行模型的构建与验证。
1.4 模型评价指标
模型精度评价采用决定系数(coefficient of determination,R2)、均方误差(mean square error,MSE)和一致性指数(index of agreement, d)。当R2、d越接近1,MSE越小时,表示模型精度越高。
式中:
2 结果与分析
2.1 遥感特征向量的选择
运用递归特征消除-5折交叉验证法对Worldview-2、Landsat 8 OLI遥感影像提取的变量进行特征选择(图2),对于Worldview-2遥感影像,优选出6个最优特征变量,分别为NDVI、NDVI2、蓝波段(B2)、绿波段(B3)、红波段(B5)和绿波段的纹理方差(Var3),其余变量的重要程度依次减弱;对于Landsat 8 OLI遥感影像,NDVI、PCA1、绿波段(B3)、近红外波段(B5)和短波红外2波段的纹理方差(Var7)5个特征变量的重要性最高,均优于其他特征。因此,本文选取Worldview-2遥感影像的NDVI、NDVI2、B2、B3、B5、Var3特征变量进行单元尺度(试验区)的植被覆盖度反演模型的建立;选取Landsat 8 OLI遥感影像的NDVI、PCA1、B3、B5、Var7特征变量进行区域尺度(研究区)的植被覆盖度反演模型的构建。
图2
图2
Worldview-2(A)、Landsat8 OLI(B)遥感影像特征变量选择
Fig.2
Variables selection for Worldview-2 (A) and Landsat 8 OLI (B)
2.2 单元尺度(试验区)植被覆盖度反演
将基于无人机正射影像提取的样带植被覆盖度信息与基于Worldview-2遥感影像进行叠加,运用ArcGIS软件的Zonal Statistics工具,统计无人机正射影像各对应格网单元内的植被覆盖度(图3)。共提取270个(HB:160个;HN:110个)样本点用于单元尺度(试验区)植被覆盖度反演模型的建立与验证。
图3
图3
以Worldview-2遥感影像格元为统计单元计算植被覆盖度
Fig.3
Using Worldview-2 remote sensing image grid as statistical unit to calculate vegetation coverage
表1 单元尺度(试验区)不同模型精度评估
Table 1
方法 | 训练集 | 测试集 | ||||
---|---|---|---|---|---|---|
决定系数R2 | 均方差MSE | 一致性指数d | 决定系数R2 | 均方差MSE | 一致性指数d | |
BP-ANN | 0.76 | 0.0816 | 0.9302 | 0.73 | 0.0886 | 0.9217 |
SVR | 0.81 | 0.0706 | 0.945 | 0.80 | 0.0831 | 0.9401 |
RF | 0.94 | 0.0054 | 0.9838 | 0.84 | 0.0145 | 0.9576 |
图4
图4
Worldview-2遥感影像反演的试验区植被覆盖度(A)和精度验证(B)
Fig.4
Vegetation coverage (A) and accuracy verification (B) of Worldview-2 remote sensing image inversion in the test area
进一步运用无人机遥感影像提取的270个样本点对反演的植被覆盖度做精度验证,基于worldview-2遥感影像构建的随机森林模型反演的植被覆盖度与基于无人机影像提取的植被覆盖度具有较好的相关性(P<0.01)。空间上,试验区北部多为低覆盖度的流动沙丘、紧邻村庄和湖附近则为高覆盖度的农田和草甸;南部为中覆盖度的半固定、固定沙丘,与野外实况相符。
综上所述,随机森林算法可适用于单元尺度(试验区)植被覆盖度的反演,构建的随机森林模型具有较好的精度,且从其反演的植被覆盖度中选取样本进行区域尺度(研究区)的植被覆盖度模型构建与反演是可靠的。
2.3 区域尺度(研究区)植被覆盖度反演
将单元尺度反演的植被覆盖度进行升尺度转换:重采样形成空间分辨率为30 m的影像信息,以便与Landsat 8 OLI遥感影像相匹配。鉴于Worldview-2遥感影像反演的植被覆盖度具有较高的精度,因此从单元尺度反演的植被覆盖度中随机选取500个样本点(剔除4个无效样本点)用于区域尺度(研究区)植被覆盖度反演模型的建立与验证。其中模型的输入变量为样本点对应的单元尺度反演植被覆盖度值与5个特征变量(NDVI、PCA1、B3、B5、Var7)值。由于随机森林算法在单元尺度(试验区)植被覆盖度模型构建中表现最佳,因此,本研究基于随机森林算法构建了区域尺度(研究区)植被覆盖度反演模型,同时与人工神经网络、支持向量回归算法进行比较。其评价结果示于表2。在整个数据集下,各项精度评价指标中,随机森林模型较支持向量回归模型、人工神经网络模型也均表现最佳,R2分别为0.87(训练集)、0.80(测试集),MSE分别为0.0082(训练集)、0.0370(测试集),d分别为0.9595(训练集)、0.8991(测试集)。因此选用随机森林模型对整个研究区的植被覆盖度进行反演估算,结果如图5所示。
表2 区域尺度(研究区)不同模型精度评估
Table 2
方法 | 训练集 | 测试集 | ||||
---|---|---|---|---|---|---|
R2 | MSE | d | R2 | MSE | d | |
BP-ANN | 0.52 | 0.1599 | 0.8113 | 0.49 | 0.1959 | 0.7869 |
SVR | 0.68 | 0.1447 | 0.8322 | 0.61 | 0.1503 | 0.8121 |
RF | 0.87 | 0.0082 | 0.9595 | 0.80 | 0.0370 | 0.8991 |
图5
图5
Landsat 8 OLI遥感影像反演的研究区植被覆盖度(A)和精度验证(B)
Fig.5
Study area vegetation coverage (A) and accuracy verification (B) of Landsat 8 OLI remote sensing image inversion
将基于18个样带提取的无人机正射影像与基于Landsat 8 OLI遥感影像进行叠加,统计无人机正射影像各对应格元内的植被覆盖度。共提取65个(每样带3—4个)样本点用于区域尺度(研究区)植被覆盖度反演模型的验证。整体而言,基于随机森林模型反演的研究区植被覆盖度与无人机影像提取的植被覆盖度具有较高的相关性,R2为0.78(P<0.01),误差较低,反演结果相对稳定。空间上,研究区植被覆盖度呈高-中-低特征化单元相间分布,高植被覆盖区多为条带状,广泛分布于湖泊、村庄附近,中、低植被覆盖区占比较大,其中,研究区南部植被覆盖度较北部高。
图6
图6
使用单一遥感影像(Landsat 8 OLI)反演的植被覆盖度精度验证
Fig.6
Accuracy verification of vegetation coverage inversion using a single remote sensing image (Landsat 8 OLI)
3 讨论
在对植被覆盖度进行反演估算时,多源遥感数据的应用比单一遥感源数据更为合理。基于单一遥感源所构建的模型精度较低,稳定性较差,且具有较大的空间异质性[29]。以往的研究表明,在下垫面复杂、植被斑块化显著的区域,直接应用低空间分辨率遥感影像进行植被覆盖度的估算反演,所得到的结果与实际情况往往存在较大偏差[30]。此外,像元混合问题无法有效减弱[31]。因此,本研究基于多源遥感数据(无人机、高、低空间分辨率遥感影像(Worldview-2、Landsat 8 OLI)),通过局部区域的高精度反演,弥补了空间尺度带来的偏差性,实现大区域的植被覆盖度高精度反演。如图5、6所示,反演结果的精度较单一使用Landsat 8 OLI遥感影像有了显著提高(R2=0.78,大于0.63)。
研究结果表明,基于随机森林算法较人工神经网络、支持向量回归算法构建的模型具有较好的反演精度,测试集精度(单元尺度R2=0.84,区域尺度R2=0.80)近似于已有的相关研究[32-34],在一定程度上说明该模型具有较强的适用性。但在低植被覆盖度(小于0.3)区间内[35],应用随机森林算法反演的区域尺度(研究区)植被覆盖度值存在部分高估现象(图5),造成这种情况发生的原因可能有:一是本研究选取的样本点均在无人机飞行区域内,区域尺度(研究区)上植被覆盖度的极大、极小反演值超出了样本范围,进而产生一定误差,且样本点选取的数量多少对结果也具有一定的影响;二是在使用多源遥感数据进行植被要素反演时,本研究采用的重采样方法为局部平均法,该方法具有过度平滑的缺点,使大部分低植被覆盖度的区域在尺度转换后的相邻像元中都有一定比例的植被覆盖度,造成区域尺度反演的植被覆盖度值被高估。但整体而言,随机森林模型还是具有较好的鲁棒性和稳定性的,且可有效提高大区域植被覆盖度的反演精度。
4 结论
本文基于多源遥感数据,利用机器学习方法,实现了科尔沁沙地植被覆盖度的多尺度反演,为沙地植被恢复提供有效方法。
随机森林算法较人工神经网络、支持向量回归算法所构建的植被覆盖度反演模型更优,其中,单元尺度(试验区)模型R2=0.84、MSE=0.0145、d=0.9576;区域尺度(研究区)模型R2=0.80、MSE=0.0370、d=0.8991。随机森林模型更适用于荒漠化地区植被覆盖度的准确提取。
基于多源遥感数据和随机森林模型,通过局部高精度反演逐步实现区域低空间分辨率遥感影像植被覆盖度的反演方法,可以有效提高区域尺度植被覆盖度反演的精度(R2=0.78,大于0.63)。
本研究仅对一种植被要素(植被覆盖度)进行反演,然而,反映区域生态环境现状的参变量还有很多,如叶面积指数、地上生物量等,未来也应进一步从多参量协同解译、反演考虑,实现对区域生态系统全方面、多角度的科学评估。
参考文献
Spatiotemporal change of sparse vegetation coverage in Northern China
[J].,
Coverage-dependent amplifiers of vegetation change on global water cycle dynamics
[J].,
Determination of land degradation causes in Tongyu County,Northeast China via land cover change detection
[J].,
基于植被覆盖度的宁夏灵武白芨滩自然保护区防风固沙功能时空变化研究
[J].,
Vegetation coverage change and its response to topography in a typical karst region:the Lianjiang River Basin in Southwest China
[J].,
Sample size for ground and remotely sensed data
[J].,
Modeling of alpine grassland cover based on unmanned aerial vehicle technology and multi-factor methods:a case study in the East of Tibetan Plateau,China
[J].,
Fractional vegetation cover estimation algorithm for Chinese GF-1 wide field view data
[J].,
Mapping fractional woody cover in semi-arid savannahs using multi-seasonal composites from Landsat data
[J].,
Modeling alpine grassland cover based on MODIS data and support vector machine regression in the headwater region of the Huanghe River,China
[J].,
Scale dependent effects of environmental factors on vegetation pattern and composition in Horqin Sandy Land,Northern China
[J].,
Learning representations by back-propagating errors
[J].,
Fractional vegetation coverage downscaling inversion method based on land remote-sensing satellite (System,Landsat-8) and polarization decomposition of Radarsat-2
[J].,
Multi-scale crown closure retrieval for moso bamboo forest using multi-source remotely sensed imagery based on geometric-optical and Erf-BP neural network models
[J].,
Landscape-level vegetation classification and fractional woody and herbaceous vegetation cover estimation over the dryland ecosystems by unmanned aerial vehicle platform
[J].,
Monitoring vegetation cover across semi-arid regions:comparison of remote observations from various scales
[J].,
Verification of fractional vegetation coverage and NDVI of desert vegetation via UAVRS technology
[J].,
基于像元三分模型的锡林郭勒草原光合植被和非光合植被覆盖度估算
[J].,
Comparative study of remote sensing estimation methods for grassland fractional vegetation coverage:a grassland case study performed in Hi prefecture,Xinjiang,China
[J].,
/
〈 | 〉 |