结合GEE平台与机器学习算法的荒漠信息提取
1.
2.
Combining the GEE platform and machine learning algorithm for desert information extraction
1.
2.
通讯作者:
收稿日期: 2023-03-23 修回日期: 2023-05-31
基金资助: |
|
Received: 2023-03-23 Revised: 2023-05-31
作者简介 About authors
芦瑞杰(1999—),男,山西临汾人,硕士研究生,主要研究方向为荒漠生态遥感E-mail:
关键词:
Keywords:
本文引用格式
芦瑞杰, 刘树林, 康文平, 冯坤, 郭紫晨, 支莹.
Lu Ruijie, Liu Shulin, Kang Wenping, Feng Kun, Guo Zichen, Zhi Ying.
0 引言
目前对荒漠类型与分布的研究,主要借助各种土地覆盖产品进行,如国际地圈-生物圈计划(IGBP) DISCover产品,马里兰大学(UMD)土地覆盖产品,基于MODIS的土地覆盖产品,基于Landsat与Sentinel影像的GlobeLand30、FROM_GLC30、ESA WorldCover10等[6]。然而,由于每种产品的数据源、分类方案和方法不同,它们在特定区域应用的准确性和适用性往往不理想且对荒漠类型的划分不够精细[7-8],不能很好地揭示荒漠生态系统内部的分布特征。目前,虽然也有一些较为详细的对荒漠类型进行划分的研究,如姚爱冬等[9]对民勤未利用地的细分和杨发相等[10]对新疆荒漠类型的划分,但这些研究多使用人机交互的解译方式进行分类,需要大量专家知识参与决策,耗时耗力。因此,需要探索一种快速准确的荒漠信息提取方法。
由于荒漠地区光谱响应相似,仅使用光学遥感数据很难对荒漠类型进行区分,而合成孔径雷达(SAR)数据可以提供物体的表面粗糙度、纹理和介电特性等信息,两种数据类型之间存在着互补性[11-12]。将光学数据与SAR数据协同使用,可以综合利用两种数据的优势,更好地解释、增强和分析不同地表的特征[13]。此外,研究表明:将地形数据、纹理数据与遥感数据结合,可以提高图像分类、物体识别的准确性[14]。因此,将地理数据与遥感数据相结合已经成为一个新的趋势。传统方法处理大量的地理数据与遥感数据,需要预先对数据进行下载,效率较低[15]。近年来,遥感大数据和云计算的快速发展,为多源数据的处理提供了技术支持。特别是,谷歌地球引擎(Google Earth Engine, GEE)作为一个在线处理平台,其强大的云端计算能力让用户可以从海量遥感数据中快速提取有用信息,实现了数据获取、处理、分析与应用于一体,极大提高了遥感图像处理的效率[16];其提供的丰富遥感数据和机器学习算法在环境监测领域备受关注,已经被广泛应用于作物、湿地、草地、森林、城市土地利用分类等方面[17-18],但目前对荒漠分类中不同分类器的分类性能和效果的比较还鲜有研究。
1 材料与方法
1.1 研究区概况
都兰县位于35°20′—37°22′N、95°34′—99°14′E,地处柴达木盆地的东南部,面积约4.5万km²,海拔2 660~5 507 m(图1)。地貌类型主要为山地和平原,地势由东南向西北倾斜。属高原干旱大陆性气候,年均气温2.7~4.4 ℃,年蒸发量2 088~2 716 mm,年降水量37~296 mm且集中在5—9月,雨热同期,有利于农作物的生长。
图1
1.2 数据源及预处理
本研究使用的地理坐标系为CGS_WGS_1984,在参与分类时将Sentinel-1、Sentinel-2、SRTMGL1_003数据的空间分辨率重采样至10 m。
1.2.1 Sentinel-1影像
根据研究区范围,选取处于2019年至2021年7月、8月的Sentinel-1数据在VV、VH两种极化方式下生成的影像,作为研究使用SAR数据(GEE平台已对该数据进行了热噪声去除、辐射校正、地形校正等预处理[25])。筛选出的影像通过中值合成,生成研究区的SAR影像。
1.2.2 Sentinel-2影像
根据研究范围、云量小于20%,筛选与Sentinel-1数据同期的Sentinel-2A产品。共选取Sentinel-2影像328景,通过QA波段去云、中值合成等处理,镶嵌成一幅研究区的高质量影像。
1.2.3 地形数据
研究使用GEE平台提供的SRTMGL1_003地形数据,该数据的空间分辨率为30 m,由美国国家航空航天局(NASA)提供[26]。
1.3 研究方法
在GEE云平台上,基于上述处理好的Sentinel-1、Sentinel-2、SRTMGL1_003等数据,采用随机森林(RF)、支持向量机(SVM)、分类和回归树(CART)3种分类算法,对柴达木盆地都兰县荒漠进行划分。总体工作流程如图2所示。
图2
1.3.1 样本选择方法
本文参考中国科学院和农业部建立的中国土地利用分类系统[27]和刘亚群等[28]对中国陆地生态系统的分类方案,根据荒漠的遥感光谱特征,结合海拔、地面物质组成等因子,构建适合都兰县荒漠类型的分类体系,并结合Sentinel-2假彩色合成影像建立了都兰县荒漠类型图像识别标志(表1)。分类方案具体如下:首先,以植被覆盖度20%为指标,将研究区划分为荒漠区与非荒漠区两部分;然后依据地形、气候、地面物质组成等特征将荒漠区分为6个类型,分别是沙质荒漠、砾质荒漠、盐碱荒漠、壤土荒漠、岩石荒漠、高山寒漠;考虑到研究区内盐碱荒漠具有不同的光谱特征,将其分为轻度与重度两种类型;此外,冰雪、水体、农田和高覆盖率植被等地区被视为非荒漠地区。
表1 都兰县荒漠分类体系
Table 1
类型 | 缩写 | 地表特征描述 | Sentinel-2影像特征 |
---|---|---|---|
沙质荒漠 | SD | 地表被沙子覆盖,主要包括平缓积沙地和沙丘区 | |
砾质荒漠 | GD | 地表被砾石覆盖,地势平坦,主要为各种砾石含量较高的冲洪积平原和风蚀戈壁 | |
轻度盐碱荒漠 | MS | 表土盐碱含量较高,颜色偏白 | |
重度盐碱荒漠 | SS | 地表盐碱聚集,土壤板结现象严重,颜色偏黑 | |
壤土荒漠 | LD | 地表土质覆盖,颜色偏黄 | |
岩石荒漠 | RD | 地表主要为岩石,土壤发育较差,地势崎岖,分布在山区 | |
高山寒漠 | AC | 相较于岩石荒漠海拔更高,主要分布于雪线以下、植被线以上,通常颜色为黑色或黑褐色 |
按照此分类体系,参考Google Earth高分辨率实时影像,选取研究区内的分类样本。然后,根据GEE中提供的random Colum算法将样本点的70%作为分类的训练样本,剩余的30%作为分类结果的验证样本。
1.3.2 分类特征
光谱指数特征。根据遥感影像的光谱波段进行数学组合形成的光谱指数已广泛应用于各种类型的地物区分[29]。本文计算了归一化植被差异指数(NDVI)、盐度指数(SI)、归一化差异水体指数(NDWI)、归一化差异雪指数(NDSI)、增强型植被指数(EVI)、裸土指数(BSI)、修正土壤调节植被指数(MSAVI)、表土粒径指数(TGSI)作为研究使用的分类特征。
式中:ρNIR、 ρRED、 ρGREEN、 ρSWIR、 ρBLUE分别代表地物在近红外、红色、绿色、短波红外、蓝色波段的表面反射率。
雷达特征。将Sentinel-1在VV、VH两种极化方式下产生的数据,作为特征变量构建中的雷达特征。
地形特征。在GEE平台提供的SRTMGL1_003地形数据基础上,提取海拔与坡度两个因子,作为参与分类的地形特征。
基于GEE云平台的“glcmTexture”函数,为gray图像选取7个常用的GLCM度量:角二阶矩(asm)、对比度(con)、相关性(corr)、方差(var)、逆差距(idm)、总和平均值(savg)、熵(ent)。之后,对生成的纹理特征进行主成分分析(PCA),选取第一主成分作为参与分类的纹理特征。
为了比较不同特征对荒漠分类的效果和性能,将分类特征(CF)组合成5种情景(表2):①CF1旨在探讨仅使用Sentinel-2影像光谱特征对荒漠分类的效果。②CF2在CF1的基础上添加Sentinel-1雷达数据,探讨雷达数据是否可以提高荒漠的分类精度。③CF3在CF1的基础上考虑了研究区的地形因素,探讨地形对于荒漠分类的影响。④CF4在CF1的基础上添加了纹理特征作为分类特征之一。⑤CF5则将所有的分类特征作为一组特征变量。
表2 不同特征变量组合所包含的分类特征
Table 2
CF组合 | 光谱波段 | 光谱指数 | 雷达特征 | 地形特征 | 纹理特征 |
---|---|---|---|---|---|
CF1 | √ | √ | |||
CF2 | √ | √ | √ | ||
CF3 | √ | √ | √ | ||
CF4 | √ | √ | √ | ||
CF5 | √ | √ | √ | √ | √ |
1.3.3 机器学习分类算法
分类和回归树(CART)。CART是一种基于分层决策树框架的二元分类器,其结构简单,计算速度快,输入-输出关系易于理解和解释,被广泛应用于遥感领域的各种研究中[37]。GEE提供的CART算法可以调整两个参数——最大叶节点数和最小叶数。本文中CART算法参数设置为默认值。
1.3.4 精度评价方法
选择基于混淆矩阵生成的整体精度(OA)、生产者精度(PA)、用户精度(UA)、Kappa系数、F得分[38],评估都兰县荒漠分类的结果。
式中:n是混淆矩阵中的总列数即总类别数;N代表用于精度评估的样本总数;Pii 代表混淆矩阵中第
在本研究中,OA、Kappa、FM用来评估分类器的整体性能,Fi 用来评估不同荒漠类型的分类精度。
2 结果
2.1 3种机器学习分类算法整体性能差异
在仅使用影像光谱特征对都兰县荒漠进行分类时,RF、SVM、CART等3种分类器的分类精度均达不到理想效果。但当这3种分类器在应用CF1分类的基础上分别单独加入雷达特征、地形特征、纹理特征参与分类时都会不同程度地提升分类器的整体性能(图3)。具体而言:对于RF和CART,地形特征的加入对于分类精度的提升帮助最大,其次是雷达特征、纹理特征。对于SVM,雷达特征的加入则对分类精度的提升起到最大帮助,其次是纹理特征,而地形特征反而对分类器整体精度的提升起到的作用最小。
图3
图3
RF、SVM和CART在不同分类特征组合下的整体精确度
Fig.3
Overall accuracy of RF, SVM, and CART with different classification feature combinations
无论使用哪种分类特征组合,RF分类器的性能都要优于CART和SVM。RF与SVM分类器的整体分类效果在同时应用光谱波段、光谱指数、雷达特征、地形特征、纹理特征参与分类时达到最佳。其中,RF的最高OA为95.68%,Kappa系数为0.95、FM得分为94.28%;SVM的最高OA为88.50%、Kappa系数为0.87、FM得分为84.05%。对于CART分类器,当所有的分类特征同时参与分类时呈现的整体分类精度却没有表现出最佳效果,其最高精度在应用光谱波段、光谱指数、地形特征参与分类时获得:OA为90.52%、Kappa系数为0.89、FM得分为87.03%。
2.2 不同类型荒漠分类的精确性评估
在应用CF1参与分类的基础上,单独加入雷达特征、地形特征、纹理特征对不同类型荒漠的分类精度影响有所不同。总体而言,地形特征对沙质荒漠、轻度盐碱荒漠、重度盐碱荒漠、岩石荒漠、高山寒漠的分类精度提升作用最大,雷达特征则能更好地提高砾质荒漠与壤土荒漠的分类精度,而纹理特征对于各荒漠类型的区分表现最差(图4)。具体来讲:对于沙质荒漠,地形特征、雷达特征的加入分别提升了9.73%、4.77%的分类精度,但纹理特征加入时却降低了其分类精度。对于砾质荒漠,雷达特征、地形特征、纹理特征的加入都提高了其分类精度,但提升幅度都较小,分别为1.89%、1.84%、0.65%。对于轻度盐碱荒漠,地形特征、雷达特征、纹理特征分别提升了14.83%、5.96%、1.84%的分类精度。对于重度盐碱荒漠,雷达特征对其分类精度的提升效果不佳,仅0.4%,地形特征和纹理特征则分别提升了8.79%、1.91%。对于壤土荒漠,雷达特征表现出对分类精度提升最佳的效果,达到15.7%,地形特征则为7.97%,纹理特征对提高壤土荒漠的分类精度帮助最小,为4.94%。对于岩石荒漠,仅用光谱指数与光谱波段很难有效地对岩石荒漠进行识别,精度仅50.40%,虽然加入纹理特征和雷达特征分别提升了16.01%和12.59%的分类精度,但分类效果依然不理想,而地形特征的加入则明显改善了岩石荒漠的分类精度,且可以达到较为理想的分类效果。对于高山寒漠,地形特征参与分类时其分类精度提升了20.51%,雷达特征则为4.39%,纹理特征对分类精度提升的贡献最小,仅为0.09%。
图4
图4
不同的分类特征组合下各荒漠类型的分类精度
Fig.4
Classification accuracy of each desert type under different combinations of classification features
对于所有类型的沙漠,当所有分类特征都参与分类时,将获得最高的Fi 得分和最佳的分类效果。沙质荒漠的最高Fi 为93.79%、砾质荒漠的最高Fi 为96.12%、轻度盐碱荒漠的最高Fi 为93.85%、重度盐碱荒漠的最高Fi 为93.84%、壤土荒漠的最高Fi 为89.55%、岩石荒漠的最高Fi 为95.94%、高山寒漠的最高Fi 为98.96%。而重度盐碱荒漠与高山寒漠在应用光谱特征与地形特征参与分类时、壤土荒漠在应用光谱特征与雷达特征参与分类时也可达到最高的分类精度。
2.3 随机森林分类算法中各变量重要性大小
GEE平台为随机森林分类算法提供了“解释”功能,可以对参与分类的特征变量进行重要性得分评估。从图5可以看到,地形特征中的海拔特征在分类中重要性得分最高(429.63),而坡度特征则对分类的贡献较小。雷达特征中VH在分类中的重要性要比VV更好,具有较高的重要性得分(257.31)。光谱指数特征中,TGSI、BSI的重要性得分要高于其他的光谱指数,这表明这几个指数对提取荒漠类型的帮助更大,而EVI、MSAVI、NDVI这几个常用的植被指数的则对于荒漠类型的提取帮助较小。Sentinel-2影像的光谱波段中,短波红外的重要性要高于近红外波段、植被红边和可见光波段。基于光谱波段的Gray纹理特征的重要性要高于光谱波段,其重要性得分为200.18。但总体而言,海拔与VH极化方式对荒漠分类的贡献较为突出,其他的分类特征重要性得分较低且差异不大。
图5
2.4 都兰县荒漠类型识别结果
都兰县各种类型荒漠的总面积为29 039.43 km²,占整个都兰县面积的64.15%(图6)。沙质荒漠面积为2 455.38 km²(5.42%),砾质荒漠面积为4 341.50 km²(9.59%),轻度盐碱荒漠面积为1 664.78 km²(3.68%),重度盐碱荒漠面积为5 360.53 km² (11.84%),壤土荒漠面积为1 424.70 km²(3.15%),岩石荒漠面积为8 956.25 km²(19.79%),高山寒漠面积为4 836.29 km²(10.68%)。
图6
都兰县的荒漠在空间分布上随海拔梯度大致呈现出条带状分布的特点。高山寒漠和岩石荒漠主要分布在都兰县东部和南部的山区,壤土荒漠则多分布在山脚的冲洪积扇或河流两侧,砾质荒漠大面积分布在都兰县南北两侧的山前冲洪积平原上,沙质荒漠则集中分布在研究区东部,盐碱荒漠则广泛分布在地势低洼的中西部。
3 讨论
3.1 不同机器学习方法对都兰县荒漠提取的整体性能
机器学习算法已被证明在处理高维、复杂的数据上也能产生良好的分类结果[39]。但以往的研究表明:研究对象的差异对不同分类器的影响较大。如:Abida等[40]比较了RF、CART、SVM、RVM等4种机器学习方法应用于半干旱地区的土地利用分类的性能,结果显示RF是最好的方法。而Mustak等[41]指出,与RF和CART相比,SVM分类器在作物识别方面的准确性更高。然而,不同的机器学习分类算法在荒漠类型提取中的性能却鲜有研究。在本研究中,我们使用基于像素的分类程序评估和比较了3种机器学习分类方法(RF、CART、SVM)对荒漠分类时的性能。结果显示:在使用相同的特征变量组合时,RF分类方法取得的整体精度要高于SVM和CART,在荒漠分类中具有明显的优势。
3.2 分类特征对荒漠类型识别的影响
已有大量的光谱指数被用于监测和评估荒漠化[44],但我们选取的3种常用植被指数(EVI、MSAVI、NDVI)在荒漠类型提取中的作用不大。这可能是由于植被指数对低植被覆盖度的敏感性较低所致[45]。Xiao等[46]根据表层土壤的颗粒组成与荒漠化程度密切关系,提出了用TGSI来监测荒漠化。我们也认识到,物质运移遵循由远及近、由粗到细的分异规律,对不同类型荒漠分布具有一定影响[4]。BSI的分类性能会随着干旱度的增加而提高,是区分裸露土壤与其他土壤的有效指标[40]。本研究中TGSI和BSI用于荒漠分类时,比其他指数表现更优。然而,由于荒漠地区的低光谱差异性,仅使用光谱波段和光谱指数对荒漠进行分类很难达到理想的分类效果。
GLCM纹理信息已被证明可以提高图像的分类精度[47]。在本研究中,我们将基于近红外波段和可见光波段建立的纹理特征与光学数据结合用于荒漠分类,分类精度却没有明显改善。而在对影像光谱波段的重要性得分评估中,短波红外波段对荒漠分类的重要性要高于其他波段。因此,使用基于短波红外的纹理信息,可能会提高纹理特征在荒漠分类中的作用。
3.3 本研究的优势与局限性
本研究基于GEE平台,整合多源遥感数据,实现了对荒漠类型的高精度分类,得到了都兰县不同类型荒漠的空间分布状况。通过应用不同的分类特征组合对比了3种常用的机器学习算法在荒漠分类中的性能,从中选出了最优分类方法,并探讨了各种分类特征提取不同荒漠类型的能力,为后续针对不同荒漠类型特点,选择合适的分类指标与分类方法提供了参考。
4 结论
地形特征、雷达特征、纹理特征的加入,均比仅使用光谱数据情况下的分类精度高。其中地形特征的加入对RF和CART分类器整体精度的提升最明显,而雷达特征的加入则对SVM分类器整体精度的提升表现最好。
在提取荒漠信息时,RF分类器的性能要优于SVM和CART。使用RF分类器,并以光谱特征、雷达特征、地形特征、纹理特征为分类依据的总体分类精度最高,整体准确度为95.68%,Kappa系数为0.95,FM得分为94.28%,获得的都兰县荒漠面积为29 039 km²。
本研究区分类特征的重要程度从大到小依次为地形特征、雷达特征、纹理特征、光谱指数、光谱波段。其中,海拔与VH对荒漠分类的贡献比较突出,其他特征则差异不大。
本研究区中,地形特征对沙质荒漠、轻度盐碱荒漠、重度盐碱荒漠、岩石荒漠、高山寒漠的分类精度提升作用最大,雷达特征则能更好地识别砾质荒漠与壤土荒漠。
参考文献
Drivers and impacts of changes in China's drylands
[J].
Global desertification vulnerability to climate change and human activities
[J].
Finer-resolution mapping of global land cover:recent developments,consistency analysis,and prospects
[J].
Uncertainties in classification system conversion and an analysis of inconsistencies in global land cover products
[J].
Multi-source remote sensing data fusion:status and trends
[J].
A review of the application of optical and radar remote sensing data fusion to land use mapping and monitoring
[J].
The application of ensemble techniques for land-cover classification in arid lands
[J].
Land cover classification using Google Earth Engine and random forest classifier:the role of image composition
[J].
Google Earth Engine:Planetary-scale geospatial analysis for everyone
[J].
A summary of the special issue on remote sensing of land change science with Google Earth Engine
[J].
Desertification assessment in China:an overview
[J].
Driving factors of desertification in Qaidam Basin,China:an 18-year analysis using the geographic detector model
[J].
Spatial and temporal variation of vegetation phenology and its response to climate changes in Qaidam Basin from 2000 to 2015
[J].
Sentinel-1 GRD preprocessing workflow
[C]//
The Shuttle Radar Topography Mission (SRTM):a breakthrough in remote sensing of topography
[J].
The comparison of different methods of texture analysis for their efficacy for land use classification in satellite imagery
[J].
Textural features for image classification
[J].
Object-oriented lulc classification in Google Earth Engine combining SNIC,GLCM,and machine learning algorithms
[J].
A comparison of random forest and Adaboost tree in ecosystem classification in east Mojave Desert
[C]//
An assessment of support vector machines for land cover classification
[J].
A relative evaluation of multiclass image classification by support vector machines
[J].
Analysis of machine learning classifiers for LULC classification on Google Earth Engine
[D].
Beyond accuracy,F-score and ROC:a family of discriminant measures for performance evaluation
[C]//
Implementation of machine-learning classification in remote sensing:an applied review
[J].
Sentinel-2 data for land use mapping:comparing different supervised classifications in semi-arid areas
[J].
Evaluation of the performance of SAR and SAR-optical fused dataset for crop discrimination
[C]//
Guidance on and comparison of machine learning classifiers for Landsat-based land cover and land use mapping
[J].
The generalized difference vegetation index (GDVI) for dryland characterization
[J].
Development of topsoil grain size index for monitoring desertification in arid land using remote sensing
[J].
A hybrid approach of combining random forest with texture analysis and VDVI for desert vegetation mapping based on UAV RGB Data
[J].
Desertification extraction based on a microwave backscattering contribution decomposition model at the dry bottom of the Aral Sea
[J].
Object based image analysis for remote sensing
[J].
Geographic object-based image analysis (GEOBIA):emerging trends and future opportunities
[J].
Assessing object-based classification:advantages and limitations
[J].
/
〈 |
|
〉 |
