img

官方微信

高级检索

中国沙漠, 2024, 44(6): 70-78 doi: 10.7522/j.issn.1000-694X.2024.00049

基于集成学习的风沙跃移轨迹自动识别模型

周虹吉,1, 梅凡民,1, 蒲梦洁1, 林川1, 苏进2, 陈金广3

1.西安工程大学,环境与化学工程学院,陕西 西安 710600

2.西安工程大学,理学院,陕西 西安 710600

3.西安工程大学,计算机科学学院,陕西 西安 710600

Ensemble models for identifying automatically aeolian saltating tracks driven by datasets

Zhou Hongji,1, Mei Fanmin,1, Pu Mengji1, Lin Chuan1, Su Jin2, Chen Jinguang3

1.School of Environmental and Chemical Engineering /, Xi'an Polytechnic University,Xi'an 710600,China

2.School of Science /, Xi'an Polytechnic University,Xi'an 710600,China

3.School of Computer Science, Xi'an Polytechnic University,Xi'an 710600,China

通讯作者: 梅凡民(E-mail: meifanmin@xpu.edu.cn

收稿日期: 2024-03-11   修回日期: 2024-05-12  

基金资助: 国家自然科学基金项目.  41340043
陕西省自然科学基金项目.  2021JM-448
西安工程大学一流课程(环境生态学)项目

Received: 2024-03-11   Revised: 2024-05-12  

作者简介 About authors

周虹吉(1997—),男,山西忻州人,硕士研究生,主要从事风沙跃移颗粒追踪研究E-mail:hosico@126.com , E-mail:hosico@126.com

摘要

为了发展风沙跃移轨迹追踪算法,需要建立自动识别跃移轨迹方法来代替人工识别方法。本文利用自建的跃移轨迹数据集,发展了4个优化的集成学习模型(极度随机树、随机森林、梯度提升决策树和XGBoost)以实现跃移轨迹的自动识别。结果表明:上述模型都能够较好地实现跃移轨迹的自动分类,反映了集成学习模型在解决这类非线性问题时的独特优势;在研究的模型中,极度随机树模型具有最高的准确率(0.9035)、精确度(0.9030)、召回率(0.9035)、F1分数(0.8995)、MCC(0.7378)、AUC分数(0.9179)和最高的时间成本;XGBoost模型具有较好的预测分数和较低时间成本;前者适合用于离线跃移轨迹的自动识别而后者具有在线追踪风沙颗粒的潜力;添加瞬时水平和垂直速度的方差等参数化方案不但可优化数据集,且能进一步提升极度随机树模型的预测性能。

关键词: 风沙跃移 ; 极度随机树 ; XGBoost ; 随机森林 ; 梯度提升决策树

Abstract

It is very vital for tracking sand particle to establish automatic identification of saltating tracks. Thus, the four ensemble models, including the Extremely randomized trees, the Random forests, the XGBoost, and the Gradient Boosting Decision Tree driven by the datasets we constructed, were proposed for identifying saltating tracks. Firstly, all the models perform well in spite of the dataset without very good discriminability, suggesting these models own an advantage when dealing with nonlinear relationships. Secondly, the Extremely randomized trees model holds the highest accuracy (0.9035), precision (0.9030), recall (0.9035), F1 score (0.8995), MCC (0.7378), and AUC score (0.9179), and time cost while the XGBoost model has the best balance between the higher scores and lower time cost. It implies that the former is most feasible for identifying offline saltating tracks and that the latter is prospective for tracking sand particle online. Finally, the improved datasets, which incorporate standard deviation of instant horizontal and vertical velocities, significantly enhance the predictive performances of Extremely randomized trees. This study effectively reduces the time cost of manual trajectory verification and broadens the application of machine learning in saltation.

Keywords: aeolian saltating ; extremely randomized trees ; XGBoost ; random forest ; gradient boosting decision tree

PDF (2921KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

周虹吉, 梅凡民, 蒲梦洁, 林川, 苏进, 陈金广. 基于集成学习的风沙跃移轨迹自动识别模型. 中国沙漠[J], 2024, 44(6): 70-78 doi:10.7522/j.issn.1000-694X.2024.00049

Zhou Hongji, Mei Fanmin, Pu Mengji, Lin Chuan, Su Jin, Chen Jinguang. Ensemble models for identifying automatically aeolian saltating tracks driven by datasets. Journal of Desert Research[J], 2024, 44(6): 70-78 doi:10.7522/j.issn.1000-694X.2024.00049

0 引言

风沙跃移是半干旱和干旱地表的关键地球物理过程,是沙丘、戈壁和雅丹等地貌演变的主要驱动力1。跃移轨迹演化是理解跃移过程的重要窗口,过去20多年来研究人员利用数字高速摄影技术及风沙颗粒轨迹追踪算法(Saltating particle tracking,SPT)对此开展了深入的研究,并取得了一系列重要的进展,如发现了起跳速度的单峰和双峰分布2-3、恢复了跃移运动参数4、重构了侧向速度分量5-7、证实了颗粒流粒载切应力廓线5-68,发展了各类的跃移尺度律9-12。然而目前发展的SPT算法的性能还有待于进一步提高。具体地说,我们最近提出的混合卡尔曼滤波-匈牙利算法(KF-H-k13,虽然性能强于以前的算法,但在中等颗粒浓度(每帧103~134个颗粒)下,为了保证轨迹正确率,KF-H-k去除了大量有效颗粒位置,其召回率仅为50%~60%。这意味着目前的SPT算法还难以满足风沙颗粒追踪的需求,因而发展新的SPT算法势在必行。新算法的发展首先遇到的瓶颈是需要借助人工识别的方法来评价算法的性能,而这非常耗时,因而在新算法发展过程中,迫切地需要发展风沙轨迹自动识别的方法,以提高算法评价的效率。

基于数据驱动的集成学习模型如随机森林14、极度随机树15、梯度提升决策树16和XGBoost17等模型开始用于粉尘源区的识别18-22、雪崩预测23、土地覆盖类型识别24、绿洲土地利用制图25、土壤盐渍化预测26、地下水水质评价27、植被反演28以及地层识别29-31等领域。上述研究启迪了我们发展跃移轨迹自动识别模型。

跃移轨迹的自动识别属于二分类问题,因而利用上述集成学习模型来解决此问题是可行的,但是作为数据驱动的模型,其性能还依赖于训练数据集的特征,因而构建合适的跃移轨迹数据集也同样重要。鉴于此,本文基于我们团队提出的SPT算法13,构建了包括正确和错误轨迹的数据集,以发展优化的集成学习模型并进而实现对风沙轨迹的自动识别,以期为构建基于机器学习的沙粒追踪算法奠定基础。

1 研究方法

1.1 跃移轨迹数据来源

跃移轨迹数据来自在陕西师范大学风沙过程动力学风洞实验室拍摄的高速视频。该视频的拍摄频率为3 000 Hz,空间分辨率为39.4 mm×29.5 mm,共57 652帧。

这里分别采用最近邻算法13、匈牙利算法13、卡尔曼滤波-匈牙利算法13(KF-H)及混合卡尔曼滤波-匈牙利算法13(KF-H-k)对来自于极低浓度E(4个颗粒·帧-1)、低浓度L1(26个颗粒·帧-1)、低浓度L2(30个颗粒·帧-1)、低浓度L3(35个颗粒·帧-1)、中浓度M1(103个颗粒·帧-1)、中浓度M2(108个颗粒·帧-1)和中浓度M3(134个颗粒·帧-1)等7段视频进行追踪,共提取了7 564条轨迹,并且这些轨迹的长度(轨迹中所包含的颗粒位置数量)均在3~110。原始轨迹数据包括了轨迹的序号,轨迹的横、纵坐标(单位为像素)以及帧号,图1展示了由KF-H-k算法提取的原始轨迹数据所绘制的视频M1下的跃移轨迹汇总图。最后,通过与对应帧原始图像中的跃移颗粒位置对比,当算法恢复轨迹中的所有位置与真实位置一一对应时,即将这条轨迹标记为正确轨迹,否则标记为错误轨迹。

图1

图1   M1视频的第23帧图片(A),由KF-H-k算法提取的视频M1中的跃移颗粒轨迹(B)

Fig.1   The 23rd frame of the M1 section (A), the recovered saltating tracks from the M1 section via the KF-H-k (B)


1.2 跃移轨迹数据的参数化方案

为了刻画跃移轨迹的特征,这里选用了跃移轨迹的瞬时水平速度、垂直速度、合速度等变量(表1)并以这3个变量的均值刻画跃移轨迹,即表1中的变量X1X2X3。由于原始视频中1像素约为0.077 mm,而相邻帧的时间间隔为1/3 000 s,因此上述3个速度特征经计算后,单位转换为m·s-1。另外,图2中两条正确轨迹的拟合二次曲线的决定系数(R2 )均在0.98以上,错误轨迹拟合二次曲线的R2仅为0.4134,正确轨迹拟合二次曲线的R2 为0.7~1.0的总占比为78.80%,均表明了在上升阶段和下降阶段正确的跃移轨迹分别近似地服从抛物线方程的特征。因此,考虑到轨迹拟合二次曲线的决定系数能够提供一定的轨迹正确性信息,这里也将其作为刻画轨迹的变量,即表1中的变量X4。以上4个参数化特征(变量X1~X4)作为风沙轨迹的输入参数参与了模型的训练。

表1   跃移轨迹数据集的参数化特征

Table 1  Parameterized features of saltating track samples

变量定义
X1瞬时水平速度的平均值(m·s-1
X3瞬时垂直速度的平均值(m·s-1
X2瞬时合速度的平均值(m·s-1
X4轨迹抛物线方程拟合曲线的决定系数,R2

新窗口打开| 下载CSV


图2

图2   由KF-H算法提取视频M1中的第27号正确的上升轨迹(A),第7号正确的下降轨迹(B)和第16号错误轨迹(C)以及5 756条正确轨迹的拟合二次曲线的决定系数(R2 )的概率分布(D)

Fig.2   The 27th true ascent trajectory (A), the 7th true descent trajectory (B) and the 16th false trajectory (C)in video M1 extracted by the KF-H algorithm, respectively; Probability distribution of the determination coefficient (R2 ) for fitting quadratic curves of 5 756 true trajectories (D)


1.3 集成学习模型及训练流程

本研究采用了4种集成学习模型,包括随机森林(Random Forest)、极度随机树(Extremely Randomized Trees)、梯度提升决策树(Gradient Boosting Decision Tree)和XGBoost。随机森林使用自举法(bootstrap)通过从原始数据集中有放回地随机抽取样本,形成多个子训练集,然后利用这些子训练集来训练多个基础学习器,最终采用投票的方式得到预测结果。极度随机树基于未剪枝回归树或决策树构建算法。与随机森林不同,极度随机树在训练模型时不采用自举法而是使用整个数据集进行节点划分及优化。梯度提升决策树是基于boosting算法的机器学习方法,通过不断强化弱学习器来获得强学习器,其在每次迭代中调整每一棵决策树,以最小化输出的预测值与真实标签之间的损失,进而逐步提升整体模型的预测能力。XGBoost在梯度提升决策树的基础上做了大量改进,包括加入了模型的正则项、改进了损失函数、采取了权重收缩和子采样等策略。此外,XGBoost还增加了Column Block、Cache-aware Access和Blocks for Out-of-core Computation等技术,进一步缩短了训练时间。

模型的训练流程如图3所示,首先载入含有7 564条跃移轨迹的数据集(每条轨迹数据样本包含表1中的4个参数化特征以及标签)和机器学习算法;其次,按照8∶2的比例划分为训练集(6 051条轨迹)和测试集(1 513条轨迹);再者,通过分层10折交叉验证的基于Tree-structured Parzen Estimator32(TPE)的贝叶斯优化方案来进行模型的训练;最后将训练得到的最优模型在测试集上进行性能评估。

图3

图3   模型训练流程

Fig.3   Workflow for model Training


本文使用的随机森林、极度随机树和梯度提升决策树模型均基于Python的scikit-learn库33实现,而XGBoost模型则使用了Python的xgboost库实现,所涉及的模型构建和训练均在一台搭载了英特尔酷睿i5-7300HQ处理器和28GB物理内存的笔记本电脑上完成,训练后各模型的最终参数设置见表2

表2   通过Tree-structured Parzen Estimator优化后的各个模型的最终超参数设置

Table 2  Final hyperparameter settings for each model optimized by Tree-structured Parzen Estimator

算法HP1HP2HP3HP4HP5HP6HP7HP8HP9HP10
随机森林True-1True18018True“sqrt”“gini”
梯度提升决策树True-1True21030.3
XGBoostTrue-17060.30.5
极度随机树True-1True186210.1TrueNone“entropy”

注:HP1~HP10分别指代scikit-learn以及xgboost库中的超参数random_state,n_jobs,warm_start,n_estimators,max_depth,learning_rate,gamma,bootstrap,max_feature和criterion。除表中列出的超参数外,其他超参数设置均为默认。

新窗口打开| 下载CSV


1.4 集成学习模型的评价方法

借鉴普遍的机器学习评价方法29-30,这里分别使用准确率(Accuracy)、精确度(Precision)、召回率(Recall)、F1分数(F1-score)和马修斯相关系数(MCC)等衡量模型的预测性能,它们可用式(1)~式(5)33来表征:

Accuracy=TP+TNTP+FP+TN+FN
Precision=TPTP+FP
Recall=TPTP+FN
F1-score=2·precision·reacllprecision+reacll
MCC=TP·TN-FP·TN(TP+FP)(TP+FN)(TN+FP)(TN+FN)

式中:TP代表真阳性(True Positive),即错误样本被预测为错误样本的数量;TN代表真阴性(True Negative),即错误样本被预测为正确样本的数量;FP代表假阳性(False Positive),即正确样本被预测为错误样本的数量;FN代表假阴性(False Negative),即模型错误地将正样本预测为负类的数量。

除上述标量指标外,这里还采用ROC(Receiver Operating Characteristics)曲线34以动态直观地显示集成学习模型在不同阈值下的真阳性(收益)和假阳性(成本)之间的相对权衡。即根据ROC曲线及其与坐标轴围成面积也就是AUC分数(Area Under the Curve)来揭示机器学习模型的预测性能。

时间成本也是反映模型性能的重要指标。具体来说,模型的时间成本是指在测试数据集上执行1 000次预测任务所需的时间,相当于模型对1 513 000条轨迹进行预测的总时间。

2 结果与分析

从逻辑上讲,机器学习方法的预测性能取决于数据集所包含的关键信息。

2.1 数据集的特征

为了进一步理解数据集的参数化特征与分类标签之间的相关性,我们采用了斯皮尔曼秩相关系数(Spearman's rank correlation coefficient)来判断参数化特征之间或参数化特征与标签之间的相关性。鉴于参数化特征与分类标签的概率分布不满足正态分布,故采用该统计方法来揭示数据集的性能。

图4以相关矩阵的形式展示了斯皮尔曼秩相关系数的结果。每个元素的值代表显著性检验的P值,相应的颜色代表相关系数。单元格的颜色与相关系数的绝对值成正比。颜色越深,相关系数越高;颜色越浅,相关系数越低。在本文的轨迹数据集中,轨迹的平均水平速度(X1)和轨迹的合速度的平均值(X3)呈现强负相关性而平均垂直速度与平均水平速度之间、平均垂直速度与平均合速度之间不存在相关关系。这与跃移轨迹的基本特征相吻合,即跃移过程以气流对颗粒水平动量输送为主,因而在颗粒总动量中以水平动量为主。颗粒垂直速度往往比水平速度低一个数量级,这样颗粒合速度与水平速度的相关性更明显。出乎意料的是,数据集的4个特征与轨迹分类标签之间显然没有相关性。这反映了上述的沙粒轨迹特征与轨迹的标签之间属于非线性关系,也就是说,上述任何特征不足以作为衡量轨迹正确与否的确定标准。正因为跃移轨迹复杂性,一条轨迹不同于另外一条轨迹,因而很难用某个单一特征来对跃移轨迹进行分类。然而机器学习模型的魅力所在即它们可以通过集成学习来对跃移轨迹进行分类。

图4

图4   参数化特征和标签的相关矩阵(每个矩阵元素的值代表显著性检验的P值,相应的颜色代表相关系数)

Fig.4   Correlation matrix of features and label (the value of each matrix element represents the P-value of the significance test and the corresponding color represents the correlation coefficient)


上述数据集所涉及的相关关系及非相关关系共同构成了数据集的“结构”特征。此特征最终影响了机器学习模型的预测表现。同时,采用主成分分析法(Principal Component Analysis,PCA)分析了该数据集对跃移轨迹分类的区分度。图5表明正确轨迹和错误轨迹在二维图像上“共存”,并且在横坐标区间[-2,1]聚集密度相对更高,这说明了本文数据集的区分度还有待改进。因而在未来的工作中,需要建立富有区分度的参数化方案来提高训练数据集的区分度。

图5

图5   基于PCA的降维可视化结果

Fig.5   PCA-based dimensionality reduction visualization


2.2 集成模型的预测表现

表3显示极度随机树的准确率(0.9035)、精确度(0.9030)、召回率(0.9035)、F1分数(0.8995)和MCC(0.7378)均高于另外3种算法。其中,MCC作为综合指标,极度随机树比随机森林、梯度提升决策树和XGBoost分别高4.56%,2.37%和1.53%,这表明极度随机树相较于其他算法具有更强的鲁棒性。值得注意的是,相比于梯度提升决策树,XGBoost的准确率、精确度、召回率、F1分数和MCC分别提升了0.21%,0.47%,0.21%,0.11%和0.83%,这也说明XGBoost诸多改进策略的有效性。

表3   4种集成学习模型的表现

Table 3  Predictive performance of four ensemble models

模型准确率精准度召回率F1分数MCC
随机森林0.89230.89390.89230.88570.7056
极度随机树0.90350.90300.90350.89950.7378
梯度提升决策树0.89760.89700.89760.89290.7207
XGBoost0.89950.90120.89950.89390.7267

新窗口打开| 下载CSV


如前所述,尽管在优化模型的数据集中,单个特征与轨迹分类没有相关性,但整个数据集表现出了集成性。即单个特征不足以区分轨迹的对错,但这些特征集成后对模型进行了优化,进而使得模型均表现出了可以接受的预测结果,这反映了集成学习模型在解决非线性关系的识别问题的优势。也就是说,文中涉及的集成模型能对绝大多数跃移轨迹进行正确的分类,而这是任何传统的统计方法难以做到的,体现了机器学习的魅力。

图6汇总了4种模型的ROC曲线。涉及模型的ROC曲线都位于对角线(y=x)的左上方,且AUC分数均大于0.9,意味着上述模型是合格的跃移轨迹识别模型35-38。另外,根据预测指标(表3)和AUC分数(图6),可知极度随机树模型是准确度最好的模型,可在未来跃移轨迹追踪算法中参考。4种模型的预测性能排名为:极度随机树XGBoost梯度提升决策树随机森林。

图6

图6   4种算法的ROC曲线

Fig.6   ROC curves of four algorithms


2.3 时间成本

图7表明极度随机树的时间成本最高,为52.74 s,而性能略差于极度随机树的XGBoost的时间成本仅有2.22 s,仅为极度随机树的4.21%,在未来沙粒轨迹追踪算法设计中值得推荐。

图7

图7   集成学习模型的平均时间成本

Fig.7   Average time cost of the ensemble models


综上所述,极度随机树具有更好的预测性能和较高的时间成本,更适合用于离线跃移轨迹分类;具有较好预测表现和较低时间成本的XGBoost更适合用于实时性需求更高的跃移轨迹追踪算法的设计中。

3 讨论

考虑到机器学习模型的预测表现对训练数据集的依赖性,这里对前述数据集进行了优化。具体地,在前述数据集中分别添加瞬时水平速度的方差、瞬时水平速度方差和瞬时垂直速度方差等参数化特征(表4),并据此讨论了极度随机树的预测表现。对仅添加了瞬时水平速度方差的数据集而言,极度随机树模型的MCC和AUC分数较原始数据集分别提升了11.70%和3.56%;对同时添加了瞬时水平和垂直速度方差的数据集而言,极度随机树模型的MCC和AUC分数分别提升了13.26%和5.64%,且后者的表现好于前者,这意味着随着刻画轨迹特征参数个数的增加,其对集成学习模型的预测表现有较为明显的提升。

表4   极度随机树在优化数据集上的预测表现

Table 4  Performances of the trained Extremely Randomized Trees by optimized datasets

优化数据集准确率精确度召回率F1分数MCCAUC分数
原始数据集0.90350.90300.90350.89950.73780.9179
原始数据集+瞬时水平速度的方差0.93320.93270.93320.93290.82410.9506
原始数据集+瞬时水平速度的方差+瞬时垂直速度的方差0.93790.93720.93790.93740.83560.9697

新窗口打开| 下载CSV


由于目前还缺乏同类研究结果的数据,本研究的数据还不能和前人的工作做细致的对比。但是可以和同为分类问题的研究数据相比较,对于二分类中的雪崩预测问题,我们的模型的准确率和精度略低于Akay39和Yang等40的结果,与Iban等23的结果相似,但明显地高于多分类任务的地层识别29-31研究结果。

最后,近年来许多优秀的机器学习方法开始用于科学界,如NGBoost41k-means42和DBSCAN43等在人流与车流轨迹分类中表现出了优秀的性能44。这些模型也有望用于跃移轨迹识别模型的研究中。

4 结论

本文提出了基于自建的跃移轨迹数据集的4种集成学习模型,包括随机森林、极度随机树、梯度提升决策树和XGBoost等。模型运行结果表明:所涉及的模型都能够较好地对跃移轨迹进行分类,其中极度随机树具有最好的预测表现[准确率(0.9035)、精确度(0.9030)、召回率(0.9035)、F1分数(0.8995)、MCC(0.7378)、AUC分数(0.9179)]和最高的时间成本(每1 513 000次预测时间成本为52.74 s);XGBoost具有较好的预测准确率和最低的时间成本。这意味着前者可用于离线的沙粒轨迹的自动识别而后者对在线的轨迹追踪算法上更有前景。另外,通过添加瞬时水平和垂直速度方差等参数,能明显地提升极度随机树模型的预测表现,这意味着优化数据集对提升集成模型的预测表现有重要作用。

参考文献

Bagnold R A.The Physics of Blown Sand and Desert Dunes[M].NetherlandsSpringer1942.

[本文引用: 1]

Wang DWang YYang Bet al.

Statistical analysis of sand grain/bed collision process recorded by high‐speed digital camera

[J].Sedimentology,2008552):461-470.

[本文引用: 1]

Jiang C WParteli E J RDong Z Bet al.

Wind-tunnel experiments of aeolian sand transport reveal a bimodal probability distribution function for the particle lift-off velocities

[J].Catena,2022217106496.

[本文引用: 1]

Zhang YWang YJia P.

Measuring the kinetic parameters of saltating sand grains using a high-speed digital camera

[J].Science China Physics,Mechanics Astronomy,2014571137-1143.

[本文引用: 1]

O'Brien PNeuman C M K.

PTV measurement of the spanwise component of aeolian transport in steady state

[J].Aeolian Research,201620126-138.

[本文引用: 2]

O'Brien PNeuman C M K.

An experimental study of the dynamics of saltation within a three-dimensional framework

[J].Aeolian Research,20183162-71.

[本文引用: 1]

Yang BWang YZhang Y.

The 3-D spread of saltation sand over a flat bed surface in aeolian sand transport

[J].Advanced Powder Technology,2009204):303-309.

[本文引用: 1]

O'Brien PMcKenna Neuman C.

Experimental validation of the near‐bed particle‐borne stress profile in aeolian transport systems

[J].Journal of Geophysical Research:Earth Surface,201912411):2463-2474.

[本文引用: 1]

Kang L QZou X YZhao G Det al.

Wind tunnel investigation of horizontal and vertical sand fluxes of ascending and descending sand particles in aeolian sand transport

[J].Earth Surface Processes and Landforms,20164112):1647-1657.

[本文引用: 1]

Ho T DValance ADupont Pet al.

Scaling laws in aeolian sand transport

[J].Physical Review Letters,20111069):094501.

Zhang YLi MWang Yet al.

Reinvestigation of the scaling law of the windblown sand launch velocity with a wind tunnel experiment

[J].Journal of Arid Land,201911664-673.

Creyssels MDupont PEl Moctar A Oet al.

Saltating particles in a turbulent boundary layer:experiment and theory

[J].Journal of Fluid Mechanics,200962547-74.

[本文引用: 1]

Mei F MZhou H JSu Jet al.

A new hybrid algorithm based on Kalman filter-Hungarian algorithm for tracking aeolian saltating particle in the high-speed video

[J].Earth Surface Processes and Landforms, 2024, .

[本文引用: 6]

Breiman L.

Random forests

[J].Machine Learning,2001455-32.

[本文引用: 1]

Geurts PErnst DWehenkel L.

Extremely randomized trees

[J].Machine Learning,2006633-42.

[本文引用: 1]

Friedman J H.

Greedy function approximation:a gradient boosting machine

[J].Annals of Statistics,20011189-1232.

[本文引用: 1]

Chen TGuestrin C.

Xgboost:a scalable tree boosting system

[C]//Proceedings of the 22nd Acm Sigkdd International Conference on Knowledge Discovery and Data Mining.2016785-794.

[本文引用: 1]

Boroughani MPourhashemi SGholami Het al.

Predicting of dust storm source by combining remote sensing,statistic-based predictive models and game theory in the Sistan watershed,southwestern Asia

[J].Journal of Arid Land,20211311):1103-1121.

[本文引用: 1]

Boroughani MPourhashemi SHashemi Het al.

Application of remote sensing techniques and machine learning algorithms in dust source detection and dust source susceptibility mapping

[J].Ecological Informatics,202056101059.

Choubin BHosseini F SRahmati Oet al.

Mapping of salty aeolian dust-source potential areas:Ensemble model or benchmark models?

[J].Science of The Total Environment,2023877163419.

Gholami HMohamadifar ASorooshian Aet al.

Machine-learning algorithms for predicting land susceptibility to dust emissions:the case of the Jazmurian Basin,Iran

[J].Atmospheric Pollution Research,2020118):1303-1315.

Rahmati OMohammadi FGhiasi S Set al.

Identifying sources of dust aerosol using a new framework based on remote sensing and modelling

[J].Science of The Total Environment,2020737139508.

[本文引用: 1]

Iban M CBilgilioglu S S.

Snow avalanche susceptibility mapping using novel tree-based machine learning algorithms (XGBoost,NGBoost,and LightGBM) with eXplainable Artificial Intelligence (XAI) approach

[J].Stochastic Environmental Research and Risk Assessment,2023376):2243-2270.

[本文引用: 2]

Zafari AZurita-Milla RIzquierdo-Verdiguier E.

Land cover classification using extremely randomized trees:a kernel perspective

[J].IEEE Geoscience and Remote Sensing Letters,20191710):1702-1706.

[本文引用: 1]

李森颜长珍.

基于ChinaCover数据集的绿洲结构数据制图:以河西内陆河流域为例

[J].中国沙漠,2023433):230-242.

[本文引用: 1]

蒋小芳徐青霞段翰晨.

黄河景电灌区土壤盐渍化反演的多模型对比

[J].中国沙漠,2023435):18-30.

[本文引用: 1]

吴敏温小虎冯起.

基于随机森林模型的干旱绿洲区张掖盆地地下水水质评价

[J].中国沙漠,2018383):657-663.

[本文引用: 1]

张亦然刘廷玺童新.

基于多源遥感和机器学习方法的科尔沁沙地植被覆盖度反演

[J].中国沙漠,2022423):187-195.

[本文引用: 1]

Houghton J ENichols T EGriffiths Jet al.

Automated classification of estuarine sub‐depositional environment using sediment texture

[J].Journal of Geophysical Research:Earth Surface,20231282):e2022JF006891.

[本文引用: 3]

Nichols T EWorden R HHoughton J Eet al.

Sediment texture and geochemistry as predictors of sub-depositional environment in a modern estuary using machine learning:a framework for investigating clay-coated sand grains

[J].Sedimentary Geology,2023458106530.

[本文引用: 1]

ZhengD YHou M CChen A Qet al.

Application of machine learning in the identification of fluvial-lacustrine lithofacies from well logs:a case study from Sichuan Basin,China

[J].Journal of Petroleum Science and Engineering,2022215110610.

[本文引用: 2]

Bergstra JBardenet RBengio Yet al.

Algorithms for hyper-parameter optimization

[C]//International Conference on Neural Information Processing Systems.2011.

[本文引用: 1]

Beguería S.

Validation and evaluation of predictive models in hazard assessment and risk management

[J].Natural Hazards,200637315-329.

[本文引用: 2]

Fawcett T.

An introduction to ROC analysis

[J].Pattern recognition letters,2006278):861-874.

[本文引用: 1]

al Pedregosaet.

Scikit-learn:machine learning in python

[J].Journal of Machine Learning Research,2011122825-2830.

[本文引用: 1]

Canbek GSagiroglu STemizel T Tet al.

Binary classification performance measures/metrics:a comprehensive visualized roadmap to gain new insights

[C]//2017 International Conference on Computer Science and Engineering(UBMK).IEEE2017821-826.

Chicco DJurman G.

The advantages of the Matthews correlation coefficient(MCC)over F1 score and accuracy in binary classification evaluation

[J].BMC Genomics,2020211):1-13.

Silla C NFreitas A A.

A survey of hierarchical classification across different application domains

[J].Data Mining and Knowledge Discovery,20112231-72.

[本文引用: 1]

Akay H.

Spatial modeling of snow avalanche susceptibility using hybrid and ensemble machine learning techniques

[J].CATENA,2021206105524.

[本文引用: 1]

Yang J MHe QLiu Y.

Winter-Spring prediction of snow avalanche susceptibility using optimisation multi-source heterogeneous factors in the Western Tianshan Mountains,China

[J].Remote Sensing,2022146):1340.

[本文引用: 1]

Duan TAnand ADing D Yet al.

Ngboost:natural gradient boosting for probabilistic prediction

[C]//International Conference on Machine Learning.PMLR20202690-2700.

[本文引用: 1]

MacQueen J.

Some methods for classification and analysis of multivariate observations

[C]//Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability.1967281-297.

[本文引用: 1]

Ester MKriegel H PSander Jet al.

A density-based algorithm for discovering clusters in large spatial databases with noise

[C]//KDD'96:Proceedings of the Second International Conference on Knowledge Discovery and Data Mining.1996226-231.

[本文引用: 1]

Bian JTian DTang Yet al.

Trajectory data classification:a review

[J].ACM Transactions on Intelligent Systems and Technology(TIST),2019104):1-34.

[本文引用: 1]

/