• 中文核心期刊
  • 中国科技核心期刊
  • CSCD收录期刊
  • 美国《化学文摘》收录期刊
  • Scopus数据库收录期刊
高级检索

基于BPNN-SHAP模型的滑坡危险性评价:以伊犁河流域为例

戴勇, 孟庆凯, 陈世泷, 李威, 杨立强

戴勇,孟庆凯,陈世泷,等,2024. 基于BPNN-SHAP模型的滑坡危险性评价:以伊犁河流域为例[J]. 沉积与特提斯地质,44(3):534−546. DOI: 10.19826/j.cnki.1009-3850.2024.07006
引用本文: 戴勇,孟庆凯,陈世泷,等,2024. 基于BPNN-SHAP模型的滑坡危险性评价:以伊犁河流域为例[J]. 沉积与特提斯地质,44(3):534−546. DOI: 10.19826/j.cnki.1009-3850.2024.07006
DAI Y,MENG Q K,CHEN S L,et al.,2024. Landslide hazard evaluation based on BPNN-SHAP model: A case study of the Yili River Basin, Xinjiang Province[J]. Sedimentary Geology and Tethyan Geology,44(3):534−546. DOI: 10.19826/j.cnki.1009-3850.2024.07006
Citation: DAI Y,MENG Q K,CHEN S L,et al.,2024. Landslide hazard evaluation based on BPNN-SHAP model: A case study of the Yili River Basin, Xinjiang Province[J]. Sedimentary Geology and Tethyan Geology,44(3):534−546. DOI: 10.19826/j.cnki.1009-3850.2024.07006

基于BPNN-SHAP模型的滑坡危险性评价:以伊犁河流域为例

基金项目: 第三次新疆综合科学考察(2022xjkk0600);国家自然科学基金(42371091);中国科学院特别资助项目
详细信息
    作者简介:

    戴勇(2000—),男,硕士研究生,主要从事灾害数据挖掘与预测研究。E-mail:1748135161@qq.com

    通讯作者:

    孟庆凯(1987—),男,博士,青年研究员,硕士生导师,主要从事地质灾害遥感监测与早期预警研究。E-mail:mengqingkai@imde.ac.cn

  • 中图分类号: P642.22

Landslide hazard evaluation based on BPNN-SHAP model: A case study of the Yili River Basin, Xinjiang Province

  • 摘要:

    为进一步提高滑坡危险性预测模型精度、增强模型可解释性,本文以新疆伊犁河流域为研究区,选取8个影响滑坡发生的危险性因子,在反向传播神经网络(BPNN)基础上,借鉴博弈论思想,构建一种可解释BP神经网络模型(BPNN-SHAP),解决神经网络滑坡危险性评价的“黑箱”问题。将数据集分为70%训练集和30%测试集,采用5折交叉验证提高模型稳定性,对比深度神经网络(DNN)、随机森林(RF)和逻辑回归(LR)3个模型的评价精度,并探讨BPNN-SHAP预测结果的可解释性,完成区域滑坡危险性评价。研究结果表明:相较于其他模型,BPNN-SHAP模型的5个精度评价指标均为最高,分别是:准确率(A)=0.904、精准度(P)=0.911、召回率(R)=0.919、F1分数(F1Score)=0.915、曲线下面积(SAUC)=0.901;研究区滑坡极高、高危险区分别占比11.96%、15.53%,其中新源县和巩留县极高、高危险区占比最高,分别为51.1%、45.6%;滑坡主控因子为高程、坡度、降雨量和峰值地面加速度(PGA),定量揭示高程在15002000 m、坡度大于14°、年降雨量在260~310 mm、PGA大于0.23 g的区域对滑坡发生起促进作用,表明该区域滑坡可能为高程和坡度主控的降雨型、地震型滑坡。本研究方法可为滑坡危险性评价提供新的技术参考,为伊犁河流域防灾减灾韧性建设提供理论支撑。

    Abstract:

    To further improve the accuracy of landslide hazard prediction models and enhance their interpretability, this study selected 8 influencing factors of landslide occurrence, taking the Yili River Basin, Xinjiang province as an example. An interpretable BPNN-SHAP model, based on the back propagation neural network (BPNN) model and the game theory with the aim of addressing the 'black box' issue, was constructed. Firstly, the dataset was divided into 70% training set and 30% test set, and 5-fold cross-validation was used to enhance the robustness of the BPNN-SHAP model. Then, the evaluation accuracy of this model was compared with three other models: Deep Neural Network (DNN), Random Forest (RF), and Logistic Regression (LR). Finally, regional landslide hazard assessment was completed, and the interpretability of BPNN-SHAP was also discussed. The results showed that the BPNN-SHAP model achieved the highest statistical values in the following metrics: Accuracy (A)=0.904, Precision (P)=0.911, Recall (R)=0.919, F1Score=0.915, and SAUC=0.905. The very high and high danger areas for landslides in the study region accounted for 11.96% and 15.53%, respectively. Among these regions, Xinyuan and Nileke County occupy the highest proportions, at approximately 51.1% and 45.6%, respectively. The primary controlling factors for landslides were elevation, slope, rainfall, and peak ground acceleration (PGA). Specifically, areas with an elevation of 1500 m to 2000 m, slopes greater than 14°, annual rainfall between 260 mm and 310 mm, and PGA greater than 0.23 g are prone to landslides, indicating that the predominant types of landslides are rainfall-induced and earthquake-induced. Our research method is expected to provide a new technical reference for landslide hazard assessment and theoretical support for disaster prevention, mitigation, and resilience construction in the Yili River Basin.

  • 伊犁河流域位于新疆西北部,隶属伊犁哈萨克自治州行政辖区,包括9县3市,是“一带一路”的必经之地,因地形地貌多样、地质构造复杂,地质灾害数量占全疆的60%(周昌等,2023)。2004年巩留县黄土滑坡致8人死亡,直接经济损失24万元(梁世川等,2023);2012年新源县阿热勒托别镇卓勒得沟铁矿发生由强降雨引发的山体滑坡,形成泥石流沿山谷冲泻而下,造成21人死亡、7人失踪(刘冰,2012)。此外还有特克斯达坂滑坡、加朗普特滑坡、大洪纳海沟滑坡等典型滑坡均造成该区域人员伤亡及财产损失,因此系统评价该地区滑坡危险性十分必要,可为防灾减灾韧性建设提供理论支撑(李浩,2024)。

    滑坡危险性评价依赖地质、气象和遥感等多源数据,考量地形地貌、土地覆盖类型、降雨量和地质结构等多种因素,评估特定区域发生滑坡的空间概率大小,旨在确定大区域内滑坡可能集中发育的地方(肖婷,2021)。目前,学者在伊犁河流域采取了多种定量评价模型开展滑坡危险性评价,分析模型在该区域的适用性,量化潜在滑坡危险区域。李帅等(2021)采用逻辑回归单一模型进行地震滑坡危险性评价,揭示地震滑坡的空间分布规律;傅贵(2021)对比信息量模型和逻辑回归模型在滑坡危险性评价中的优劣性,结果表明逻辑回归评价精度优于信息量法;王娅美等(2023)建立信息量+逻辑回归、确定性系数+逻辑回归等组合模型对巩留县滑坡危险性进行评价,解决各因子之间共线性问题,客观计算各因子权重,发现确定性系数+逻辑回归组合模型评价结果与实际结果最相符;范贺娟(2023)考虑滑坡孕灾过程具有复杂非线性的特点,使用人工神经网络在天山野果林区开展滑坡危险性评价,其评价结果优于传统逻辑回归模型。

    虽然神经网络在伊犁河流域滑坡危险性评价中的精度要优于逻辑回归等传统模型,但由于内部神经元连接交错纵横,模型成为“黑箱”,可解释性差(Molnar,2020)。因此,如何在实现滑坡危险性高精度评价的同时确保模型的可解释性是该领域发展的前沿趋势。Ribeiro et al.(2016)基于局部可解释与模型无关的思想,提出LIME(Local Interpretable Model-agnostic Explanations)模型,使用一个简单模型来近似原始复杂模型的行为,实现模型局部解释;Lundberg et al.(2020)基于博弈论中的Shapley值,提出了SHAP(SHapley Additive exPlanations)模型,衡量在合作博弈中每个参与者对总体成功(即博弈的收益)的平均贡献,可实现特征的复杂依赖关系呈现和模型的全局解释。以上可解释性模型在医学、经济学等领域应用较广泛,但在滑坡危险性评价领域应用较少。

    综上所述,伊犁河流域滑坡灾害频发,已造成各县市人员伤亡和财产损失,探寻一种提高伊犁河流域滑坡危险性评价精度且具有可解释性的方法十分重要。本文以伊犁河流域为研究区,在考虑该区域的地形地貌、水文地质、工程地质岩组、人类活动等因素的基础上,确定8个滑坡影响因子,建立可解释BP神经网络模型BPNN-SHAP进行滑坡危险性评价,分析各因子权重和依赖关系,得到区域滑坡主控因子,评价区域及各县市滑坡危险性,旨在为滑坡危险性评价提供新的技术参考,为伊犁河流域防灾减灾韧性建设提供理论支撑,促进“一带一路”沿线地区可持续发展。

    新疆伊犁河流域位于中国西北边缘,受到天山北坡科古秦山、博洛霍罗山以及天山中段哈尔克它乌山和那拉提山环绕。该地区属于新疆伊犁哈萨克自治州的行政辖区,包含新源、霍城、巩留、特克斯、昭苏、尼勒克、伊宁、察布查尔、和静9县以及伊宁、霍尔果斯和可克达拉3市,其西侧紧邻哈萨克斯坦国境线(艾力哈木,2022)。流域内多种地貌类型并存,地势东高西低,东窄西宽,形似朝西开口的喇叭(王颖慧等,2022)。该地区滑坡等地质灾害分布广泛,图1展示了研究区概况与部分滑坡野外调查图。

    图  1  伊犁河流域和滑坡野外调查图
    Figure  1.  Field investigation map of landslides in the Yili River Basin

    反向传播神经网络(back propagation neural network, BPNN)是一种标准多层前馈人工神经网络,其特点是信号前向传播,误差反向传播,具备优秀的非线性拟合能力和泛化能力(张迎宾等,2024)。该网络结构包括输入层、隐藏层和输出层,训练过程中首先完成前向传播,其中每一层的输出都基于前一层的输出计算;当到达输出层,会利用损失函数计算网络输出与真实标签之间的误差;接下来是反向传播,误差信号从输出层逆向沿网络传播回输入层,过程中逐层更新权重和偏置,旨在最小化损失函数值。权重更新通常使用梯度下降或其变体算法。

    SHAP是一种与模型无关的全局解释方法,通过计算每个特征对模型的边际贡献来衡量特征对模型输出结果的影响大小(李扬,2023)。特征贡献可用式(1)计算:

    $$ {\phi _i} = \sum\limits_{S \subseteq F\backslash \{ i\} } {\frac{{|S|!(|F| - |S| - 1)!}}{{|F|!}}} [{f_x}(S \cup \{ i\} ) - {f_x}(S)] $$ (1)

    $ F $是特征集合,$ S $是不包含$ i $的特征子集,$ |S| $$ S $中元素特征数,$ |F| $是特征总数,$ {f_x}(S) $是使用$ S $对样本$ x $做出的预测,$ {f_x}(S \cup \{ i\} ) $是使用$ S $加上$ i $对样本$ x $做出的预测。有关SHAP的详细细节可参考Lundberg和Mitchell等的研究(Lundberg et al.,2020Mitchell et al.,2022)。

    本文在BPNN基础上融合SHAP方法,建立可解释BP神经网络模型,具体融合结构如图2所示。BPNN模型训练完毕后,将模型输入数据与输出数据同时作为SHAP的输入项,SHAP依据式(1)的原理进行内部博弈过程,最终确定输入因子的贡献权重与依赖关系,BPNN模型得以解释。

    图  2  BPNN-SHAP模型
    Figure  2.  BPNN-SHAP model

    模型评价指标主要用于量化和评估模型的性能和效果,可作为模型选择和优化的参考。本文主要选择5个评价指标:准确率(A)、精准度(P)、召回率(R)、F1分数(F1Score)、曲线下面积(SAUC),并绘制ROC曲线,具体计算如式(2)—式(6)。

    $$ A=\frac{TP+TN}{TP+TN+FP+FN} $$ (2)
    $$ P=\frac{TP}{TP+FP} $$ (3)
    $$ R=\frac{TP}{TP+FN} $$ (4)
    $$ {Fl}_{\mathrm{score}}=\frac{2\times P\times R}{P+R} $$ (5)
    $$ {S}_{\mathrm{AUC}}=P({P}_{\mathrm{正样本}} > {P}_{\mathrm{负样本}}) $$ (6)

    其中,TP是正类被正确预测为正类的数量,TN是负类被正确预测为负类的数量,FP是负类被错误预测为正类的数量,FN是正类被错误预测为负类的数量,$ {P}_{\mathrm{正}\mathrm{样}\mathrm{本}} $表示预测得到正样本的概率,$ {P}_{\mathrm{负}\mathrm{样}\mathrm{本}} $表示预测得到负样本的概率。

    滑坡编录数据是进行滑坡危险性评价的基础资料,编录数据完整性与准确性对滑坡危险性评价具有重要意义(周超等,2023)。结合野外调查与遥感解译,共确定1198处滑坡点,高差范围2~481 m,滑坡长度40~2920 m。规模上,中小型滑坡占比约95%;类型上,推移型滑坡占比约70%,以土质滑坡为主。

    伊犁河流域地形地貌较复杂,在内外应力作用下,滑坡灾害发育明显。本文依据伊犁河流域区内孕灾特点,选取距河流距离、距断层距离、土地利用类型、PGA(峰值地面加速度)、年均降雨量、高程、坡度、工程地质岩组共8个影响因子作为滑坡危险性评价模型的输入项,详细数据来源见表1

    表  1  影响因子数据来源
    Table  1.  Sources of data on influence factors
    影响因子 数据来源
    土地利用类型 https://livingatlas.arcgis.com/landcover/
    PGA https://zenodo.org/
    高程、坡度、距河流距离 https://www.gscloud.cn/
    年均降雨量 https://climate.copernicus.eu/climate-reanalysis
    距断层距离、工程地质岩组 新疆维吾尔自治区自然资源档案馆(http://zrzyt.xinjiang.gov.cn
    下载: 导出CSV 
    | 显示表格

    水系发育程度与密度会影响滑坡发生,水体对滑坡危险性的影响主要体现在对地质材料的侵蚀渗透作用,相关作用会导致地下水位上升和岩土力学性质变化(刘任鸿等,2021王存智等,2022)。河流水流动力作用能削弱河岸岩土稳定性,特别是洪水发生期间,水流对河岸的侵蚀作用最为剧烈。考虑距河流距离,是由于河流附近的地段通常流水作用更强,地质条件复杂,滑坡隐患相对较高,其在研究区的分布呈现为西疏东密,距离范围为0~12.1 km(图3a)。

    图  3  滑坡危险性评价影响因子图集
    a. 距河流距离;b. 距断层距离;c. 土地利用类型;d. 地震峰值加速度;e. 降雨量;f. 工程地质岩组;g. 高程;h. 坡度
    Figure  3.  Influence factor datasets associated with landslide hazard assessments

    断层在研究区的分布多呈东西走向,距离分布范围为0~66.6 km(图3b)。断层是地壳运动的直接体现,频繁的断层活动会导致地壳应力集中,在地质剖面上表现为岩石机械性质的不连续变化(孙星,2023),不连续面容易成为滑坡潜在滑动面。地震、岩爆等地质灾害常常沿着断层发生,剧烈的断层活动会瞬间释放出巨大能量,使沿断层地段的岩土体稳定性显著降低。

    土地利用是影响滑坡发生的重要因素,反映人类对地表的改造程度,涉及不同的地面覆盖特性,包括植物根系的稳定能力、土壤含水量和侵蚀速率等。不同类型的土地利用会以不同的方式改变地形地貌和水文地质条件,直接影响斜坡的稳定性(王鑫盈等,2024)。研究区土地利用类型主要包括水体、树木、淹没植被、农作物、灌木、建筑用地、裸地和冰雪8种,分布较多的类型为灌木、农作物、树木及冰雪。灌木在整个研究区广泛分布,农作物分布呈西北—东南走向,少数分布在西南部,树木主要分布在南部地区,冰雪则主要分布在南部和东北部,呈东西走向(图3c)。

    地震会显著降低斜坡稳定性,PGA是地震过程中地面加速度的最大值。在地震作用下,PGA急剧增加,坡体中的岩土材料会受到剧烈动力载荷,可能导致坡体内部裂隙的扩展和连接,进而削弱岩土之间原有的抗剪强度,导致滑坡发生(Jibson,2011)。研究区内PGA的范围为0.163~0.571 g,最大的PGA(0.400~0.571 g)分布在研究区西北部,较大PGA(0.300~0.400 g)分布在研究区南部,呈现东西走向(图3d)。

    降雨是触发滑坡的关键因素之一,水分入渗增加坡体自重,斜坡体内部含水趋于饱和,裂隙不断贯通,原有土体稳定结构遭到破坏,进而发生滑坡(陶妍等,2023)。本文使用研究区的年均降雨量作为滑坡影响因子,其范围在127.8~520.5 mm。其中,强降雨区域主要沿科古琴山、婆罗科努山及昭苏县分布,中强降雨区域主要分布在阿克尼牙孜河南部流域、阔克苏河南部流域以及那拉提山山脉(图3e)。

    工程地质岩组是斜坡的物质基础,对滑坡发育程度起着关键控制作用(王家柱等,2023)。本文依据相关工程地质调查规范并参考前人工作(Tao et al.,2016弓小平等,2018胡杨等,2023),整理工程地质岩组5类(图3f)。坚硬块状花岗岩岩组在伊犁河流域北部、南部呈带状分布,中部零星分布,工程地质条件好;坚硬中–厚层状碳酸盐岩岩组广泛分布于特克斯县中高山地区、霍城县北部高山区,工程地质条件较好;坚硬、较坚硬砂岩为主的碎屑岩岩组呈条带状广泛分布于北部科古琴山、博罗科努山和中部阿吾拉勒山以及南部海拔广大中山、中高山基岩山区,工程地质条件较好;互层状较软的砂岩、砾岩、泥岩为主的碎屑岩岩组呈条带状主要沿科古琴山、博罗科努山、伊犁河上游及沟谷两侧,工程地质条件差;第四系冲洪积、风积、冰积黄土呈带状广泛分布于伊犁河谷平原区,工程地质条件差。

    高程直接影响地形地貌和水文条件,高程较大的区域往往具有较大的坡度和较少的植被覆盖,这些因素可增加滑坡危险性(Dai et al.,2002)。研究区高程范围为479~6285 m,整体呈东高西低的局势,较大高程区域主要分布在科古琴山、婆罗科努山、那拉提山以及昭苏县(图3g)。

    坡度是滑坡发生的直接地形因素,坡度增加意味着物体在重力作用下驱动力增加,这决定了重力作用下土体和岩石的运动倾向,较陡斜坡更容易发生岩土体失稳现象,尤其是当地形陡峭、地质条件脆弱或在强降雨与地震等外部作用影响下,斜坡容易形成滑坡(Dai et al.,2002陈绪钰等,2019)。研究区的坡度范围为0~83.67°,中高坡度分布与高程较为一致,但坡度的分布更为分散(图3h)。

    滑坡危险性评价准确性依赖于选取的影响因子是否与滑坡直接相关,以及这些因子之间的相关性高低,因此在模型训练前应对强相关因子予以剔除。本研究通过Pearson相关系数(Pearson correlation coefficient, PCC)分析各因子之间的相关性,结果展示在图4中。根据相关性理论,一般认为Pearson相关系数绝对值小于0.7时,因子之间不具有强相关性(Tien et al.,2016)。根据相关性图,各因子之间的相关性系数绝对值均小于0.7,不具有强相关性,所有因子均保留。

    图  4  影响影子的相关系数矩阵
    注:*和**分别表示0.05、0.01显著性水平
    Figure  4.  Correlation coefficient matrix of influence factors

    在研究区域内,除1198个已知滑坡点,另随机选择1198个非滑坡点,共同作为模型的学习数据。首先,整个数据集被分为70%训练集和30%测试集;其次,在训练集上实现5折交叉验证(杨杏丽,2021),通过网格搜索法对模型参数进行优化,提升模型对未知数据预测能力并避免在训练集上产生过拟合(Lian et al.,2023);最后利用测试集评估模型预测性能,具体参数如表2所示。值得说明的是,以上实验重复训练10次,各项评价指标值为多次训练结果均值。

    表  2  模型参数取值表
    Table  2.  Model parameter values
    参数名优化器批处理大小学习率激活函数单次训练迭代次数
    取值Adam80.001隐藏层(ReLU),输出层(Sigmoid)50
    下载: 导出CSV 
    | 显示表格

    为对比本文模型相对其他模型的优劣性,将模型与深度神经网络(DNN)、随机森林(RF)和逻辑回归(LR)的预测效果进行比较,数据处理、超参数调节方式均保持一致,相关评价指标如表3所示,并绘制了ROC曲线(图5)。可以看到本文模型在5项评价指标以及ROC曲线评价上均取得最优,各项指标分别为:A(0.904)、P(0.911)、R(0.919)、F1Score(0.915)、SAUC(0.901),表明本文模型在研究区有较好的预测性能。综合各项指标,模型预测性能排序为BPNN>DNN>RF>LR。

    表  3  模型性能对比
    Table  3.  Comparison of model performance
    模型 A P R F1Score SAUC
    LR 0.852 0.858 0.869 0.863 0.809
    RF 0.874 0.877 0.877 0.877 0.847
    DNN 0.891 0.902 0.914 0.908 0.888
    BPNN(本文) 0.904 0.911 0.919 0.915 0.901
    下载: 导出CSV 
    | 显示表格
    图  5  ROC曲线
    Figure  5.  ROC curves

    使用SHAP方法得到BPNN训练中各因子的绝对值的平均值,可反映研究区各因子对滑坡事件的贡献大小(图6),其中贡献排名前4的是高程、坡度、降雨量和PGA。通过叠加分析获得区域危险性指数,在自然间断分级法基础上结合野外调查,重新划分危险性等级,以确保地质灾害发育程度与实际相符,获得区域危险性分区如图7表4所示。结果表明,极高、高危险区面积占比分别为11.96%和15.53%,主要分布在伊宁县北部、尼勒克县西北部和南部、察布查尔南部、昭苏与特克斯以北区域、巩留县南部以及新源县南部区域,区域内断层活动频繁,河流冲刷作用剧烈、降雨较为丰富,为该区滑坡灾害发生主要原因;中、低、极低危险区主要分布在霍城县、察布查尔北部、尼勒克中部及东北部、新源北部、巩留县东北部以及伊宁市中部、伊宁县南部、昭苏西北部和南部及特克斯县南部,区域内断层活动和降雨相对较少,地貌以盆地平原、低山丘陵和中高山区为主。极低至极高区滑坡数量随危险等级增加而增加,占比分别为2.01%、6.34%、10.43%、38.48%、42.74%,与前人研究基本相符(Tao et al.,2016胡杨等,2023),其中有81.22%的滑坡位于极高和高危险区内,可认为评价精度为81.22%,表明评价结果较可靠(王家柱等,2023)。

    图  6  8个影响因子的贡献大小
    Figure  6.  Contribution radar chart of eight influence factors
    图  7  滑坡危险性分区图
    Figure  7.  Landslide hazard zonation map
    表  4  各分区危险性灾害分布表
    Table  4.  Distribution of landslide hazard areas
    危险性分区分区滑坡数量分区滑坡数量占比分区面积占比
    极低危险区242.01%26.67%
    低危险区766.34%28.89%
    中危险区12510.43%16.95%
    高危险区46138.48%15.53%
    极高危险区51242.74%11.96%
    下载: 导出CSV 
    | 显示表格

    图8是伊犁河流域各县(市)滑坡危险性分区占比堆叠图,其中新源县极高危险与高危险区域面积占比最高(51.1%),其次是巩留县(45.6%);中危险区域面积占比较高的是伊宁市(42.4%)和霍城县(32.4%);低危险和极低危险区域面积占比较高的是可克达拉市(97.8%)和霍尔果斯市(75.6%)。

    图  8  各县(市)滑坡危险性分区占比
    Figure  8.  Percentage of landslide hazard zonation areas in different counties and cities

    神经网络模型在滑坡危险性评价中表现优秀,但可解释性差,各影响因子对滑坡危险性的具体影响程度不明晰(曾韬睿等,2024)。本文采用SHAP方法对BPNN模型的预测结果进行解释,包括全局解释和局部解释,分析模型预测内部决策过程,探究研究区滑坡的主要控制因素、因子依赖关系。

    全局解释上,图9是SHAP摘要图,横轴表示影响因子的SHAP值,SHAP>0表示影响因子对预测滑坡有正向贡献,反之为负向贡献,颜色编码表示影响因子特征值高低(Collini et al.,2022周新植,2023)。以坡度因子为例,当特征值较大(即坡度较大,用红色表示)时,SHAP值大于0,说明坡度较大的区域更有可能发生滑坡。由图可得,影响研究区滑坡最大的4个因子是高程、坡度、降雨量和PGA,其中高程和坡度为控制灾害的内动力因子,降雨量和PGA为外界环境因子。高程和降雨量居中、坡度和PGA越大,对滑坡正向贡献越大。

    图  9  SHAP摘要图
    Figure  9.  SHAP summary chart

    局部解释上,图10是SHAP双因子依赖图,选取高程、坡度、降雨量和PGA4个重要因子,进一步解释因子对滑坡的影响(李俊峰等,2023)。通过图10a-10d可知,从贡献方向看,在高程为15002000 m、坡度大于14°、年降雨量为260~310 mm、PGA大于0.23 g这几种情况下,对应的SHAP值大于0的散点多且集中,表示对滑坡预测有正向贡献。从趋势看,高程、坡度、PGA对滑坡的贡献大小随着特征值增加有着明显的变化趋势:高程SHAP值随着高程的增加而先增加后减小,坡度和PGA的SHAP值随着坡度和PGA的增加而增加。从依赖关系看,图10b-10d中的红色散点出现在SHAP值为0的附近区域,即当这3个因子对滑坡预测贡献较小时,往往对应的高程较高,表明了高程在研究区的主要控制作用。

    图  10  SHAP双因子依赖图
    a. 高程SHAP值–高程;b. 坡度SHAP值–坡度;c.降雨量SHAP值–降雨量;d. PGA的SHAP值–PGA
    Figure  10.  SHAP two-factor dependency graph

    综上所述,BPNN模型内部决策过程通过SHAP方法得到了较好解释,模型得以透明化;高程是研究区内滑坡灾害的最主要控制因子,贡献强度随高程增加而先增加后减小;同时该区域滑坡同时受高程、坡度、降雨和PGA的共同影响,表明该区域滑坡可能为高程和坡度主控的降雨型、地震型滑坡。在高程、坡度主要控制下,降雨影响主要分为两个方面:一是对岩土体的浸润、软化,使其强度降低,加快滑移面形成;二是对处于极限平衡状态的斜坡在滑坡形成中产生诱发作用。地震影响同样分为两个方面:一是触发效应,地震使接近临界稳定状态的斜坡瞬间失稳滑动;二是累积效应,地震使斜坡岩土结构松动,坡肩出现裂缝,内部岩土体损伤,促使斜坡失稳(弓小平等,2018铁永波等,2022)。

    较高预测精度往往需较复杂的模型结构,对应模型的可解释性差、训练成本高,这在滑坡危险性评价中需综合考虑。本文使用BPNN进行滑坡危险性评价,并引入SHAP技术对模型进行解释,解决了神经网络的“黑箱”问题。SHAP作为一种独立的解释方法,将所有模型使用统一框架进行解释,表明SHAP方法具有先进性。为探讨模型精度与训练成本间的关系,本文研究了BPNN模型中训练次数与F1Score和训练时长的关系,如图11所示。不难发现,训练次数大于50次后,F1Score提升不再明显,整体处于持平状态。这表明当训练次数超过一定阈值时,模型性能提升有限,计算资源的消耗却显著增加,因此实际训练过程需在精度与训练次数间做权衡,避免不必要的训练成本。

    图  11  训练次数与F1Score、训练时长的关系
    Figure  11.  Relationship of the number of training sessions with F1Score and training duration

    未来,结合先进机器学习技术和可解释性方法,可扩展到其他自然灾害风险评估中,提高预测精度与可解释性的同时,也需采取相关措施降低模型训练成本,实现低成本、高精度和可解释的评价方法,以便理解地质灾害孕灾过程,制定相应防灾减灾措施,提高区域地质灾害韧性。

    本文以伊犁河流域为研究区,选择影响该区地形地貌、水文地质等的8个影响因子,构建BPNN-SHAP模型进行滑坡危险性预测与评价,并对比DNN、RF和LR模型的预测性能,最后使用SHAP方法解释BPNN模型结果,得到以下结论:

    (1)BPNN模型的滑坡危险性预测精度相比DNN、RF和LR模型表现最佳,各项评价指标均取得最高,分别为:A(0.904)、P(0.911)、R(0.919)、F1Score(0.915)、SAUC(0.901),评价精度达81.22%,模型因SHAP方法而具有较好可解释性,为完善滑坡危险性评价方法提供了新的技术参考。

    (2)基于BPNN-SHAP的滑坡危险性评价结果显示:极高危险与高危险区分别占比11.96%、15.53%,主要分布在伊宁县北部、尼勒克县西北部和南部、察布查尔南部、昭苏与特克斯以北区域、巩留县南部以及新源县南部区域,其中新源县极高与高危险区域面积占比最高(51.1%),其次是巩留县(45.6%)。

    (3)伊犁河流域滑坡主要受高程、坡度、降雨和PGA主控,表明该区域滑坡可能为高程和坡度主控的降雨型、地震型滑坡;尤其在高程15002000 m、坡度大于14°、年降雨量260~310 mm、PGA大于0.23 g的区域对滑坡发生有促进作用。

  • 图  1   伊犁河流域和滑坡野外调查图

    Figure  1.   Field investigation map of landslides in the Yili River Basin

    图  2   BPNN-SHAP模型

    Figure  2.   BPNN-SHAP model

    图  3   滑坡危险性评价影响因子图集

    a. 距河流距离;b. 距断层距离;c. 土地利用类型;d. 地震峰值加速度;e. 降雨量;f. 工程地质岩组;g. 高程;h. 坡度

    Figure  3.   Influence factor datasets associated with landslide hazard assessments

    图  4   影响影子的相关系数矩阵

    注:*和**分别表示0.05、0.01显著性水平

    Figure  4.   Correlation coefficient matrix of influence factors

    图  5   ROC曲线

    Figure  5.   ROC curves

    图  6   8个影响因子的贡献大小

    Figure  6.   Contribution radar chart of eight influence factors

    图  7   滑坡危险性分区图

    Figure  7.   Landslide hazard zonation map

    图  8   各县(市)滑坡危险性分区占比

    Figure  8.   Percentage of landslide hazard zonation areas in different counties and cities

    图  9   SHAP摘要图

    Figure  9.   SHAP summary chart

    图  10   SHAP双因子依赖图

    a. 高程SHAP值–高程;b. 坡度SHAP值–坡度;c.降雨量SHAP值–降雨量;d. PGA的SHAP值–PGA

    Figure  10.   SHAP two-factor dependency graph

    图  11   训练次数与F1Score、训练时长的关系

    Figure  11.   Relationship of the number of training sessions with F1Score and training duration

    表  1   影响因子数据来源

    Table  1   Sources of data on influence factors

    影响因子 数据来源
    土地利用类型 https://livingatlas.arcgis.com/landcover/
    PGA https://zenodo.org/
    高程、坡度、距河流距离 https://www.gscloud.cn/
    年均降雨量 https://climate.copernicus.eu/climate-reanalysis
    距断层距离、工程地质岩组 新疆维吾尔自治区自然资源档案馆(http://zrzyt.xinjiang.gov.cn
    下载: 导出CSV

    表  2   模型参数取值表

    Table  2   Model parameter values

    参数名优化器批处理大小学习率激活函数单次训练迭代次数
    取值Adam80.001隐藏层(ReLU),输出层(Sigmoid)50
    下载: 导出CSV

    表  3   模型性能对比

    Table  3   Comparison of model performance

    模型 A P R F1Score SAUC
    LR 0.852 0.858 0.869 0.863 0.809
    RF 0.874 0.877 0.877 0.877 0.847
    DNN 0.891 0.902 0.914 0.908 0.888
    BPNN(本文) 0.904 0.911 0.919 0.915 0.901
    下载: 导出CSV

    表  4   各分区危险性灾害分布表

    Table  4   Distribution of landslide hazard areas

    危险性分区分区滑坡数量分区滑坡数量占比分区面积占比
    极低危险区242.01%26.67%
    低危险区766.34%28.89%
    中危险区12510.43%16.95%
    高危险区46138.48%15.53%
    极高危险区51242.74%11.96%
    下载: 导出CSV
  • [1] 艾力哈木·艾克拉木,2022. 伊犁河流域平原区地下水水质特征及其形成机理研究[D]. 新疆:新疆农业大学.

    Ailhamu A,2022. Characteristics of groundwater quality and its formation mechanism in the plain area of Yili River Basin [D]. Xinjiang:Xinjiang Agricultural University (in Chinese with English abstract).

    [2] 陈绪钰,李明辉,王德伟,等,2019. 基于GIS和信息量法的四川峨眉山市地质灾害易发性定量评价[J]. 沉积与特提斯地质, 39(4):100 − 112.

    Chen X Y,Li M H,Wang D W,et al.,2019. Quantitative evaluation of geological hazard vulnerability in Emeishan City,Sichuan Province based on GIS and information method[J]. Sedimentary Geology and Tethyan Geology, 39(4):100 − 112 (in Chinese with English abstract).

    [3]

    Collini E,et al.,2022. Predicting and understanding landslide events with explainable AI[J]. IEEE Access,10:31175 − 31189. DOI: 10.1109/ACCESS.2022.3158328

    [4]

    Dai F C,Lee C F,2002. Landslide characteristics and slope instability modeling using GIS,Lantau Island,Hong Kong[J]. Geomorphology,42(3-4):213 − 228. DOI: 10.1016/S0169-555X(01)00087-3

    [5] 范贺娟,2023. 天山野果林区大小莫合流域山体滑坡灾害生态风险评价[D]. 新疆:新疆师范大学.

    Fan H J,2023. Ecological risk assessment of landslide disaster in the Big and small Mohe river area of wild fruit forest in Tianshan Mountains [D]. Xinjiang:Xinjiang Normal University (in Chinese with English abstract).

    [6] 傅贵,2021. 伊犁某典型黄土区滑坡易发性评价研究[D]. 安徽:安徽理工大学.

    Fu G,2021. Evaluation of landslide susceptibility in a typical loess area of Yili [D]. Anhui:Anhui University of Science and Technology (in Chinese with English abstract).

    [7] 弓小平,王正刚,马宏兵,等,2018. 新疆伊犁谷地地质灾害成因及评价研究[M]. 北京:地质出版社.

    Gong X P,Wang Z G,Ma H B,et al.,2018. Study on causes and evaluation of geological hazards in Yili Valley,Xinjiang [M]. Beijing:Geological Publishing House (in Chinese with English abstract).

    [8] 胡杨,张紫昭,林世河,2023. 基于证据权与逻辑回归耦合的新疆伊犁河谷地区滑坡易发性评价[J]. 工程地质学报,31(4):1350 − 1363.

    Hu Y,Zhang Z Z,Lin S H,2023. Evaluation of landslide susceptibility in the Yili Valley region of Xinjiang based on the coupling of right-of-evidence and logistic regression[J]. Journal of Engineering Geology,31(4):1350 − 1363 (in Chinese with English abstract).

    [9]

    Jibson R W,2011. Methods for assessing the stability of slopes during earthquakes—A retrospective[J]. Engineering Geology,122(1-2):43 − 50. DOI: 10.1016/j.enggeo.2010.09.017

    [10] 李浩,2024. 基于多模融合和数据异常检测的滑坡预测和预警[D]. 江苏:中国矿业大学.

    Li H,2024. Landslide prediction and early warning based on multimode fusion and data anomaly detection [D]. Jiangsu:China University of Mining and Technology (in Chinese with English abstract).

    [11] 李俊峰,张小琼,马滔,等,2023. 基于XGBoost和SHAP的可解释性滑坡位移预测模型[J/OL]. 工程地质学报:1 − 16.

    Li J F,Zhang S Q,Ma T,et al.,2023. Interpretable landslide displacement prediction model based on XGBoost and SHAP[J/OL]. Journal of Engineering Geology:1 − 16 (in Chinese with English abstract).

    [12] 李帅,陈建波,姚远,等,2021. 基于GIS的地震滑坡危险性分析研究——以伊犁地区为例[J]. 内陆地震, 35(1):38 − 47.

    Li S,Chen J B,Yao Y,et al.,2021. Research on GIS-based seismic landslide hazard analysis-Taking Yili area as an example[J]. Inland Earthquake, 35(1):38 − 47 (in Chinese with English abstract).

    [13] 李扬,2023. 基于随机森林模型解释的越野路面识别算法研究[D]. 吉林:吉林大学.

    Li Y,2023. Research on off-road pavement recognition algorithm based on random forest model interpretation[D]. Jilin:Jilin University (in Chinese with English abstract).

    [14]

    Lian L,Yu M Z,Xiu J L,2023. RMDGCN:Prediction of RNA methylation and disease associations based on graph convolutional network with attention mechanism[J]. Plos Computational Biology,19(12):e1011677 − e1011677. DOI: 10.1371/journal.pcbi.1011677

    [15] 梁世川,乔华,吕东,等,2023. 伊犁谷地地质灾害分布特征及主控因素分析[J]. 干旱区地理,46(6):880 − 888.

    Liang S C,Qiao H,Lu D,et al.,2023. Distribution characteristics of geologic hazards in the Yili Valley and analysis of the main controlling factors[J]. Arid Zone Geography,46(6):880 − 888 (in Chinese with English abstract).

    [16] 刘冰,2012. 公布遇难者名单是对生命的尊重[N]. 新疆:新疆日报(汉).

    Liu B,2012. Publishing the List of Victims is a Respect for Life[N]. Xinjiang:Xinjiang Daily(Chinese) (in Chinese with English abstract).

    [17] 刘任鸿,李明辉,邓英尔,等,2021. 基于GIS的华蓥市地质灾害易发性评价[J]. 沉积与特提斯地质, 41(1):129 − 136.

    Liu R H,Li M H,Deng Y R,et al.,2021. GIS-based assessment of geological hazard susceptibility in Huaying City[J]. Sedimentary Geology and Tethyan Geology, 41(1):129 − 136 (in Chinese with English abstract).

    [18]

    Lundberg S M,Erion G,Chen H,et al.,2020. From local explanations to global understanding with explainable AI for trees[J]. Nature Machine Intelligence,2(1):56 − 67. DOI: 10.1038/s42256-019-0138-9

    [19]

    Mitchell R,Frank E,Holmes G,2022. GPUTreeShap:Massively parallel exact calculation of SHAP scores for tree ensembles[J]. PeerJ Computer Science,8:e880.

    [20]

    Molnar C,2020. Interpretable machine learning [M]. Raleigh:Independently Published.

    [21]

    Ribeiro M,Singh S,Guestrin C,2016. Why should I trust you? Explaining the predictions of any classifier [C]. Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Demonstrations,97 − 101.

    [22] 孙星,2023. 断层影响下中深孔采场围岩不连续变形特征及稳定性评价[J]. 中国矿业,32(6):113 − 122. DOI: 10.12075/j.issn.1004-4051.20230278

    Sun X,2023. Characteristics of discontinuous deformation and stability evaluation of the peripheral rock of medium-deep hole quarry under the influence of fault[J]. China Mining Industry,32(6):113 − 122 (in Chinese with English abstract). DOI: 10.12075/j.issn.1004-4051.20230278

    [23]

    Tao K,Wang L,Qian X,2016. Multi-factor constrained analysis method for geological hazard risk[J]. International Journal of Engineering and Technology,8(3):198. DOI: 10.7763/IJET.2016.V8.884

    [24] 陶妍,角媛梅,丁银平,等,2023. 降雨诱发型滑坡的降雨阈值及机理研究进展与展望[J]. 云南师范大学学报:自然科学版,43(4):71 − 78.

    Tao Y,Jiao Y M,Ding Y P,et al.,2023. Progress and prospects of rainfall threshold and mechanism of rainfall-induced landslides[J]. Journal of Yunnan Normal University (Natural Science Edition),43(4):71 − 78 (in Chinese with English abstract).

    [25] 铁永波,葛华,高延超,等,2022. 二十世纪以来西南地区地质灾害研究历程与展望[J]. 沉积与特提斯地质,42(4):653 − 665.

    Tie Y B,Ge H,Gao Y C,et al.,2022. The research progress and prospect of geological hazards in Southwest China since the 20th Century[J]. Sedimentary Geology and Tethyan Geology,42(4):653 − 665 (in Chinese with English abstract).

    [26]

    Tien B D,Tuan T A,Klempe H,et al.,2016. Spatial prediction models for shallow landslide hazards:A comparative assessment of the efficacy of support vector machines,artificial neural networks,kernel logistic regression,and logistic model tree[J]. Landslides,13:361 − 378. DOI: 10.1007/s10346-015-0557-6

    [27] 王存智,张炜,李晨冬,等,2022. 基于GIS和层次分析法的沙溪流域滑坡地质灾害易发性评价[J]. 中国地质调查,9(5):51 − 60.

    Wang C Z,Zhang W,Li C D,et al.,2022. Evaluation of landslide geohazard susceptibility in Shaxi watershed based on GIS and hierarchical analysis[J]. Chinese Geological Survey,9(5):51 − 60 (in Chinese with English abstract).

    [28] 王家柱,高延超,铁永波,等,2023. 基于斜坡单元的山区城镇滑坡灾害易发性评价:以康定为例[J]. 沉积与特提斯地质,43(3):640 − 650.

    Wang J Z,Gao Y C,Tie Y B,et al.,2023. Landslide susceptibility assessment based on slope units of mountainous cities and towns:A case study of Kangding city[J]. Sedimentary Geology and Tethyan Geology,43(3):640 − 650 (in Chinese with English abstract).

    [29] 王鑫盈,马超,吕立群,等,2024. 黄土高原不同土地利用类型区浅层滑坡侵蚀特征分析——以蔡家川滑坡事件为例[J/OL]. 干旱区研究:1 − 10.

    Wang X Y,Ma C,Lü L Q,et al.,2024. Characterization of shallow landslide erosion in different land-use types of the Loess Plateau--A case study of the Caijiachuan landslide[J/OL]. Arid Zone Research:1 − 10 (in Chinese with English abstract).

    [30] 王颖慧,丁建丽,李晓航,等,2022. 伊犁河流域土地利用/覆被变化对生态系统服务价值的影响——基于强度分析模型[J]. 生态学报,42(8):3106 − 3118.

    Wang Y H,Ding J L,Li X H,et al.,2022. Impacts of land use/cover change on ecosystem service values in the Yili River Basin - based on an intensity analysis model[J]. Journal of Ecology,42(8):3106 − 3118 (in Chinese with English abstract).

    [31] 王娅美,张紫昭,张艳阳,等,2023. 基于多种组合模型的新疆巩留县滑坡危险性评价研究[J]. 工程地质学报,31(4):1375 − 1393.

    Wang Y M,Zhang Z Z,Zhang Y Y,et al.,2023. Study on landslide hazard evaluation in Gongliu County,Xinjiang based on multiple combination models[J]. Journal of Engineering Geology,31(4):1375 − 1393 (in Chinese with English abstract).

    [32] 肖婷,2021. 三峡库区万州区及重点库岸段滑坡灾害风险评价[D]. 武汉:中国地质大学(武汉).

    Xiao T,2021. Landslide Disaster Risk Assessment of Wanzhou District and Key Bank Sections in Three Gorges Reservoir Area[D]. Wuhan:China University of Geosciences(Wuhan) (in Chinese with English abstract).

    [33] 杨杏丽,2021. 分类学习算法的性能度量指标综述[J]. 计算机科学,48(8):209 − 219. DOI: 10.11896/jsjkx.200900216

    Yang X L,2021. A review of performance metrics for classification learning algorithms[J]. Computer Science,48(8):209 − 219 (in Chinese with English abstract). DOI: 10.11896/jsjkx.200900216

    [34] 曾韬睿,王林峰,张俞,等,2024. 基于CatBoost-SHAP模型的滑坡易发性建模及可解释性[J]. 中国地质灾害与防治学报,35(1):37 − 50.

    Zeng T R,Wang L F,Zhang Y,et al.,2024. Landslide susceptibility modeling and interpretability based on CatBoost-SHAP model[J]. China Journal of Geological Hazards and Prevention,35(1):37 − 50 (in Chinese with English abstract).

    [35] 张迎宾,徐佩依,林剑锋,等,2024. 基于BP神经网络的九寨沟地区地震滑坡危险性预测研究[J]. 工程地质学报,32(1):133 − 145.

    Zhang Y B,Xu P Y,Lin J F,et al.,2024. Seismic landslide hazard prediction in Jiuzhaigou area based on BP neural network[J]. Journal of Engineering Geology,32(1):133 − 145 (in Chinese with English abstract).

    [36] 周昌,黄顺,2023. 新疆伊犁黄土工程地质特征及致灾机理研究综述[J]. 工程地质学报,31(4):1247 − 1260.

    Zhou C,Huang S,2023. A review of engineering geological characteristics and disaster mechanism of loess in Yili,Xinjiang[J]. Journal of Engineering Geology,31(4):1247 − 1260 (in Chinese with English abstract).

    [37] 周超,甘露露,王悦,等,2023. 综合非滑坡样本选取指数与异质集成机器学习的区域滑坡易发性建模[J]. 地球信息科学学报, 25(8):1570 − 1585.

    Zhou C,Gan L L,Wang Y,et al.,2023. Regional landslide susceptibility modeling based on non-landslide sample selection index and heterogeneous integrated machine learning[J]. Journal of Geoinformation Science, 25(8):1570 − 1585 (in Chinese with English abstract).

    [38] 周新植,2023. 滑坡易发性机器学习优化模型及可解释性研究[D]. 重庆:重庆大学.

    Zhou X Z,2023. Landslide susceptibility machine learning optimization model and interpretability study[D]. Chongqing:Chongqing University (in Chinese with English abstract).

图(11)  /  表(4)
计量
  • 文章访问数:  57
  • HTML全文浏览量:  9
  • PDF下载量:  36
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-05-29
  • 修回日期:  2024-06-30
  • 录用日期:  2024-07-03
  • 刊出日期:  2024-09-29

目录

/

返回文章
返回