白家疃国家野外站制作的地震学AI训练数据集由国家地震科学数据中心发布
更新时间:2022-01-14
来源:北京白家疃国家野外站
近日,国家地震科学数据中心发布了地震学AI训练数据集—“谛听”。该数据集由北京白家疃地球科学国家野外科学观测研究站赵明博士和团队加工制作,其中,包括来自787,010个近震事件的2,734,748条三分量波形,以及对应的P波和S波震相到时标签,此外还有641,025个P波初动极性标签,如下图所示。获取数据集详见http://doi.org/10.12080/nedc.11.ds.2022.0002
图1 谛听数据集使用的地震事件和台站分布
近年来,人工智能技术在地震信号识别上展现出巨大潜力,并掀起了新一轮的研究热潮。人工智能在地震学中的发展和应用需要大量的、高质量的标签数据,野外站研究团队利用中国地震台网2013~2020年间的震相观测报告和国家测震台网数据备份中心的事件波形,在经过数据清洗和脱敏处理之后,建立了“谛听”(DiTing)数据集。数据集中,地震事件的震级范围为0~7.7级,震中距范围为0~330 km,P波信噪比主要分布在 -0.05~5.31 dB内,S波信噪比主要分布在 -0.05 ~ 4.73 dB内。记录仪器类型主要包括宽频带和短周期两种。该数据集可以为开发机器学习模型,开展地震检测、震相拾取、初动极性判别、震级预测、地震预警和强地面运动预测等数据驱动型的地震学研究提供高质量的标准数据集,对进一步推动人工智能地震学的发展及其应用起到积极作用。
图2 震中距、震级、P波和S波信噪比分布图
图3 数据集的后方位角、初动极性和震级类型统计
(a) 台站反方位角分布(单位:度︒);(b)P波初动极性分布图,其中“U”为向上,“D”为向下,“I”、“E”、“-”代表初动标注特征,分别为清晰、一般、未评级;(c)震级类型
图4 标注波形示例