地质信息化
张星怡, 张雅欣, 陈璐, 徐世光, 王鑫瑞, 郑坤, 赵飞
近年来,地质领域积累了大量以栅格形式存储的地质图件,属于非结构化数据,难以实现大规模的高效 检索与有效利用。为此,本文从大数据与深度学习、自然语言处理相结合的角度,探讨基于文本要素的栅格地质 图文本提取与图文检索研究。首先,构建基于 HBase 与分布式文件系统(Hadoop distributed file system,HDFS) 的分布式存储体系;其次,基于 BERT-CRF 模型对地质报告中的关键信息进行自动抽取,增强其语义表达能力; 最后,通过 TF-IDF 等文本匹配算法,实现图文间的语义关联与高效检索,提出栅格地质图文本提取与图文检索 实现方法。结果表明:实际可用文本利用率,由光学字符阅读器的 51.7%提高到本文方法的 82.3%;相较于已有 TextRank 方法,单篇报告平均耗时从 14.2 s 降低到 2.7 s,效率提升了 426%;能够处理大规模地质数据,适应不 同规模的数据集,支持实时存储与检索。