摘要:近日,南京农业大学信息管理系喻雪寒团队在图书情报领域权威期刊《 大学图书馆学报 》(2025年第2期)发表题为《 融合旋转式位置编码与图递归检索方法的书院事件抽取研究 》的学术论文。该
近日,南京农业大学信息管理系喻雪寒团队在图书情报领域权威期刊《大学图书馆学报》(2025年第2期)发表题为《融合旋转式位置编码与图递归检索方法的书院事件抽取研究》的学术论文。该研究针对古籍文献中长文本处理难、事件论元嵌套复杂等问题,创新性地融合旋转式位置编码(RoFormerV2)与图递归检索(GPLinker)方法,对《中国书院辞典》进行深度挖掘,成功构建了一套高效的事件抽取模型,为传统文化知识的数字化整理提供了新的技术路径。

《中国书院辞典》作为记载唐代至清代1600余所书院的重要史料,蕴含了丰富的创办、修缮、讲学及管理制度等信息。然而,传统的基于BERT等绝对位置编码的预训练模型,受限于512个字符的输入上限,在处理动辄上千字的古籍词条时往往被迫截断,导致关键信息丢失。此外,古籍文本中普遍存在一词多义及事件论元嵌套现象,严重制约了信息抽取的准确率。
为解决上述痛点,研究团队提出了全新的技术解决方案。一方面,引入基于旋转式位置编码的RoFormerV2模型,通过旋转矩阵对向量进行空间变换,使模型能够在不显著增加计算成本的前提下,有效捕捉超长文本中的相对位置信息与语义关联,具备了优异的长文本外推能力。另一方面,设计了图递归检索模块GPLinker,利用GlobalPointer模型将事件类型、触发词与论元角色作为完全图的节点,通过递归搜索策略精准关联同一事件内的要素,巧妙化解了论元嵌套与误识别难题。
实验结果显示,该模型在《中国书院辞典》数据集上的F1值达到了89.43%,显著优于传统的BERT-CRF等基准模型。特别是在处理超过512字的长文本时,模型性能依然保持稳定提升,证明了其在古籍数字化处理中的实用价值。
基于这一高精度模型,研究团队进一步对抽取出的8740条事件数据进行可视化分析,揭示了明清书院发展的深层规律。研究发现,明清两代书院在空间分布上极不平衡,呈现出由江南、东南沿海向内陆及东北、西北递减的趋势;在建设力量上,虽然始终保持“官办为主、民办为辅”的格局,但清代相较于明代,地方官员(特别是知县)的参与度大幅提升,且出现了盐商、外籍传教士等新兴办学力量,催生了兼具中西特色的教会书院。
该研究成果不仅为古籍文献的智能挖掘提供了可复制的技术范式,也为历史文化研究者理解中国古代书院的时空演变与治理结构提供了坚实的数据支撑。
声明:
①文献来自知网、维普、万方等检索数据库,说明本文献已经发表见刊,恭喜作者.
②如果您是作者且不想本平台展示文献信息,可联系学术顾问予以删除.