9+

您当前的位置:首页 >> 新时代人民日报分词语料库下关键词抽取及分析研究

新时代人民日报分词语料库下关键词抽取及分析研究

查看全文 下载全文

摘要:

[目的/意义]面对海量的新闻文本,通过提取少量能表征其内容的关键词,来帮助用户快速掌握新闻内容,是关键词提取的首要任务。[方法/过程]本文以新时代人民日报分词语料库中部分语料作为研究对象,主要对比TF-IDF、TextRank、LDA、LSI、Rake、Yake六种无监督关键词抽取方法的抽取效果,并对抽取结果进行分析。[结果/结论]结果显示:在Pooling 评价方法下,TF-IDF 算法以及Yake 算法在大规模人民日报关键词提取任务中表现优,TextRank 算法性能尚可。另外,通过对政治、经济、社会类别下的关键词进行分析,可快速发现、梳理当月的重要事件。本文的研究可为新闻报刊语料的关键词提取分析提供参考。

作者: 周好 王东波 黄水清
作者单位: 南京农业大学信息管理学院,南京农业大学人文与社会计算研究中心
期刊: 文献与数据学报
年.(期):页码 2022.(1):21-34
中图分类号: G255
DOI: 10.31193/SSAPJ.ISSN.2096-6695.2022.01.02
关键词: 关键词抽取 新时代人民日报分词语料 无监督抽取方法

欢迎阅读《文献与数据学报》!您是该文第193位读者!