民族研究
    主页 > 期刊导读 >

基于LDA模型和文本聚类的水族文献主题挖掘研究

0 引言

随着科学技术迅速发展,学术成果呈爆炸式增长,互联网上存在着数量庞大、实时更新的学术文献,它们能够通过学术文献数据库进行阅读及下载,如中国知网、万方、维普等。如何从这些文献数据中精准地挖掘出用户所需的信息,获取文献的主题,已经成为了当今研究的热点内容。目前国内外很少利用数据挖掘或机器学习算法深层次分析民族文献,也没有针对水族文献的主题挖掘研究。

本文针对文献数据存在噪声,传统的中文文本分析模型主题识别不精准,数据维度过高,缺乏深层次语义理解等问题,提出了基于LDA模型和K-means文本聚类的主题挖掘算法。该算法通过Selenium和XPath技术抓取中国知网1953-2018年间990篇水族文献信息,再提取文献标题、摘要、关键词,经过中文分词、数据清洗、特征提取等步骤,将文本数据集转换为向量矩阵,最后利用LDA主题模型和K-means文本聚类算法进行实验分析。实验结果表明,本文提出的算法有效地挖掘出水族文献的主题关键词及研究领域,使文本的主题脉络更加清晰。本文的研究成果具有重要的理论研究意义和实际应用价值,该模型可以广泛应用于文本挖掘、文献分析、民族研究等领域,为水族文化的研究和进一步发展提供相关启示,为后续的水族引文分析和水族文化传承提供有效支撑。

1 相关研究进展

1.1 水族文献

水族是一个具有悠久历史和古朴文化的民族,主要聚居在黔桂滇交界的龙江、都柳江上游地带,长期为世界各国学者所关注。水族地区被誉为“像凤凰羽毛一样美丽的地方”,他们崇拜自然,信仰万物有灵[1]。本文采集了中国知网1953年至2018年间的990篇水族文献,拟通过机器学习算法挖掘出水族文献的主题,数字化保护水族文献,以揭示中国水学的轨迹、内涵、特点、趋势及影响,助促国内外各界相关人士客观地认识中国在世界水学研究体系中的地位,同时提升文本主题挖掘的准确性。

1.2 主题挖掘

主题挖掘是数据挖掘尤其是文本挖掘和舆情分析领域的重要知识,其旨在通过主题模型挖掘与识别出不同来源文本的主题、关键词、情感分数、聚类类标等[2]。主题模型(Topic Model)通过计算概率来挖掘文本主题,常见的算法包括LSA和LDA,目前主要应用于引文文献挖掘、情感倾向分析、自然语言处理、社交网络短文本分析等领域。

随着机器学习和文本分析的飞速发展,国内外学者对主题挖掘做了大量的研究和实践。在算法创新上,Xu等[3]提出了一种将非结构化文本数据存储至向量空间模型中,再进行文本聚类的主题挖掘方法;Deerewster等[4]提出了基于线性代数的主题挖掘算法(Latent Semantic Analysis,LSA),通过数学手段在低维语义空间里对文本进行相关性分析;Blei等[5]研究出了LDA(Latent Dirichlet Allocation)主题模型,并被广泛应用于各个领域;王振振等[6]研究了LDA主题模型的文本相似度计算,利用Gibbs算法进行抽样,挖掘潜在的文本主题与词之间的关系;张晨逸等[7]提出了MB-LDA模型方法并挖掘微博主题与人物间的关系。在应用领域上,李霄野等[8]通过LDA模型研究文本聚类检索;王树义等[9]通过主题模型挖掘企业新闻文本及情感分析;Shi等[10]通过LDA主题建模分析了企业非结构化业务数据,量化企业在产品、市场和科技空间中的位置;王婷婷等[11]优化了LDA模型及其主题数量选择,并通过科技文献进行实验研究。

尽管主题挖掘在算法创新和应用领域都有一些研究,但是国内外很少有利用主题挖掘算法分析民族文献,并且传统的民族文献研究需要消耗大量的资金、人力和时间,无法获取深层次的主题信息,也不能进行精准的文本主题挖掘,处理海量文献效果不理想。本文针对上述问题,提出了基于LDA和文本聚类的水族文献主题挖掘算法。

1.3 LLDDAA模型

LDA是一种文档主题生成模型,由Blei等[5]在2003年首次提出,是一种三层贝叶斯结构,包括主题、文档和主题词三层结构,其中文档到主题、主题到词都服从多项分布。LDA模型将一篇文本的每个词都按照一定概率分布到某个主题上,并从这个主题中选择相关的词语集,如图1所示,将d篇文档映射到k个主题中,每个主题包括一定量的主题词。

LDA模型表示法称为“盘子表示法”,其模型生成过程如图2所示。数据集中每篇文档D都与T个主题的多项式分布相对应,记为多项分布θ;每个主题都与特征词表中n个单词的多项式分布对应,记为多项分布φ,并且θ和φ均存在一个带超参数的α和β的狄利克雷先验分布。图中单圆圈表示潜在变量,双圆圈表示可测变量,箭头表示两个变量之间的依赖关系,矩形框表示重复抽样,对应的重复次数在矩形框的右下角显示。