毕业论文代写,职称论文发表
当前位置: > 免费论文 > 计算机论文 > 计算机应用论文 > >>查看论文

主题模型的发展及应用研究

logo设计

分享到: 本站编辑:gengxin 日期: 2018-08-23 14:22 点击:

   摘要:主题模型是自然语言处理中的重要模型之一。随着科技的发展,主题模型也在不断完善。文章简要介绍了主题模型发展经历的几个阶段,其主要介绍了LDA模型。文章对主题模型确定主题数的方法进行了总结,并通过一个具体实例,来进一步了解LDA模型以及在应用中遇到的问题。这有助于更加深刻理解主题模型,特别是LDA模型。 
  关键词:主题模型发展;LDA 主题模型;主题数 
  中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)15-0016-03 
  1 概述 
  主题模型是一种概率生成模型,主要包括概率潜在语义索引(pLSI)和潜在狄利克雷分(LDA)。主题模型的应用广泛,涉及很多方面,尤其是在自然语言处理中。 
  2 主题模型的发展 
  科技在飞速发展,数据量也越来越大。数据的形式不再仅限于数字形式,文字形式的数据同样是不可忽视的。文本数据隐藏着大量有价值的信息,需要我们去挖掘探索。想要快速了解大量的文本数据讲的是什么,主题模型随之产生。 
  2.1 向量空间模型 
  向量空间模型(VSM),它是将文本数据数字化,转化为文本空间中的数字向量。然后通过计算文本空间中向量之间的相似性来判断文档之间的相似性。 
  2.2 TF-IDF文本模型 
  TF-IDF文本模型是最早的文本模型之一。它是以信息论中TF-IDF公式为基础,模型的核心就是这个公式。公式包括词频和逆文档频率。词频是该词在文本中出現的次数除以文本中所有词的个数,而逆文档频率是总文本数与含该词的文本数的商的对数。最后两个值的乘积就是tf-idf值。所有词的tf-idf值组成一个矩阵。这个算法简单快速,结果也比较符合实际。但是算法仅以词频来判断词的重要性,是很片面的。 
  2.3 潜在语义索引 
  潜在语义索以(LSI)模型主要是对tf-idf矩阵进行奇异值分解[1],将文档向量与词向量映射到低维空间.LSI模型原理简单,通过一次奇异值分解就能获得主题,同时使词义问题得到解决。然而这个文本模型有缺点:奇异值分解十分耗时,尤其是对高维度矩阵。其次主题数的选择对实验的结果影响很大,并且缺乏统计基础,很难有一个直观的解释。 
  2.4 一元文本模型 
  一元文本模型是最简单的概率文本模型,文档中的每一个词都是从一个单独的多项分布中独立采样得到的。 
  2.5 混合一元文本模型 
  混合一元文本模型是在一元文本模型的基础上引入了一个离散分布的隐变量。文档的生成是先选择一个主题,再生成词。因此生成的每一篇文档都属于一个主题,而现实中的文档往往有多个主题。 
  2.6 概率潜在语义索引 
  由于混合一元模型每篇文档只能有一个主题,所以提出了概率潜在语义索引(pLSI)。它的结构中加入一层隐含主题层,为了跟各变量之间的语义关系产生一定关联同时降维。pLSI模型是以LSI模型为基础的概率生成模型。它的隐含主题是由词汇特征聚合而来的,从而降低了文档集的维度。由于LSI文本模型是以VSM模型为基础,所以它并不能很好的处理同义词或者一词多义的情况。然后pLSI模型恰恰可以解决这个问题,因为它的隐含主题是由单词按照一定概率生成的[2]。但是pLSI模型并不完美,随着文档和词的数量的增加,结构会变得越来越复杂,计算量也会增大。 
  2.7 LDA主题模型 
  LDA主题模型是一种能够从离散数据中提取其隐含语义主题的生成概率模型,它是包含文档、主题、词的三层贝叶斯结构。它是用概率分布来描述数据集,这个概率分布展现了数据集中频繁出现的内容,即主题。模型中文档生成过程:先从语料库中选一定数量的主题,然后为每个文档指定主题分布,文档主题间的分布是狄利克雷分布。也就是说每个文档可以有多个主题,只是每个主题在文档中出现的概率不一样。之后从主题分布中随机选择一个主题,根据该主题中词的分布,随机选取出一个词,词与主题之间的分布是多项分布。一直持续这个过程,直到文档生成。文本生成过程如图: 
  从上图中我们可以得出θ、w、z的联合分布的概率计算公式,图中M表示文档篇数,N表示一篇文档中词的个数,w表示单个单词。对公式进行调整,对θ积分,对z求和,就获得一个文档的生成概率。最后将所有文档的生成概率相乘,就获得所有文档的生成概率。到现在为止,我们已经对语料库建立了一个LDA主题模型。模型中有两个超参数α,β,还有两个隐变量θ,z。接下来就是除掉隐变量,求出超参数。公式中α,β是狄利克雷分布的超参数,θ表示一篇文档的主题分布,z是一篇文档的服从多项分布的某个主题。 
  LDA主题模型的参数求解方法,主要有期望最大化(EM)算法、马尔科夫链蒙特卡罗(MCMC)算法以及变分推理三种。EM算法是机器学习中的一种非监督聚类算法,当遇到参数特别多,一次性求解计算开销大的时候,EM算法有很大的优势。MCMC算法中的吉布斯采样使用较广泛。变分推理是一种贝叶斯近似推理方法,就是选择简单的概率函数来近似复杂函数,以此来简化计算。这种方法本身比较复杂,但是比其他两种方法速度要快。 
  2.8 主题模型的演变及应用领域 
  LDA主题模型基于袋装假设,没有考虑词与词和文档与文档之间的顺序,这就成为模型改进的线索。文献[5]中提到一篇文档中单词的主题与其周围的单词之间存在密切的关系,考虑到主题周围词的影响,提出了基于中心词的上下文主题模型。文献[6]提出细粒度的主题情感混合模型。将主题分为全局主题与局部主题,利用滑动窗口将词共现信息由文档集降到句子级,获得更加细粒度的主题。之后在LDA主题模型的结构中增加一层情感层,实现情感分析。 
  除了对主题模型进行改进外,主题模型也会结合一些算法。文献[7]中将主题模型与随机森林算法结合,主题模型对文本数据降维同时去除一定的文本噪声,加上随机森林算法特征选择方法,获得很好的分类效果。文献[8]中将主题模型与SVM算法结合,得到的分类精度较高。

  为了应对当今海量的数据,主题模型随之改变。文献[9]中改进了并行主题模型算法AD-LDA算法,提出了基于spark的并行化LDA主题模型,进一步提升算法处理海量数据的能力。文献[10]中提出了基于时间和用户两个维度的LDA主题模型算法,并且将算法应用于Hadoop分布式框架中,得到很好的结果。 
  主题模型在推荐系统方面有一定的应用,例如文献[11]中建立一个基于主题模型的法院文本典型案例的推荐模型,结合了文本相似度的计算方法,获得比较好的推荐结果。文献[12]中考虑到正样本与负样本,再结合LDA主题模型算法来对物品进行综合评分,从而实现对用户更好的推荐。 
  主题模型在文本聚类、信息检索、语音识别、预测系统、过滤系统和图像处理等领域都有一定的应用。文献[13]中提出了一种基于LDA主题模型算法的一种广告点击率预测算法。文献[14]中将普通微博与广告微博分开,对这两种类型的数据分别使用LDA主题模型的算法,获得两类微博的特征,然后使用分类器算法,对广告进行过滤。 
  LDA主题模型在图像处理方面的应用主要有两个方面:场景分类与目标识别。场景分类简单来说就是对人类视觉的模拟,使用计算机来识别图像中隐藏的语义信息。目标检测就是用计算机实现人的视觉功能[15]。 
  3 主题模型的应用 
  这里我们以一个具体的实例来进一步理解主题模型。通过实验,明确在建模前、建模时、建模后的一些问题,以及了解使用主题模型进行文本挖掘的难点。 
  3.1 文本预处理 
  首先设置工作路径,对文本数据进行批量读取。接下来要提取出文本数据,去掉文本数据中一些与研究无关的东西,例如空格,英文字母等。然后要对文本数据进行分词、去停止词等操作。 
  3.2 删除低频词 
  首先这里我们可能需要进行数据表重塑,统计分词的词频,删除词频为0的词。之后将词语放入语料库,并将其转换为文档词条矩阵。对这个文档词条矩阵使用tf-idf算法。为了保留尽量多的词,设置tf-idf值的中位数作为阈值,tf-idf值大于这个阈值的词就保留下来。 
  3.3 LDA主题模型主题数的确定