新科学想法 文献管理 浏览文献

Latent dirichlet allocation note

kuangzi 添加于 2010-11-4 10:22 | 2333 次阅读 | 0 个评论
  •  作 者

    Zhou Li (smzlkimi@gmail.com)
  •  摘 要

    LDA(latent dirichlet allocation)是一种生成模型,算法实现从样本中挑选每个主题中若干最重要的词(实现只需指定主题个数和要抽取的每个主题下的词的个数,其它无需任何指定)。LDA是基于Bag of Word的假设,也就是说词之间的顺序,语法结构等都不起任何作用(这是制约准确率最主要的方面)。LDA是无监督的自动学习过程,是LSA,PLSA模型的升级版,很多paper的实验结果都表明LDA比上述两项效果好。LDA的应用范围很广,如文档核心词以及基于此的应用,NLP(如分类等)。但由于LDA是无监督的模型,其效果(准确率)比不上有监督的模型。在融合业务特征和LDA模型的处理上,现在思路基本都是把LDA学习出来的word和业务特征一起作为svm等分类器的feature进行处理,也有直接用LDA的topic进行直接分类的(如垃圾邮件的过滤等)。
  •  详细资料

  •  标 签

    LDA 
管理选项: 导出文献

评论(0 人)

facelist doodle 涂鸦板

Copyright;  © 新科学想法 2016-2017   浙公网安备 33010202000686号   ( 浙ICP备09035230号-1 )