主题模型理论(LDA):
一篇文章的每个词都是以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语而组成的。
P(单词|文档)=P(单词|主题)*P(主题|文档)
对于语料库中的每篇文档,LDA定义了如下生成过程(generative process):
1.对每篇文档,从主题分布中抽取一个主题;
2.从上述被抽到的主题所对应的单词分布中抽取一个单词;
3.重复上述过程直至文档中的每一个单词。

w代表单词,d代表文档,t代表主题;大写代表总集合,小写代表个体。
所以,LDA的核心公式如下:
P(w|d)=P(w|t)*P(t|d)
直观地看这个公式,就是以Topic作为中间层,可以通过计算当前文档d中出现单词w的概率P(w|d)。实际应用中,更多的是求P(t|d),我们可以为一个文档中的一个单词计算它对应任意一个topic时的p(w|d),然后根据这些结果来更新这个词应该对应的topic。如果这个更新改变了这个单词所对应的topic,就会反过来影响P(w|t)和P(t|d)。

我们通过观测,得到了“知道主题是什么,就用什么单词”的文本生成模型,那么根据贝叶斯定律,我们就可以反过来推出“看见用什么单词,我就知道主题是什么”。

PLSA根LDA的本质区别就在于它们去估计未知参数所采用的思想不同,前者用的是频率派思想,后者用的是贝叶斯派思想。