在自然语言处理(NLP)领域,很多人会问:如何从零开始,构建一个真正可用的 NLP 流水线? 常见的教程往往只聚焦于某一个环节,比如“训练一个 Word2Vec 模型”或者“跑一次 LDA 主题建模”。但在真实项目中,往往需要一个系统性的流程:从原始文本 → 预 ...
基于LDA主题模型和主题困惑度的文本主题提取系统 隐含狄利克雷分布(Latent Dirichlet Allocation,LDA),是一种主题模型(topic model),它可以将文档集中每篇文档的主题按照概率分布的形式给出。LDA主题模型可以看作是一个生成文档的机器,向机器内输入一个文档 ...
最近我们被客户要求撰写关于LDA模型的研究报告,包括一些图形和统计输出。 主题建模 在文本挖掘中,我们经常收集一些文档集合,例如博客文章或新闻文章,我们希望将其分成组,以便我们可以分别理解它们。主题建模是对这些文档进行无监督分类的一种 ...
在优秀的词嵌入方法出现之前,潜在语义分析模型(LSA)和文档主题生成模型(LDA)都是解决自然语言问题的好方法。LSA模型和LDA模型有相同矩阵形式的词袋表示输入。不过,LSA模型专注于降维,而LDA模型专注于解决主题建模问题。 由于有很多资料介绍这两个 ...
本文是一篇关于主题建模及其相关技术的综述。文中介绍了四种最流行的技术,用于探讨主题建模,它们分别是:LSA、pLSA、LDA,以及最新的、基于深度学习的 lda2vec。 在自然语言理解任务中,我们可以通过一系列的层次来提取含义——从单词、句子、段落,再到 ...