分类:: 文本聚类

文本聚类系列教程:(三)构建词袋空间VSM(Vector Space Model)

咱们今天先聊个概念吧,著名的聚类假设,这也是文本聚类的依据,内容如下:该假设认为,同类的文档相似度较大,而不同类的文档相似度较小。 概念: 对于上述概念,也就是做文本聚类的基础,如果不相关的文档反而相似度高,我们便无法做文本聚类。 接下来再说VSM(Vector Space Model),对于VSM的定义,我在网上搜罗了些资料,如下所示: Vector space model

文本聚类系列教程:(二)jieba中文分词工具进阶

jieba中文分词工具使用进阶篇,废话不多说吗,我们开始本次的学习吧~ 如何让分词的更加准确 我们之前举得例子有些文本其实很简单,我们后来确实换了官方的测试文本《围城》,但是均没避免一个问题,这些测试例都十分地中规中矩。在实际中需要我们做分词的文本可能是多种多样的,这时候的切词有可能会不太特别理想,导致分词的不准确。 那我们不妨下一个别的电子书(这里我下载的是《斗破苍穹》,为了测

文本聚类系列教程:(一)jieba中文分词工具入门

最近在学习文本分类(聚类)的相关知识,所以接下来准备先写一个关于这个方面的系列博客。 写在前面: 先介绍下由我们四个人组成的组织:FOUR ELEMENTS。四元素分别对应WELL、EARTH、AIR、FLAME,根据首字母缩写,我们的博客主页得名WEAF。 接下来介绍下我自己,我叫Leno,对应于四元素里面的Well,目前研究生在读,方向为智能信息处理。我的博客主要会以日常遇到