文本聚类系列教程：（三）构建词袋空间VSM（Vector Space Model）

咱们今天先聊个概念吧，著名的聚类假设，这也是文本聚类的依据，内容如下：该假设认为，同类的文档相似度较大，而不同类的文档相似度较小。概念：对于上述概念，也就是做文本聚类的基础，如果不相关的文档反而相似度高，我们便无法做文本聚类。接下来再说VSM(Vector Space Model),对于VSM的定义，我在网上搜罗了些资料，如下所示： Vector space model

文本聚类

2018-03-19

文本聚类系列教程：（二）jieba中文分词工具进阶

jieba中文分词工具使用进阶篇，废话不多说吗，我们开始本次的学习吧~ 如何让分词的更加准确我们之前举得例子有些文本其实很简单，我们后来确实换了官方的测试文本《围城》，但是均没避免一个问题，这些测试例都十分地中规中矩。在实际中需要我们做分词的文本可能是多种多样的，这时候的切词有可能会不太特别理想，导致分词的不准确。那我们不妨下一个别的电子书（这里我下载的是《斗破苍穹》，为了测

文本聚类

2018-03-17

文本聚类系列教程：（一）jieba中文分词工具入门

最近在学习文本分类（聚类）的相关知识，所以接下来准备先写一个关于这个方面的系列博客。写在前面：先介绍下由我们四个人组成的组织：FOUR ELEMENTS。四元素分别对应WELL、EARTH、AIR、FLAME，根据首字母缩写，我们的博客主页得名WEAF。接下来介绍下我自己，我叫Leno，对应于四元素里面的Well，目前研究生在读，方向为智能信息处理。我的博客主要会以日常遇到

分类：: 文本聚类

文本聚类系列教程：（三）构建词袋空间VSM（Vector Space Model）

文本聚类系列教程：（二）jieba中文分词工具进阶

文本聚类系列教程：（一）jieba中文分词工具入门