logo

NLP-文本聚类

王哲峰 / 2022-04-05


目录

无监督学习

无监督学习希望能够发现数据本身的规律和模式, 与监督学习相比, 无监督学习不需要对数据进行标记。这样可以解决大量人力、物力, 也可以让数据的获取变得非常容易。

某种程度上说, 机器学习的终极目标就是无监督学习。从功能上看, 无监督学习可以帮助我们发现数据的“簇”, 同时也可以帮助我们找寻“离群点(outlier)”。

此外, 对于特征维度特别高的数据样本, 我们同样可以通过无监督学习对数据进行降维, 保留数据的主要特征, 这样对高维空间的数据也可以进行处理。

常见的非监督学习任务:

文本聚类

聚类视图将数据集中的样本划分为若干个通常是不相交的子集, 每个子集称为一个“簇(cluser)”。 通过这样的划分, 每个簇可能对应于一些潜在的类别。这些概念对聚类算法而言事先是未知的, 聚类过程仅能自动形成簇结构, 簇所对应的含义需要由使用者来把握和命名。 聚类常用于寻找数据内在的分布结构, 也可作为分类等其他学习任务的前驱过程。