lec7 Principles ofData Science
# 聚类(Clustering) # 一、聚类的概念 聚类是一种 无监督学习方法 目标是:将相似的数据点分在同一个 “簇”(cluster)中 没有预先的标签,完全基于数据之间的 “相似性” 划分 # 二、聚类的用途 文档分组、客户画像、基因数据分析、股票走势分群等 聚类可以帮助我们发现数据中的 “自然结构” # 三、相似性度量方法 用于计算两个数据点之间的 “相似程度”(或 “距离”): 距离类型 定义 说明 曼哈顿距离(L1) ( d(i,j) = ∑\sum∑ x_i - x_j ) 抗异常值 欧几里得距离(L2) ( d(i,j)...
more...



