文章

高维数据可视化方法——T-SNE

用途

用途

用于高维数据的降维,可视化展示,相比较pca的线性降维,再可视化显示方面显示更加友好。相似的样本由附近的点建模,不相似的样本由高概率的远点建模。

创新点

引入概率,相近的点更有概率出现一块:t-SNE最小化了两个分布之间关于嵌入点位置的Kullback-Leibler(KL)散度。 让认识数据更清洗 如下对比pca降维和tsne的降维结果

image

pca降维效果

image

tsne降维效果

具体算法实现细节

两个步骤 1:构建高维空间中点的概率分布P

  • 怎么构建? 使得距离相近的点具有高的概率

2:在低维度空间重构这种概率分布

假设概率分布服从高斯分布:https://zhuanlan.zhihu.com/p/148170862 https://zhuanlan.zhihu.com/p/57937096