无监督学习主要用于发现模式和检测数据中的异常值

发布时间：2020-05-06 07:27:38 所属栏目：要闻来源：站长网

导读：副标题#e# 尽管有监督的机器学习和深度学习取得了成功，但有一种思想流派认为无监督学习具有更大的潜力。监督学习系统的学习受到培训的限制; 也就是说，有监督的学习系统只能学习它所训练的那些任务。相比之下，无监督系统理论上可以实现人工一般智能，这意

副标题[/!--empirenews.page--]

尽管有监督的机器学习和深度学习取得了成功，但有一种思想流派认为无监督学习具有更大的潜力。监督学习系统的学习受到培训的限制; 也就是说，有监督的学习系统只能学习它所训练的那些任务。相比之下，无监督系统理论上可以实现“人工一般智能”，这意味着能够学习人类可以学习的任何任务。但是，该技术还没有。

如果监督学习的最大问题是标记训练数据的费用，那么无监督学习(数据未标记)的最大问题是它通常不能很好地工作。然而，无监督学习确实有其用途：有时可以有利于减少数据集的维度，探索数据的模式和结构，查找类似对象的组，以及检测数据中的异常值和其他噪声。

一般而言，值得尝试无监督学习方法作为探索性数据分析的一部分，以发现模式和聚类，减少数据的维度，发现潜在的特征，以及删除异常值。您是否需要继续进行监督学习或使用预先训练的模型进行预测取决于您的目标和数据。

什么是无监督学习?

想想人类孩子的学习方式。作为家长或老师，您不需要向幼儿展示每一种狗和猫，他们都应该教他们识别狗和猫。他们可以从一些例子中学习，没有大量的解释，并自己概括。哦，他们第一次看到吉娃娃“Kitty”时可能会错误地叫它，但你可以相对快速地纠正它。

孩子们直观地将他们看到的一些东西归入课堂。无监督学习的一个目标实质上是允许计算机开发相同的能力。正如DeepMind的Alex Graves和Kelly Clancy在他们的博客文章“ 无监督学习：好奇的学生 ”中所说的那样。

无监督学习是一种范例，旨在通过奖励代理(即计算机程序)来创建自主智能，以便在不考虑特定任务的情况下了解他们观察到的数据。换句话说，代理人为了学习而学习。

为学习而学习的代理的潜力远远大于将复杂图片简化为二元决策(例如狗或猫)的系统。发现模式而不是执行预先定义的任务可以产生令人惊讶和有用的结果，正如劳伦斯伯克利实验室的研究人员在数百万种材料科学摘要上运行文本处理算法(Word2vec)以预测新热电材料的发现所证明的那样。

聚类方法

聚类问题是无监督学习问题，要求模型找到类似数据点的组。目前有许多聚类算法正在使用，它们往往具有略微不同的特征。通常，聚类算法查看数据点的特征向量之间的度量或距离函数，然后将彼此“接近”的那些进行分组。如果类不重叠，则聚类算法最有效。

分层聚类分析(HCA)可以是凝聚性的(您从单个点开始自下而上，以单个聚类开始构建聚类)或分裂(从单个聚类开始并将其分解，直到您结束单个点)。如果您很幸运，您可以找到反映有意义分类的聚类过程的中间阶段。

聚类过程通常显示为树形图(树形图)。HCA算法往往需要大量的计算时间[ O(n 3)]和内存[ O(n 2)]资源; 这些限制了算法对相对较小的数据集的适用性。

HCA算法可以使用各种度量和链接标准。欧几里德距离和平方欧几里德距离对于数值数据都是常见的; 汉明距离和Levenshtein距离对于非数字数据是常见的。单连杆和完全连杆是常见的; 这两者都可以简化聚类算法(分别是SLINK和CLINK)。SLINK是为数不多的保证找到最佳解决方案的聚类算法之一。

K均值聚类

k均值聚类问题试图使用欧几里德距离度量将n个观测值划分为k个聚类，目的是最小化每个聚类内的方差(平方和)。它是一种矢量量化方法，对特征学习很有用。

Lloyd的算法(具有质心更新的迭代聚类聚集)是用于解决问题的最常用的启发式算法，并且相对有效，但不保证全局收敛。为了改善这种情况，人们经常使用Forgy或Random Partition方法生成的随机初始聚类质心多次运行算法。

K-means假定球形簇是可分离的，以便平均值朝向簇中心收敛，并且还假设数据点的排序无关紧要。预计群集的大小相似，因此分配到最近的群集中心是正确的分配。

用于求解k均值聚类的启发式算法通常类似于高斯混合模型的期望最大化(EM)算法。

混合模型

混合模型假设观测的子群体对应于一些概率分布，通常是数值观测的高斯分布或非数字数据的分类分布。每个子群可以具有其自己的分布参数，例如高斯分布的均值和方差。

期望最大化(EM)是用于确定具有给定数量的组分的混合物的参数的最流行的技术之一。除了EM，混合模型可以用马尔可夫链蒙特卡罗，矩匹配，奇异值分解的谱方法(SVD)和图形方法来解决。

最初的混合模型应用是通过前额与体长比将两个岸蟹群分开。Karl Pearson在1894年使用矩匹配解决了这个问题。

混合模型的一个共同扩展是将定义混合组件标识的潜在变量连接到马尔可夫链，而不是假设它们是独立的相同分布的随机变量。生成的模型称为隐马尔可夫模型，是最常见的顺序层次模型之一。

DBSCAN算法

具有噪声的应用的基于密度的空间聚类(DBSCAN)是一种非参数数据聚类算法，其可以追溯到1996年。它被优化用于可以使用R *树或一些其他几何索引结构加速几何区域查询的数据库。。

本质上，DBSCAN聚集的核心点在Epsilon的某个距离内具有超过一些最小数量的邻居，丢弃作为Epsilon中没有邻居的异常点，并且在该核心点的Epsilon中添加点到该集群。DBSCAN是最常见的聚类算法之一，可以找到任意形状的聚类。

OPTICS算法

用于识别聚类结构的订购点(OPTICS)是用于在空间数据中查找基于密度的聚类的算法。OPTICS类似于DBSCAN，但处理不同点密度的情况。

DBSCAN和OPTICS中的想法的变化也可用于简单的异常值和噪声检测和去除。

潜变量模型

潜变量模型是将一组可观察变量与一组潜在(隐藏)变量相关联的统计模型。潜变量模型对于揭示复杂和高维数据中的隐藏结构非常有用。

主成分分析

主成分分析(PCA)是一种统计过程，它使用正交变换将可能相关的数值变量的一组观察值转换为称为主成分的线性不相关变量的一组值。Karl Pearson于1901年发明了PCA.PCA可以通过数据协方差(或相关)矩阵的特征值分解或数据矩阵的奇异值分解(SVD)来完成，通常在初始数据的归一化步骤之后。

奇异值分解

奇异值分解(SVD)是实矩阵或复矩阵的分解。这是线性代数中的常用技术，通常使用Householder转换计算。SVD是解决主要组件的一种方法。尽管从头开始编写SVD是完全可能的，但在所有线性代数库中都有很好的实现。

时刻的方法

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!