调整章节架构

2018-11-11 15:27:55 +08:00 · 2018-11-11 15:27:55 +08:00 · 7ba8f858a2
parent a3a07884f9
commit 7ba8f858a2
1 changed files with 91 additions and 61 deletions
--- a/ch02_机器学习基础/第二章_机器学习基础.md
+++ b/ch02_机器学习基础/第二章_机器学习基础.md
@ -1,4 +1,11 @@
+### 
+
+[TOC]
+
+
+
 # 第二章 机器学习基础
+
 ##  2.1 各种常见算法图示
 |回归算法|基于实例的算法|正则化方法|
 |:-:|:-:|:-:|
@ -77,7 +84,23 @@
 下面这张图就是一个神经网络系统，它由很多层组成。输入层负责接收信息，比如一只猫的图片。输出层是计算机对这个输入信息的判断结果，它是不是猫。隐藏层就是对输入信息的传递和加工处理。
 ![](./img/ch2/2.6/1.png)

-## 2.7 常用分类算法的优缺点？
+## 2.12 理解局部最优与全局最优
+
+笑谈局部最优和全局最优
+
+> 柏拉图有一天问老师苏格拉底什么是爱情？苏格拉底叫他到麦田走一次，摘一颗最大的麦穗回来，不许回头，只可摘一次。柏拉图空着手出来了，他的理由是，看见不错的，却不知道是不是最好的，一次次侥幸，走到尽头时，才发现还不如前面的，于是放弃。苏格拉底告诉他：“这就是爱情。”这故事让我们明白了一个道理，因为生命的一些不确定性，所以全局最优解是很难寻找到的，或者说根本就不存在，我们应该设置一些限定条件，然后在这个范围内寻找最优解，也就是局部最优解——有所斩获总比空手而归强，哪怕这种斩获只是一次有趣的经历。
+> 柏拉图有一天又问什么是婚姻？苏格拉底叫他到彬树林走一次,选一棵最好的树做圣诞树，也是不许回头，只许选一次。这次他一身疲惫地拖了一棵看起来直挺、翠绿，却有点稀疏的杉树回来，他的理由是，有了上回的教训，好不容易看见一棵看似不错的，又发现时间、体力已经快不够用了，也不管是不是最好的，就拿回来了。苏格拉底告诉他：“这就是婚姻。
+
+优化问题一般分为局部最优和全局最优。
+
+1. 局部最优，就是在函数值空间的一个有限区域内寻找最小值；而全局最优，是在函数值空间整个区域寻找最小值问题。
+2. 函数局部最小点是那种它的函数值小于或等于附近点的点。但是有可能大于较远距离的点。
+3. 全局最小点是那种它的函数值小于或等于所有的可行点。
+
+## 2.7 分类算法
+
+### 2.7 常用分类算法的优缺点？
+
 |算法|优点|缺点|
 |:-|:-|:-|
 |Bayes 贝叶斯分类法|1）所需估计的参数少，对于缺失数据不敏感。2）有着坚实的数学基础，以及稳定的分类效率。|1）假设属性之间相互独立，这往往并不成立。（喜欢吃番茄、鸡蛋，却不喜欢吃番茄炒蛋）。2）需要知道先验概率。3）分类决策存在错误率。|
@ -88,12 +111,12 @@
 |Neural Network 神经网络|1）分类准确率高。2）并行处理能力强。3）分布式存储和学习能力强。4）鲁棒性较强，不易受噪声影响。|1）需要大量参数（网络拓扑、阀值、阈值）。2）结果难以解释。3）训练时间过长。|
 |Adaboosting|1）adaboost是一种有很高精度的分类器。2）可以使用各种方法构建子分类器，Adaboost算法提供的是框架。3）当使用简单分类器时，计算出的结果是可以理解的。而且弱分类器构造极其简单。4）简单，不用做特征筛选。5）不用担心overfitting。|对outlier比较敏感|

-## 2.8 正确率能很好的评估分类算法吗？
+### 2.8 正确率能很好的评估分类算法吗？
 不同算法有不同特点，在不同数据集上有不同的表现效果，根据特定的任务选择不同的算法。如何评价分类算法的好坏，要做具体任务具体分析。对于决策树，主要用正确率去评估，但是其他算法，只用正确率能很好的评估吗？
 答案是否定的。
 正确率确实是一个很直观很好的评价指标，但是有时候正确率高并不能完全代表一个算法就好。比如对某个地区进行地震预测，地震分类属性分为0：不发生地震、1发生地震。我们都知道，不发生的概率是极大的，对于分类器而言，如果分类器不加思考，对每一个测试样例的类别都划分为0，达到99%的正确率，但是，问题来了，如果真的发生地震时，这个分类器毫无察觉，那带来的后果将是巨大的。很显然，99%正确率的分类器并不是我们想要的。出现这种现象的原因主要是数据分布不均衡，类别为1的数据太少，错分了类别1但达到了很高的正确率缺忽视了研究者本身最为关注的情况。

-## 2.9 分类算法的评估方法？
+### 2.9 分类算法的评估方法？
 1. **几个常用的术语**
 这里首先介绍几个*常见*的 模型评价术语，现在假设我们的分类目标只有两类，计为正例（positive）和负例（negative）分别是：
 1) True positives(TP):  被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数（样本数）；
@ -134,35 +157,14 @@
 References
 [1] 李航. 统计学习方法[M]. 北京:清华大学出版社,2012.

-## 2.10 什么样的分类器是最好的？
+### 2.10 什么样的分类器是最好的？
 对某一个任务，某个具体的分类器不可能同时满足或提高所有上面介绍的指标。
 如果一个分类器能正确分对所有的实例，那么各项指标都已经达到最优，但这样的分类器往往不存在。比如之前说的地震预测，既然不能百分百预测地震的发生，但实际情况中能容忍一定程度的误报。假设在1000次预测中，共有5次预测发生了地震，真实情况中有一次发生了地震，其他4次则为误报。正确率由原来的999/1000=99.9下降为996/10000=99.6。召回率由0/1=0%上升为1/1=100%。对此解释为，虽然预测失误了4次，但真的地震发生前，分类器能预测对，没有错过，这样的分类器实际意义更为重大，正是我们想要的。在这种情况下，在一定正确率前提下，要求分类器的召回率尽量高。

-## 2.11 大数据与深度学习的关系
-**大数据**通常被定义为“超出常用软件工具捕获，管理和处理能力”的数据集。 
-**机器学习**关心的问题是如何构建计算机程序使用经验自动改进。
-**数据挖掘**是从数据中提取模式的特定算法的应用。
-在数据挖掘中，重点在于算法的应用，而不是算法本身。
+## 2.13 逻辑回归

-**机器学习和数据挖掘**之间的关系如下：
-数据挖掘是一个过程，在此过程中机器学习算法被用作提取数据集中的潜在有价值模式的工具。
-大数据与深度学习关系总结如下：
-1. 深度学习是一种模拟大脑的行为。可以从所学习对象的机制以及行为等等很多相关联的方面进行学习，模仿类型行为以及思维。
-2. 深度学习对于大数据的发展有帮助。深度学习对于大数据技术开发的每一个阶段均有帮助，不管是数据的分析还是挖掘还是建模，只有深度学习，这些工作才会有可能一一得到实现。
-3. 深度学习转变了解决问题的思维。很多时候发现问题到解决问题，走一步看一步不是一个主要的解决问题的方式了，在深度学习的基础上，要求我们从开始到最后都要基于哦那个一个目标，为了需要优化的那个最终目的去进行处理数据以及将数据放入到数据应用平台上去。
-4. 大数据的深度学习需要一个框架。在大数据方面的深度学习都是从基础的角度出发的，深度学习需要一个框架或者一个系统总而言之，将你的大数据通过深度分析变为现实这就是深度学习和大数据的最直接关系。
+### 2.13 理解逻辑回归

-## 2.12 理解局部最优与全局最优
-笑谈局部最优和全局最优
-> 柏拉图有一天问老师苏格拉底什么是爱情？苏格拉底叫他到麦田走一次，摘一颗最大的麦穗回来，不许回头，只可摘一次。柏拉图空着手出来了，他的理由是，看见不错的，却不知道是不是最好的，一次次侥幸，走到尽头时，才发现还不如前面的，于是放弃。苏格拉底告诉他：“这就是爱情。”这故事让我们明白了一个道理，因为生命的一些不确定性，所以全局最优解是很难寻找到的，或者说根本就不存在，我们应该设置一些限定条件，然后在这个范围内寻找最优解，也就是局部最优解——有所斩获总比空手而归强，哪怕这种斩获只是一次有趣的经历。
-柏拉图有一天又问什么是婚姻？苏格拉底叫他到彬树林走一次,选一棵最好的树做圣诞树，也是不许回头，只许选一次。这次他一身疲惫地拖了一棵看起来直挺、翠绿，却有点稀疏的杉树回来，他的理由是，有了上回的教训，好不容易看见一棵看似不错的，又发现时间、体力已经快不够用了，也不管是不是最好的，就拿回来了。苏格拉底告诉他：“这就是婚姻。
-
-优化问题一般分为局部最优和全局最优。
-1. 局部最优，就是在函数值空间的一个有限区域内寻找最小值；而全局最优，是在函数值空间整个区域寻找最小值问题。
-2. 函数局部最小点是那种它的函数值小于或等于附近点的点。但是有可能大于较远距离的点。
-3. 全局最小点是那种它的函数值小于或等于所有的可行点。
-
-## 2.13 理解逻辑回归
 **回归划分**：
 广义线性模型家族里，依据因变量不同，可以有如下划分：
 1. 如果是连续的，就是多重线性回归；
@ -178,13 +180,13 @@ Logistic回归的因变量可以是二分类的，也可以是多分类的，但
 4. 仅能用于线性问题。只有当目标和特征是线性关系时，才能用逻辑回归。在应用逻辑回归时注意两点：一是当知道模型是非线性时，不适用逻辑回归；二是当使用逻辑回归时，应注意选择和目标为线性关系的特征。
 5. 各特征之间不需要满足条件独立假设，但各个特征的贡献独立计算。

-## 2.14 逻辑回归与朴素贝叶斯有什么区别？
+### 2.14 逻辑回归与朴素贝叶斯有什么区别？
 1. 逻辑回归时生成模型，朴素贝叶斯是判别模型，所以生成和判别的所有区别它们都有。
 2. 朴素贝叶斯属于贝叶斯，逻辑回归是最大似然，两种概率哲学间的区别。
 3. 朴素贝叶斯需要独立假设。
 4. 逻辑回归需要求特征参数间是线性的。

-## 2.15 线性回归与逻辑回归的区别？（贡献者：黄钦建－华南理工大学）
+### 2.15 线性回归与逻辑回归的区别？（贡献者：黄钦建－华南理工大学）

 线性回归的样本的输出，都是连续值，$ y\in (-\infty ,+\infty )$，而逻辑回归中$y\in (0,1)$，只能取0和1。

@ -219,15 +221,16 @@ $\theta ^{T}x=0$就相当于是1类和0类的决策边界：
 下面具体解释一下： 

 1. 拟合函数和预测函数什么关系呢？其实就是将拟合函数做了一个逻辑函数的转换，转换后使得$y^{(i)} \in (0,1)$;
-
 2. 最小二乘和最大似然估计可以相互替代吗？回答当然是不行了。我们来看看两者依仗的原理：最大似然估计是计算使得数据出现的可能性最大的参数，依仗的自然是Probability。而最小二乘是计算误差损失。

+## 2.16 代价函数
+
+### 2.16 为什么需要代价函数？

-## 2.16 为什么需要代价函数？
 1. 为了得到训练逻辑回归模型的参数，需要一个代价函数，通过训练代价函数来得到参数。
 2. 用于找到最优解的目的函数。

-## 2.17 代价函数作用原理 
+### 2.17 代价函数作用原理 
 在回归问题中，通过代价函数来求解最优解，常用的是平方误差代价函数。有如下假设函数：
 $$
 h(x) = A + Bx
@ -249,11 +252,11 @@ $$

 ![](./img/ch2/2.16/2.png)

-## 2.18 为什么代价函数要非负？
+### 2.18 为什么代价函数要非负？
 目标函数存在一个下界，在优化过程当中，如果优化算法能够使目标函数不断减小，根据单调有界准则，这个优化算法就能证明是收敛有效的。
 只要设计的目标函数有下界，基本上都可以，代价函数非负更为方便。

-## 2.19 常见代价函数？
+### 2.19 常见代价函数？
 1. **二次代价函数(quadratic cost)**：
 $$
 J = \frac{1}{2n}\sum_x\Vert y(x)-a^L(x)\Vert^2
@ -298,7 +301,7 @@ $$
 	与sigmoid搭配使用的交叉熵函数：`tf.nn.sigmoid_cross_entropy_with_logits()`。
 	与softmax搭配使用的交叉熵函数：`tf.nn.softmax_cross_entropy_with_logits()`。

-## 2.20 为什么用交叉熵代替二次代价函数
+### 2.20 为什么用交叉熵代替二次代价函数
 1. **为什么不用二次方代价函数**
 由2.18节可知，权值$w$和偏置$b$的偏导数为$\frac{\delta J}{\delta w}=(a-y)\delta'(z)x$，$\frac{\delta J}{\delta b}=(a-y)\delta'(z)$， 偏导数受激活函数的导数影响，sigmoid函数导数在输出接近0和1时非常小，会导致一些实例在刚开始训练时学习得非常慢。

@ -310,11 +313,14 @@ $$
 $$
 由以上公式可知，权重学习的速度受到$\delta{(z)}-y$影响，更大的误差，就有更快的学习速度，避免了二次代价函数方程中因$\delta'{(z)}$导致的学习缓慢的情况。

-## 2.21 什么是损失函数？
+## 2.21 损失函数
+
+### 2.21 什么是损失函数？
+
 损失函数（Loss function）又叫做误差函数，用来衡量算法的运行情况，估量模型的预测值 与真实值 的不一致程度，是一个非负实值函数,通常使用 来表示，损失函数越小，模型的鲁棒性就越好。
 损失函数是经验风险函数的核心部分，也是结构风险函数重要组成部分。

-## 2.22 常见的损失函数
+### 2.22 常见的损失函数
 机器学习通过对算法中的目标函数进行不断求解优化，得到最终想要的结果。分类和回归问题中，通常使用损失函数或代价函数作为目标函数。
 损失函数用来评价预测值和真实值不一样的程度。通常损失函数越好，模型的性能也越好。
 损失函数可分为经验风险损失函数和结构风险损失函数。经验风险损失函数指预测结果和实际结果的差别，结构风险损失函数是在经验风险损失函数上加上正则项。
@ -383,7 +389,7 @@ $$
 $$
 其中$l(wx_i+by_i)$是Hinge损失函数，$\Vert w^2\Vert$可看做为正则化项。

-## 2.23 逻辑回归为什么使用对数损失函数？
+### 2.23 逻辑回归为什么使用对数损失函数？
 假设逻辑回归模型
 TODO
 假设逻辑回归模型的概率分布是伯努利分布，其概率质量函数为
@ -398,7 +404,7 @@ TODO
 TODO
 由此可看出，对数损失函数与极大似然估计的对数似然函数本质上是相同的。所以逻辑回归直接采用对数损失函数。

-## 2.24 对数损失函数是如何度量损失的？
+### 2.24 对数损失函数是如何度量损失的？
 举例：
 高斯分布中，我们需要确定均值 和标注差 。
 如何确定这两个参数？最大似然估计是比较常用的方法。最大似然的目标是找到一些参数值，这些参数值对应的分布可以最大化观测到数据的概率。
@ -419,14 +425,17 @@ TODO
 TODO
 同理，可计算TODO。

-## 2.25 机器学习中为什么需要梯度下降？
+## 2.25 梯度下降
+
+### 2.25 机器学习中为什么需要梯度下降？
+
 1. 梯度下降是迭代法的一种,可以用于求解最小二乘问题。
 2. 在求解机器学习算法的模型参数，即无约束优化问题时，主要有梯度下降法（Gradient Descent）和最小二乘法。
 3. 在求解损失函数的最小值时，可以通过梯度下降法来一步步的迭代求解，得到最小化的损失函数和模型参数值。
 4. 如果我们需要求解损失函数的最大值，可通过梯度上升法来迭代。梯度下降法和梯度上升法可相互转换。
 5. 在机器学习中，梯度下降法主要有随机梯度下降法和批量梯度下降法。

-## 2.26 梯度下降法缺点？
+### 2.26 梯度下降法缺点？
 1. 靠近极小值时收敛速度减慢。
 2. 直线搜索时可能会产生一些问题。
 3. 可能会“之字形”地下降。
@ -436,7 +445,7 @@ TODO
 2. 梯度的方向是最大方向导数的方向； 
 3. 梯度的值是最大方向导数的值。

-## 2.27 梯度下降法直观理解？
+### 2.27 梯度下降法直观理解？
 梯度下降法经典图示:

 ![](./img/ch2/2.25/1.png)
@ -454,7 +463,7 @@ TODO
 d）判断是否需要终止，如否，返回a)；
 3. 得到全局最优解或者接近全局最优解。

-## 2.28 梯度下降法算法描述？
+### 2.28 梯度下降法算法描述？
 1. 确定优化模型的假设函数及损失函数。
 举例，对于线性回归，假设函数为：
 TODO
@ -474,7 +483,6 @@ TODO
 4) 更新所有的TODO，更新后的表达式为：TODO
 5) 更新完毕后转入1)。

-
 **举例**。以线性回归为例。
 假设样本是
 TODO
@ -486,7 +494,7 @@ TODO
 TODO
 由此，可看出，当前位置的梯度方向由所有样本决定，上式中TODO的目的是为了便于理解。

-## 2.29 如何对梯度下降法进行调优？
+### 2.29 如何对梯度下降法进行调优？
 实际使用梯度下降法时，各项参数指标不能一步就达到理想状态，对梯度下降法调优主要体现在以下几个方面：
 1. **算法迭代步长$\alpha$选择。**
 在算法参数初始化时，有时根据经验将步长 初始化为1。实际取值取决于数据样本。可以从大到小，多取一些值，分别运行算法看迭代效果，如果损失函数在变小，则取值有效。如果取值无效，说明要增大步长。但步长太大，有时会导致迭代速度过快，错过最优解。步长太小，迭代速度慢，算法运行时间长。
@ -495,7 +503,7 @@ TODO
 3. **标准化处理。**
 由于样本不同，特征取值范围也不同，导致迭代速度慢。为了减少特征取值的影响，可对特征数据标准化，使新期望为0，新方差为1，可节省算法运行时间。

-## 2.30 随机梯度和批量梯度区别？
+### 2.30 随机梯度和批量梯度区别？
 随机梯度下降和批量梯度下降是两种主要梯度下降法，其目的是增加某些限制来加速运算求解。
 引入随机梯度下降法与mini-batch梯度下降法是为了应对大数据量的计算而实现一种快速的求解。
 下面通过介绍两种梯度下降法的求解思路，对其进行比较。
@ -545,7 +553,7 @@ d) 收敛速度来说，随机梯度下降法一次迭代一个样本，导致
 对于总数为$m$个样本的数据，根据样本的数据，选取其中的$n(1< n< m)$个子样本来迭代。其参数$\theta$按梯度方向更新$\theta_i$公式如下：
 TODO

-## 2.31 各种梯度下降法性能比较
+### 2.31 各种梯度下降法性能比较
 下表简单对比随机梯度下降(SGD)、批量梯度下降（BGD）、小批量梯度下降（mini-batch GD）、和online GD的区别，主要区别在于如何选取训练数据：
 ||BGD|SGD|Mini-batch GD|Online GD|
 |:-:|:-:|:-:|:-:|:-:|:-:|
@ -576,7 +584,10 @@ TODO

 ![](./img/ch2/2.27/2.png)

-## 2.33 线性判别分析（LDA）思想总结
+## 2.33 线性判别分析（LDA）
+
+### 2.33 线性判别分析（LDA）思想总结
+
 线性判别分析（Linear Discriminant Analysis，LDA）是一种经典的降维方法。

 和PCA不考虑样本类别输出的无监督降维技术不同，LDA是一种监督学习的降维技术，数据集的每个样本有类别输出。
@ -587,7 +598,7 @@ LDA分类思想简单总结如下：
 3. 对数据进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定样本的类别。
 如果用一句话概括LDA思想，即“投影后类内方差最小，类间方差最大”。

-## 2.34 图解LDA核心思想
+### 2.34 图解LDA核心思想
 假设有红、蓝两类数据，这些数据特征均为二维，如下图所示。我们的目标是将这些数据投影到一维，让每一类相近的数据的投影点尽可能接近，不同类别数据尽可能远，即图中红色和蓝色数据中心之间的距离尽可能大。

 ![](./img/ch2/2.29/1.png)
@ -602,7 +613,7 @@ LDA分类思想简单总结如下：

 以上例子是基于数据是二维的，分类后的投影是一条直线。如果原始数据是多维的，则投影后的分类面是一低维的超平面。

-## 2.35 二类LDA算法原理？
+### 2.35 二类LDA算法原理？
 输入：数据集TODO，其中样本TODO是n维向量，TODO，TODO降维后的目标维度TODO。定义

 TODO为第TODO类样本个数；
@ -627,7 +638,7 @@ LDA的目标是让两类别的数据中心间的距离TODO尽量大，与此同

 根据广义瑞利商的性质，矩阵TODO的最大特征值为TODO的最大值，矩阵TODO的最大特征值对应的特征向量即为TODO。

-## 2.36 LDA算法流程总结？
+### 2.36 LDA算法流程总结？
 LDA算法降维流程如下：

 输入：数据集TODO，其中样本TODO是n维向量，TODO，降维后的目标维度TODO。
@ -643,7 +654,7 @@ LDA算法降维流程如下：
 6. 转化样本集的每个样本，得到新样本 。
 7. 输出新样本集 

-## 2.37 LDA和PCA区别？
+### 2.37 LDA和PCA区别？
 |异同点|LDA|PCA|
 |:-:|:-|:-|
 |相同点|1. 两者均可以对数据进行降维；2. 两者在降维时均使用了矩阵特征分解的思想；3. 两者都假设数据符合高斯分布；|
@ -653,13 +664,16 @@ LDA算法降维流程如下：
 ||选择分类性能最好的投影方向|选择样本点投影具有最大方差的方向|
 ||更明确，更能反映样本间差异|目的较为模糊|

-## 2.38 LDA优缺点？
+### 2.38 LDA优缺点？
 |优缺点|简要说明|
 |:-:|:-|
 |优点|1. 可以使用类别的先验知识；2. 以标签，类别衡量差异性的有监督降维方式，相对于PCA的模糊性，其目的更明确，更能反映样本间的差异；|
 |缺点|1. LDA不适合对非高斯分布样本进行降维；2. LDA降维最多降到k-1维；3. LDA在样本分类信息依赖方差而不是均值时，降维效果不好；4. LDA可能过度拟合数据。|

-## 2.39 主成分分析（PCA）思想总结
+## 2.39  主成分分析（PCA）
+
+### 2.39 主成分分析（PCA）思想总结
+
 1. PCA就是将高维的数据通过线性变换投影到低维空间上去。
 2. 投影思想：找出最能够代表原始数据的投影方法。被PCA降掉的那些维度只能是那些噪声或是冗余的数据。
 3. 去冗余：去除可以被其他向量代表的线性相关向量，这部分信息量是多余的。
@ -670,7 +684,7 @@ LDA算法降维流程如下：
 协方差矩阵度量的是维度与维度之间的关系，而非样本与样本之间。
 7. 之所以对角化，因为对角化之后非对角上的元素都是0，达到去噪声的目的。对角化后的协方差矩阵，对角线上较小的新方差对应的就是那些该去掉的维度。所以我们只取那些含有较大能量(特征值)的维度，其余的就舍掉，即去冗余。

-## 2.40 图解PCA核心思想
+### 2.40 图解PCA核心思想
 PCA可解决训练数据中存在数据特征过多或特征累赘的问题。核心思想是将m维特征映射到n维（n < m），这n维形成主元，是重构出来最能代表原始数据的正交特征。

 假设数据集是m个n维，$(x^{(1)}, x^{(2)}, \cdots, x^{(m)})$。如果n=2,需要降维到$n'=1$，现在想找到某一维度方向代表这两个维度的数据。下图有$u_1, u_2$两个向量方向，但是哪个向量才是我们所想要的，可以更好代表原始数据集的呢？
@ -685,7 +699,7 @@ PCA可解决训练数据中存在数据特征过多或特征累赘的问题。
 1. 样本点到这个超平面的距离足够近。
 2. 样本点在这个超平面上的投影能尽可能的分开。

-## 2.41 PCA算法推理
+### 2.41 PCA算法推理
 下面以基于最小投影距离为评价指标推理：

 假设数据集是m个n维，TODO，且数据进行了中心化。经过投影变换得到新坐标为TODO，其中TODO是标准正交基，即TODO，TODO。经过降维后，新坐标为TODO，其中TODO是降维后的目标维数。样本点TODO在新坐标系下的投影为TODO，其中TODO是TODO在低维坐标系里第j维的坐标。如果用TODO去恢复TODO，则得到的恢复数据为TODO，其中TODO为标准正交基组成的矩阵。
@ -706,7 +720,7 @@ TODO

 基于最大投影方差的推导，这里就不再赘述，有兴趣的同仁可自行查阅资料。

-## 2.42 PCA算法流程总结
+### 2.42 PCA算法流程总结
 输入：TODO维样本集TODO，目标降维的维数TODO。

 输出：降维后的新样本集TODO。
@ -721,13 +735,13 @@ TODO
 7. 得到输出矩阵TODO。
 *注*：在降维时，有时不明确目标维数，而是指定降维到的主成分比重阈值TODO。假设TODO个特征值为TODO，则TODO可从TODO得到。

-## 2.43 PCA算法主要优缺点
+### 2.43 PCA算法主要优缺点
 |优缺点|简要说明|
 |:-:|:-|
 |优点|1. 仅仅需要以方差衡量信息量，不受数据集以外的因素影响。　2.各主成分之间正交，可消除原始数据成分间的相互影响的因素。3. 计算方法简单，主要运算是特征值分解，易于实现。|
 |缺点|1.主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强。2. 方差小的非主成分也可能含有对样本差异的重要信息，因降维丢弃可能对后续数据处理有影响。|

-## 2.44 降维的必要性及目的
+### 2.44 降维的必要性及目的
 **降维的必要性**：
 1. 多重共线性--预测变量之间相互关联。多重共线性会导致解空间的不稳定，从而可能导致结果的不连贯。
 2. 高维空间本身具有稀疏性。一维正态分布有68%的值落于正负标准差之间，而在十维空间上只有0.02%。
@ -742,7 +756,7 @@ TODO
 5. 去除数据噪声。
 6. 降低算法运算开销。

-## 2.45 KPCA与PCA的区别？
+### 2.45 KPCA与PCA的区别？
 应用PCA算法的前提是假设存在一个线性的超平面，进而投影。那如果数据不是线性的呢？该怎么办？这时候就需要KPCA，数据集从TODO维映射到线性可分的高维TODO，然后再从TODO维降维到一个低维度TODO。

 KPCA用到了核函数思想，使用了核函数的主成分分析一般称为核主成分分析(Kernelized PCA, 简称KPCA）。
@ -779,7 +793,7 @@ TODO其映射为TODO
 |Absolute Error (MAE, RAE)|绝对误差|from sklearn.metrics import mean_absolute_error, median_absolute_error|
 |R-Squared|R平方值|from sklearn.metrics import r2_score|

-## 2.47 机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？（贡献者：黄钦建－华南理工大学）
+### 2.47.1 机器学习中的Bias(偏差)，Error(误差)，和Variance(方差)有什么区别和联系？（贡献者：黄钦建－华南理工大学）

 **对于Bias：**

@ -1736,6 +1750,22 @@ FCM算法是一种以隶属度来确定每个数据点属于某个聚类程度

 $avg=\frac{1}{k}\sum_{i=1}^{k}\frac{m_{i}}{n_{i}}$

+## 2.18 大数据与深度学习之间的关系
+
+大数据**通常被定义为“超出常用软件工具捕获，管理和处理能力”的数据集。 
+**机器学习**关心的问题是如何构建计算机程序使用经验自动改进。
+**数据挖掘**是从数据中提取模式的特定算法的应用。
+在数据挖掘中，重点在于算法的应用，而不是算法本身。
+
+**机器学习和数据挖掘**之间的关系如下：
+数据挖掘是一个过程，在此过程中机器学习算法被用作提取数据集中的潜在有价值模式的工具。
+大数据与深度学习关系总结如下：
+
+1. 深度学习是一种模拟大脑的行为。可以从所学习对象的机制以及行为等等很多相关联的方面进行学习，模仿类型行为以及思维。
+2. 深度学习对于大数据的发展有帮助。深度学习对于大数据技术开发的每一个阶段均有帮助，不管是数据的分析还是挖掘还是建模，只有深度学习，这些工作才会有可能一一得到实现。
+3. 深度学习转变了解决问题的思维。很多时候发现问题到解决问题，走一步看一步不是一个主要的解决问题的方式了，在深度学习的基础上，要求我们从开始到最后都要基于哦那个一个目标，为了需要优化的那个最终目的去进行处理数据以及将数据放入到数据应用平台上去。
+4. 大数据的深度学习需要一个框架。在大数据方面的深度学习都是从基础的角度出发的，深度学习需要一个框架或者一个系统总而言之，将你的大数据通过深度分析变为现实这就是深度学习和大数据的最直接关系。
+