Merge pull request #367 from Daniel1586/master

修正1.4/1.6/1.9/1.13/1.18部分内容
2019-04-23 08:50:31 +08:00 · 2019-04-23 08:50:31 +08:00 · 64eca3c0fc
parent f4e41de632 21c402d7eb
commit 64eca3c0fc
1 changed files with 25 additions and 29 deletions
--- a/ch01_数学基础/第一章_数学基础.md
+++ b/ch01_数学基础/第一章_数学基础.md
@ -78,9 +78,8 @@ $$
 当向量取不同范数时, 相应得到了不同的矩阵范数。

 - **矩阵的1范数（列范数）**：矩阵的每一列上的元素绝对值先求和，再从中取个最大的,（列和最大），上述矩阵$A$的1范数先得到$[5,8,9]$，再取最大的最终结果就是：9。
-  
 $$
-\Vert A\Vert_1=\max_{1\le j\le}\sum_{i=1}^m|{a_{ij}}|
+\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
 $$

 - **矩阵的2范数**：矩阵$A^TA$的最大特征值开平方根，上述矩阵$A$的2范数得到的最终结果是：10.0623。 
@ -89,11 +88,10 @@ $$
 \Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}
 $$

-其中， $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
- **矩阵的无穷范数（行范数）**：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（行和最大），上述矩阵$A$的1范数先得到$[6；16]$，再取最大的最终结果就是：16。 
-  
+其中， $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
+- **矩阵的无穷范数（行范数）**：矩阵的每一行上的元素绝对值先求和，再从中取个最大的，（行和最大），上述矩阵$A$的行范数先得到$[6；16]$，再取最大的最终结果就是：16。 
 $$
-\Vert A\Vert_{\infty}=\max_{1\le i \le n}\sum_{j=1}^n |{a_{ij}}|
+\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|
 $$

 - **矩阵的核范数**：矩阵的奇异值（将矩阵svd分解）之和，这个范数可以用来低秩表示（因为最小化核范数，相当于最小化矩阵的秩——低秩），上述矩阵A最终结果就是：10.9287。  
@ -158,12 +156,12 @@ $$

 **偏导数**:

-既然谈到偏导数，那就至少涉及到两个自变量。以两个自变量为例，z=f（x,y），从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。 
-
+既然谈到偏导数，那就至少涉及到两个自变量。以两个自变量为例，$z=f(x,y)$，从导数到偏导数，也就是从曲线来到了曲面。曲线上的一点，其切线只有一条。但是曲面上的一点，切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。 
+

 *注意*：直观地说，偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。

-设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义，当$y=y_0$时，$z$可以看作关于$x$的一元函数$f(x,y_0)$，若该一元函数在$x=x_0$处可导，即有
+设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义，当$y=y_0$时，$z$可以看作关于$x$的一元函数$f(x,y_0)$，若该一元函数在$x=x_0$处可导，即有

 $$
 \lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A
@ -202,21 +200,20 @@ $$
 其中，$Q$是这个矩阵$A$的特征向量组成的矩阵，$\sum$是一个对角矩阵，每一个对角线元素就是一个特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变化方向（从主要的变化到次要的变化排列）。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。

 ## 1.9 奇异值与特征值有什么关系?  
-那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵$A$的转置乘以$A$，并对$AA^T$求特征值，则有下面的形式：
+那么奇异值和特征值是怎么对应起来的呢？我们将一个矩阵$A$的转置乘以$A$，并对$A^TA$求特征值，则有下面的形式：

 $$
 (A^TA)V = \lambda V
 $$

-这里$V$就是上面的右奇异向量，另外还有：
+这里$V$就是上面的右奇异向量，另外还有：

 $$
 \sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
 $$

-这里的$\sigma$就是奇异值，$u$就是上面说的左奇异向量。【证明那个哥们也没给】
-奇异值$\sigma$跟特征值类似，在矩阵$\sum$中也是从大到小排列，而且$\sigma$的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前$r$（$r$远小于$m、n$）个的奇异值来近似描述矩阵，即部分奇异值分解：
-
+这里的$\sigma$就是奇异值，$u$就是上面说的左奇异向量。【证明那个哥们也没给】
+奇异值$\sigma$跟特征值类似，在矩阵$\sum$中也是从大到小排列，而且$\sigma$的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说，我们也可以用前$r$（$r$远小于$m、n$）个的奇异值来近似描述矩阵，即部分奇异值分解：
 $$
 A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
 $$
@ -259,11 +256,11 @@ $$

 PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。

- 一般而言，$P(x)$ 表示时$X=x$的概率.
+- 一般而言，$P(x)$ 表示时$X=x$的概率.
 - 有时候为了防止混淆，要明确写出随机变量的名称$P($x$=x)$ 
- 有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从$P($x$)$ 
+- 有时候需要先定义一个随机变量，然后制定它遵循的概率分布x服从$P($x$)$ 

-PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和 同$Y=y$发生的概率，也可以简写成 $P(x,y)$.
+PMF 可以同时作用于多个随机变量，即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和$Y=y$同时发生的概率，也可以简写成 $P(x,y)$.

 如果一个函数$P$是随机变量 $X$ 的 PMF， 那么它必须满足如下三个条件

@ -300,7 +297,7 @@ E_x[x] &= \phi \\
 Var_x(x) &= \phi{(1-\phi)}
 \end{align*}
 $$
-**Multinoulli分布**也叫**范畴分布**, 是单个*k*k值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
+**Multinoulli分布**也叫**范畴分布**, 是单个*k*值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.

 **适用范围**: **伯努利分布**适合对**离散型**随机变量建模.

@ -335,9 +332,9 @@ $$
 2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.

 正态分布的推广: 
-正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$: 
+正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\Sigma$: 
 $$
-N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)
+N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)
 $$
 对多为正态分布概率密度高效求值: 
 $$
@ -347,11 +344,11 @@ $$

 ### 1.13.4 指数分布

-深度学习中, 指数分布用来描述在$x=0$点出取得边界点的分布, 指数分布定义如下:
+深度学习中, 指数分布用来描述在$x=0$点处取得边界点的分布, 指数分布定义如下:
 $$
-p(x;\lambda)=\lambda1_{x\geq 0}exp(-\lambda{x})
+p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})
 $$
-指数分布用指示函数$I_{x>=0}$来使$x$取负值时的概率为零。
+指数分布用指示函数$I_{x\geq 0}$来使$x$取负值时的概率为零。

 ### 1.13.5 Laplace 分布

@ -385,16 +382,16 @@ $$
 条件概率公式如下：

 $$
-P(A/B) = P(A\cap B) / P(B)
+P(A|B) = P(A\cap B) / P(B)
 $$

-说明：在同一个样本空间$\Omega$中的事件或者子集$A$与$B$，如果随机从$\Omega$中选出的一个元素属于$B$，那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。  
+说明：在同一个样本空间$\Omega$中的事件或者子集$A$与$B$，如果随机从$\Omega$中选出的一个元素属于$B$，那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。  
 ![条件概率](./img/ch1/conditional_probability.jpg)

 根据文氏图，可以很清楚地看到在事件B发生的情况下，事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。  
 举例：一对夫妻有两个小孩，已知其中一个是女孩，则另一个是女孩子的概率是多少？（面试、笔试都碰到过）  
 **穷举法**：已知其中一个是女孩，那么样本空间为男女，女女，女男，则另外一个仍然是女生的概率就是1/3。  
-**条件概率法**：$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则$P(女女)$为1/4，$P（女）= 1-P(男男)=3/4$,所以最后$1/3$。  
+**条件概率法**：$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩，那么它的样本空间为女女，男女，女男，男男，则$P(女女)$为1/4，$P（女）= 1-P(男男)=3/4$,所以最后$1/3$。  
 这里大家可能会误解，男女和女男是同一种情况，但实际上类似姐弟和兄妹是不同情况。 

 ## 1.15 联合概率与边缘概率联系区别？  
@ -407,8 +404,7 @@ $$

 ## 1.16 条件概率的链式法则  
 由条件概率的定义，可直接得出下面的乘法公式：  
-乘法公式 设$A, B$是两个事件，并且$P(A) > 0$, 则有 
-
+乘法公式 设$A, B$是两个事件，并且$P(A) > 0$, 则有 
 $$
 P(AB) = P(B|A)P(A)
 $$
@ -518,7 +514,7 @@ Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}
 $$

 > 相关系数的性质：  
-> 1）有界性。相关系数的取值范围是 ，可以看成无量纲的协方差。  
+> 1）有界性。相关系数的取值范围是 [-1,1]，可以看成无量纲的协方差。  
 > 2）值越接近1，说明两个变量正相关性（线性）越强。越接近-1，说明负相关性越强，当为0时，表示两个变量没有相关性。