Merge pull request #367 from Daniel1586/master
修正1.4/1.6/1.9/1.13/1.18部分内容
This commit is contained in:
commit
64eca3c0fc
|
|
@ -78,9 +78,8 @@ $$
|
|||
当向量取不同范数时, 相应得到了不同的矩阵范数。
|
||||
|
||||
- **矩阵的1范数(列范数)**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$,再取最大的最终结果就是:9。
|
||||
|
||||
$$
|
||||
\Vert A\Vert_1=\max_{1\le j\le}\sum_{i=1}^m|{a_{ij}}|
|
||||
\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
|
||||
$$
|
||||
|
||||
- **矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是:10.0623。
|
||||
|
|
@ -89,11 +88,10 @@ $$
|
|||
\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}
|
||||
$$
|
||||
|
||||
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
|
||||
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
|
||||
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
|
||||
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的行范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
$$
|
||||
\Vert A\Vert_{\infty}=\max_{1\le i \le n}\sum_{j=1}^n |{a_{ij}}|
|
||||
\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|
|
||||
$$
|
||||
|
||||
- **矩阵的核范数**:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
|
||||
|
|
@ -158,12 +156,12 @@ $$
|
|||
|
||||
**偏导数**:
|
||||
|
||||
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
|
||||
|
||||
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,$z=f(x,y)$,从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
|
||||
|
||||
|
||||
*注意*:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
|
||||
|
||||
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
|
||||
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
|
||||
|
||||
$$
|
||||
\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A
|
||||
|
|
@ -202,21 +200,20 @@ $$
|
|||
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。
|
||||
|
||||
## 1.9 奇异值与特征值有什么关系?
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$A^TA$求特征值,则有下面的形式:
|
||||
|
||||
$$
|
||||
(A^TA)V = \lambda V
|
||||
$$
|
||||
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
|
||||
$$
|
||||
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
|
||||
$$
|
||||
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
$$
|
||||
A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
|
||||
$$
|
||||
|
|
@ -259,11 +256,11 @@ $$
|
|||
|
||||
PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
|
||||
|
||||
- 一般而言,$P(x)$ 表示时$X=x$的概率.
|
||||
- 一般而言,$P(x)$ 表示时$X=x$的概率.
|
||||
- 有时候为了防止混淆,要明确写出随机变量的名称$P($x$=x)$
|
||||
- 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从$P($x$)$
|
||||
- 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从$P($x$)$
|
||||
|
||||
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和 同$Y=y$发生的概率,也可以简写成 $P(x,y)$.
|
||||
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和$Y=y$同时发生的概率,也可以简写成 $P(x,y)$.
|
||||
|
||||
如果一个函数$P$是随机变量 $X$ 的 PMF, 那么它必须满足如下三个条件
|
||||
|
||||
|
|
@ -300,7 +297,7 @@ E_x[x] &= \phi \\
|
|||
Var_x(x) &= \phi{(1-\phi)}
|
||||
\end{align*}
|
||||
$$
|
||||
**Multinoulli分布**也叫**范畴分布**, 是单个*k*k值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
|
||||
**Multinoulli分布**也叫**范畴分布**, 是单个*k*值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
|
||||
|
||||
**适用范围**: **伯努利分布**适合对**离散型**随机变量建模.
|
||||
|
||||
|
|
@ -335,9 +332,9 @@ $$
|
|||
2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
|
||||
|
||||
正态分布的推广:
|
||||
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$:
|
||||
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\Sigma$:
|
||||
$$
|
||||
N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)
|
||||
N(x;\vec\mu,\Sigma)=\sqrt{\frac{1}{(2\pi)^ndet(\Sigma)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\Sigma^{-1}(\vec{x}-\vec{\mu})\right)
|
||||
$$
|
||||
对多为正态分布概率密度高效求值:
|
||||
$$
|
||||
|
|
@ -347,11 +344,11 @@ $$
|
|||
|
||||
### 1.13.4 指数分布
|
||||
|
||||
深度学习中, 指数分布用来描述在$x=0$点出取得边界点的分布, 指数分布定义如下:
|
||||
深度学习中, 指数分布用来描述在$x=0$点处取得边界点的分布, 指数分布定义如下:
|
||||
$$
|
||||
p(x;\lambda)=\lambda1_{x\geq 0}exp(-\lambda{x})
|
||||
p(x;\lambda)=\lambda I_{x\geq 0}exp(-\lambda{x})
|
||||
$$
|
||||
指数分布用指示函数$I_{x>=0}$来使$x$取负值时的概率为零。
|
||||
指数分布用指示函数$I_{x\geq 0}$来使$x$取负值时的概率为零。
|
||||
|
||||
### 1.13.5 Laplace 分布
|
||||
|
||||
|
|
@ -385,16 +382,16 @@ $$
|
|||
条件概率公式如下:
|
||||
|
||||
$$
|
||||
P(A/B) = P(A\cap B) / P(B)
|
||||
P(A|B) = P(A\cap B) / P(B)
|
||||
$$
|
||||
|
||||
说明:在同一个样本空间$\Omega$中的事件或者子集$A$与$B$,如果随机从$\Omega$中选出的一个元素属于$B$,那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。
|
||||
说明:在同一个样本空间$\Omega$中的事件或者子集$A$与$B$,如果随机从$\Omega$中选出的一个元素属于$B$,那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。
|
||||

|
||||
|
||||
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。
|
||||
举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
|
||||
**穷举法**:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3。
|
||||
**条件概率法**:$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则$P(女女)$为1/4,$P(女)= 1-P(男男)=3/4$,所以最后$1/3$。
|
||||
**条件概率法**:$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则$P(女女)$为1/4,$P(女)= 1-P(男男)=3/4$,所以最后$1/3$。
|
||||
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。
|
||||
|
||||
## 1.15 联合概率与边缘概率联系区别?
|
||||
|
|
@ -407,8 +404,7 @@ $$
|
|||
|
||||
## 1.16 条件概率的链式法则
|
||||
由条件概率的定义,可直接得出下面的乘法公式:
|
||||
乘法公式 设$A, B$是两个事件,并且$P(A) > 0$, 则有
|
||||
|
||||
乘法公式 设$A, B$是两个事件,并且$P(A) > 0$, 则有
|
||||
$$
|
||||
P(AB) = P(B|A)P(A)
|
||||
$$
|
||||
|
|
@ -518,7 +514,7 @@ Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}
|
|||
$$
|
||||
|
||||
> 相关系数的性质:
|
||||
> 1)有界性。相关系数的取值范围是 ,可以看成无量纲的协方差。
|
||||
> 1)有界性。相关系数的取值范围是 [-1,1],可以看成无量纲的协方差。
|
||||
> 2)值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。
|
||||
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue