修正1.4、1.6和1.9的内容

This commit is contained in:
Daniel1586 2019-04-19 07:46:21 +08:00
parent f8776c4af0
commit 5a95660876
1 changed files with 17 additions and 20 deletions

View File

@ -7,7 +7,7 @@
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
**向量vector**
一个向量表示一组有序排列的数。通过次序中的索引我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称比如xx。向量中的元素可以通过带脚标的斜体表示。向量$X$的第一个元素是$X_1$,第二个元素是$X_2$,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
一个向量表示一组有序排列的数。通过次序中的索引我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称比如xx。向量中的元素可以通过带脚标的斜体表示。向量$X$的第一个元素是$X_1$,第二个元素是$X_2$,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
**矩阵matrix**
​矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如$A$。
@ -78,9 +78,8 @@ $$
当向量取不同范数时, 相应得到了不同的矩阵范数。
- **矩阵的1范数列范数**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$再取最大的最终结果就是9。
$$
\Vert A\Vert_1=\max_{1\le j\le}\sum_{i=1}^m|{a_{ij}}|
\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
$$
- **矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是10.0623。
@ -89,11 +88,10 @@ $$
\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}
$$
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[616]$再取最大的最终结果就是16。
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的行范数先得到$[616]$再取最大的最终结果就是16。
$$
\Vert A\Vert_{\infty}=\max_{1\le i \le n}\sum_{j=1}^n |{a_{ij}}|
\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|
$$
- **矩阵的核范数**矩阵的奇异值将矩阵svd分解之和这个范数可以用来低秩表示因为最小化核范数相当于最小化矩阵的秩——低秩上述矩阵A最终结果就是10.9287。
@ -158,12 +156,12 @@ $$
**偏导数**:
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,z=fx,y,从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,$z=f(x,y)$,从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
*注意*:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
$$
\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A
@ -202,21 +200,20 @@ $$
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。
## 1.9 奇异值与特征值有什么关系?
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$A^TA$求特征值,则有下面的形式:
$$
(A^TA)V = \lambda V
$$
这里$V$就是上面的右奇异向量,另外还有:
这里$V$就是上面的右奇异向量,另外还有:
$$
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
$$
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
​奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快在很多情况下前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$$r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
​奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快在很多情况下前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$$r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
$$
A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
$$
@ -259,11 +256,11 @@ $$
PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
- 一般而言,$P(x)$ 表示时$X=x$的概率.
- 一般而言,$P(x)$ 表示时$X=x$的概率.
- 有时候为了防止混淆,要明确写出随机变量的名称$P($x$=x)$
- 有时候需要先定义一个随机变量然后制定它遵循的概率分布x服从$P($x$)$
- 有时候需要先定义一个随机变量然后制定它遵循的概率分布x服从$P($x$)$
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和$Y=y$发生的概率,也可以简写成 $P(x,y)$.
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和$Y=y$同时发生的概率,也可以简写成 $P(x,y)$.
如果一个函数$P$是随机变量 $X$ 的 PMF 那么它必须满足如下三个条件
@ -300,7 +297,7 @@ E_x[x] &= \phi \\
Var_x(x) &= \phi{(1-\phi)}
\end{align*}
$$
**Multinoulli分布**也叫**范畴分布**, 是单个*k*k值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
**Multinoulli分布**也叫**范畴分布**, 是单个*k*值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
**适用范围**: **伯努利分布**适合对**离散型**随机变量建模.
@ -335,7 +332,7 @@ $$
2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
正态分布的推广:
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$:
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$:
$$
N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)
$$