修正1.4、1.6和1.9的内容
This commit is contained in:
parent
f8776c4af0
commit
5a95660876
|
|
@ -7,7 +7,7 @@
|
|||
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
|
||||
|
||||
**向量(vector)**
|
||||
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量$X$的第一个元素是$X_1$,第二个元素是$X_2$,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
|
||||
一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量$X$的第一个元素是$X_1$,第二个元素是$X_2$,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
|
||||
|
||||
**矩阵(matrix)**
|
||||
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如$A$。
|
||||
|
|
@ -78,9 +78,8 @@ $$
|
|||
当向量取不同范数时, 相应得到了不同的矩阵范数。
|
||||
|
||||
- **矩阵的1范数(列范数)**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$,再取最大的最终结果就是:9。
|
||||
|
||||
$$
|
||||
\Vert A\Vert_1=\max_{1\le j\le}\sum_{i=1}^m|{a_{ij}}|
|
||||
\Vert A\Vert_1=\max_{1\le j\le n}\sum_{i=1}^m|{a_{ij}}|
|
||||
$$
|
||||
|
||||
- **矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是:10.0623。
|
||||
|
|
@ -89,11 +88,10 @@ $$
|
|||
\Vert A\Vert_2=\sqrt{\lambda_{max}(A^T A)}
|
||||
$$
|
||||
|
||||
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
|
||||
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
|
||||
其中, $\lambda_{max}(A^T A)$ 为 $A^T A$ 的特征值绝对值的最大值。
|
||||
- **矩阵的无穷范数(行范数)**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的行范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
$$
|
||||
\Vert A\Vert_{\infty}=\max_{1\le i \le n}\sum_{j=1}^n |{a_{ij}}|
|
||||
\Vert A\Vert_{\infty}=\max_{1\le i \le m}\sum_{j=1}^n |{a_{ij}}|
|
||||
$$
|
||||
|
||||
- **矩阵的核范数**:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
|
||||
|
|
@ -158,12 +156,12 @@ $$
|
|||
|
||||
**偏导数**:
|
||||
|
||||
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,z=f(x,y),从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
|
||||
|
||||
既然谈到偏导数,那就至少涉及到两个自变量。以两个自变量为例,$z=f(x,y)$,从导数到偏导数,也就是从曲线来到了曲面。曲线上的一点,其切线只有一条。但是曲面上的一点,切线有无数条。而偏导数就是指多元函数沿着坐标轴的变化率。
|
||||
|
||||
|
||||
*注意*:直观地说,偏导数也就是函数在某一点上沿坐标轴正方向的的变化率。
|
||||
|
||||
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
|
||||
设函数$z=f(x,y)$在点$(x_0,y_0)$的领域内有定义,当$y=y_0$时,$z$可以看作关于$x$的一元函数$f(x,y_0)$,若该一元函数在$x=x_0$处可导,即有
|
||||
|
||||
$$
|
||||
\lim_{\Delta x \to 0}{\frac{f(x_0+\Delta x,y_0)-f(x_0,y_0)}{\Delta x}}=A
|
||||
|
|
@ -202,21 +200,20 @@ $$
|
|||
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。
|
||||
|
||||
## 1.9 奇异值与特征值有什么关系?
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$A^TA$求特征值,则有下面的形式:
|
||||
|
||||
$$
|
||||
(A^TA)V = \lambda V
|
||||
$$
|
||||
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
|
||||
$$
|
||||
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
|
||||
$$
|
||||
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
$$
|
||||
A_{m\times n}\approx U_{m \times r}\sum_{r\times r}V_{r \times n}^T
|
||||
$$
|
||||
|
|
@ -259,11 +256,11 @@ $$
|
|||
|
||||
PMF 将随机变量能够取得的每个状态映射到随机变量取得该状态的概率。
|
||||
|
||||
- 一般而言,$P(x)$ 表示时$X=x$的概率.
|
||||
- 一般而言,$P(x)$ 表示时$X=x$的概率.
|
||||
- 有时候为了防止混淆,要明确写出随机变量的名称$P($x$=x)$
|
||||
- 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从$P($x$)$
|
||||
- 有时候需要先定义一个随机变量,然后制定它遵循的概率分布x服从$P($x$)$
|
||||
|
||||
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和 同$Y=y$发生的概率,也可以简写成 $P(x,y)$.
|
||||
PMF 可以同时作用于多个随机变量,即联合概率分布(joint probability distribution) $P(X=x,Y=y)$*表示 $X=x$和$Y=y$同时发生的概率,也可以简写成 $P(x,y)$.
|
||||
|
||||
如果一个函数$P$是随机变量 $X$ 的 PMF, 那么它必须满足如下三个条件
|
||||
|
||||
|
|
@ -300,7 +297,7 @@ E_x[x] &= \phi \\
|
|||
Var_x(x) &= \phi{(1-\phi)}
|
||||
\end{align*}
|
||||
$$
|
||||
**Multinoulli分布**也叫**范畴分布**, 是单个*k*k值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
|
||||
**Multinoulli分布**也叫**范畴分布**, 是单个*k*值随机分布,经常用来表示**对象分类的分布**. 其中$k$是有限值.Multinoulli分布由向量$\vec{p}\in[0,1]^{k-1}$参数化,每个分量$p_i$表示第$i$个状态的概率, 且$p_k=1-1^Tp$.
|
||||
|
||||
**适用范围**: **伯努利分布**适合对**离散型**随机变量建模.
|
||||
|
||||
|
|
@ -335,7 +332,7 @@ $$
|
|||
2. 正态分布是具有相同方差的所有概率分布中, 不确定性最大的分布, 换句话说, 正态分布是对模型加入先验知识最少的分布.
|
||||
|
||||
正态分布的推广:
|
||||
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$:
|
||||
正态分布可以推广到$R^n$空间, 此时称为**多位正态分布**, 其参数是一个正定对称矩阵$\sum$:
|
||||
$$
|
||||
N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)
|
||||
$$
|
||||
|
|
|
|||
Loading…
Reference in New Issue