更改目录结构,在相应章节目录新增readme.md和modify.txt
|
|
@ -56,7 +56,7 @@ scutjy2015@163.com (唯一官方邮箱);现出现不法分子冒充发起人
|
|||
进群请加微信 委托人1:HQJ199508212176 委托人2:Xuwumin1203 委托人3:tianyuzy
|
||||
|
||||
微信交流群:《深度学习500问》交流群
|
||||

|
||||

|
||||
2018.10.23 Tan
|
||||
|
||||
##############################################################
|
||||
|
|
|
|||
|
Before Width: | Height: | Size: 144 KiB After Width: | Height: | Size: 144 KiB |
|
Before Width: | Height: | Size: 16 KiB After Width: | Height: | Size: 16 KiB |
|
Before Width: | Height: | Size: 220 KiB After Width: | Height: | Size: 220 KiB |
|
Before Width: | Height: | Size: 188 KiB After Width: | Height: | Size: 188 KiB |
|
Before Width: | Height: | Size: 87 KiB After Width: | Height: | Size: 87 KiB |
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
Before Width: | Height: | Size: 157 KiB After Width: | Height: | Size: 157 KiB |
|
Before Width: | Height: | Size: 119 KiB After Width: | Height: | Size: 119 KiB |
|
Before Width: | Height: | Size: 171 KiB After Width: | Height: | Size: 171 KiB |
|
Before Width: | Height: | Size: 66 KiB After Width: | Height: | Size: 66 KiB |
|
Before Width: | Height: | Size: 182 KiB After Width: | Height: | Size: 182 KiB |
|
Before Width: | Height: | Size: 102 KiB After Width: | Height: | Size: 102 KiB |
|
Before Width: | Height: | Size: 114 KiB After Width: | Height: | Size: 114 KiB |
|
Before Width: | Height: | Size: 119 KiB After Width: | Height: | Size: 119 KiB |
|
Before Width: | Height: | Size: 37 KiB After Width: | Height: | Size: 37 KiB |
|
Before Width: | Height: | Size: 125 KiB After Width: | Height: | Size: 125 KiB |
|
Before Width: | Height: | Size: 149 KiB After Width: | Height: | Size: 149 KiB |
|
Before Width: | Height: | Size: 63 KiB After Width: | Height: | Size: 63 KiB |
|
Before Width: | Height: | Size: 62 KiB After Width: | Height: | Size: 62 KiB |
|
Before Width: | Height: | Size: 59 KiB After Width: | Height: | Size: 59 KiB |
|
Before Width: | Height: | Size: 107 KiB After Width: | Height: | Size: 107 KiB |
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -1,33 +1,33 @@
|
|||
# 第十四章 超参数调整
|
||||
|
||||
> Markdown Revision 1;
|
||||
> Date: 2018/10/25
|
||||
> Editor: 乔成磊-同济大学
|
||||
> Contact: qchl0318@163.com
|
||||
> Updater: [sjsdfg](https://github.com/sjsdfg)
|
||||
|
||||
## 14.1 调试处理
|
||||
关于训练深度最难的事情之一是你要处理的参数的数量,从学习速率到 Momentum(动量梯度下降法)的参数。如果使用 Momentum 或 Adam 优化算法的参数,也许你还得选择层数,也许你还得选择不同层中隐藏单元的数量,也许你还想使用学习率衰减。所以,你使用的不是单一的学习率。接着,当然你可能还需要选择 mini-batch 的大小。
|
||||
|
||||
结果证实一些超参数比其它的更为重要,我认为,最为广泛的学习应用是,学习速率是需要调试的最重要的超参数。
|
||||
|
||||
除了,还有一些参数需要调试,例如 Momentum 参数,0.9 就是个很好的默认值。我还会调试 mini-batch 的大小,以确保最优算法运行有效。我还会经常调试隐藏单元,我用橙色圈住的这些,这三个是我觉得其次比较重要的,相对于而言。重要性排第三位的是其他因素,层数有时会产生很大的影响,学习率衰减也是如此。当应用 Adam 算法时,事实上,我从不调试,和,我总是选定其分别为 0.9,0.999 和,如果你想的话也可以调试它们。
|
||||
|
||||
但希望你粗略了解到哪些超参数较为重要,无疑是最重要的,接下来是我用橙色圈住的那些,然后是我用紫色圈住的那些,但这不是严格且快速的标准,我认为,其它深度学习的研究者可能会很不同意我的观点或有着不同的直觉。
|
||||
|
||||
## 14.2 有哪些超参数
|
||||
学习率(learning rate)、batch_size、optimizer、 激活函数、正则化
|
||||
|
||||
## 14.3 如何选择调试值?
|
||||
## 14.4 为超参数选择合适的范围
|
||||
## 14.5 如何搜索超参数?
|
||||
|
||||
最后,关于如何搜索超参数的问题,我见过大概两种重要的思想流派或人们通常采用的两种重要但不同的方式。
|
||||
|
||||
一种是你照看一个模型,通常是有庞大的数据组,但没有许多计算资源或足够的 CPU 和 GPU 的前提下,基本而言,你只可以一次负担起试验一个模型或一小批模型,在这种情况下,即使当它在试验时,你也可以逐渐改良。比如,第 0 天,你将随机参数初始化,然后开始试验,然后你逐渐观察自己的学习曲线,也许是损失函数 J,或者数据设置误差或其它的东西,在第 1 天内逐渐减少,那这一天末的时候,你可能会说,看,它学习得真不错。我试着增加一点学习速率,看看它会怎样,也许结果证明它做得更好,那是你第二天的表现。两天后,你会说,它依旧做得不错,也许我现在可以填充下 Momentum 或减少变量。然后进入第三天,每天,你都会观察它,不断调整你的参数。也许有一天,你会发现你的学习率太大了,所以你可能又回归之前的模型,像这样,但你可以说是在每天花时间照看此模型,即使是它在许多天或许多星期的试验过程中。所以这是一个人们照料一个模型的方法,观察它的表现,耐心地调试学习率,但那通常是因为你没有足够的计算能力,不能在同一时间试验大量模型时才采取的办法。
|
||||
|
||||
另一种方法则是同时试验多种模型,你设置了一些超参数,尽管让它自己运行,或者是一天甚至多天,然后你会获得像这样的学习曲线,这可以是损失函数 J 或实验误差或损失或数据误差的损失,但都是你曲线轨迹的度量。同时你可以开始一个有着不同超参数设定的不同模型,所以,你的第二个模型会生成一个不同的学习曲线,也许是像这样的一条(紫色曲线),我会说这条看起来更好些。与此同时,你可以试验第三种模型,其可能产生一条像这样的学习曲线(红色曲线),还有另一条(绿色曲线),也许这条有所偏离,像这样,等等。或者你可以同时平行试验许多不同的模型,橙色的线就是不同的模型。用这种方式你可以试验许多不同的参数设定,然后只是最后快速选择工作效果最好的那个。在这个例子中,也许这条看起来是最好的(下方绿色曲线)。
|
||||
|
||||
所以这两种方式的选择,是由你拥有的计算资源决定的,如果你拥有足够的计算机去平行试验许多模型,那绝对采用鱼子酱方式,尝试许多不同的超参数,看效果怎么样。但在一些应用领域,比如在线广告设置和计算机视觉应用领域,那里的数据太多了,你需要试验大量的模型,所以同时试验大量的模型是很困难的,它的确是依赖于应用的过程。但我看到那些应用熊猫方式多一些的组织,那里,你会像对婴儿一样照看一个模型,调试参数,试着让它工作运转。尽管,当然,甚至是在熊猫方式中,试验一个模型,观察它工作与否,也许第二或第三个星期后,也许我应该建立一个不同的模型(绿色曲线),像熊猫那样照料它,我猜,这样一生中可以培育几个孩子,即使它们一次只有一个孩子或孩子的数量很少。
|
||||
|
||||
|
||||
# 第十四章 超参数调整
|
||||
|
||||
> Markdown Revision 1;
|
||||
> Date: 2018/10/25
|
||||
> Editor: 乔成磊-同济大学
|
||||
> Contact: qchl0318@163.com
|
||||
> Updater: [sjsdfg](https://github.com/sjsdfg)
|
||||
|
||||
## 14.1 调试处理
|
||||
关于训练深度最难的事情之一是你要处理的参数的数量,从学习速率到 Momentum(动量梯度下降法)的参数。如果使用 Momentum 或 Adam 优化算法的参数,也许你还得选择层数,也许你还得选择不同层中隐藏单元的数量,也许你还想使用学习率衰减。所以,你使用的不是单一的学习率。接着,当然你可能还需要选择 mini-batch 的大小。
|
||||
|
||||
结果证实一些超参数比其它的更为重要,我认为,最为广泛的学习应用是,学习速率是需要调试的最重要的超参数。
|
||||
|
||||
除了,还有一些参数需要调试,例如 Momentum 参数,0.9 就是个很好的默认值。我还会调试 mini-batch 的大小,以确保最优算法运行有效。我还会经常调试隐藏单元,我用橙色圈住的这些,这三个是我觉得其次比较重要的,相对于而言。重要性排第三位的是其他因素,层数有时会产生很大的影响,学习率衰减也是如此。当应用 Adam 算法时,事实上,我从不调试,和,我总是选定其分别为 0.9,0.999 和,如果你想的话也可以调试它们。
|
||||
|
||||
但希望你粗略了解到哪些超参数较为重要,无疑是最重要的,接下来是我用橙色圈住的那些,然后是我用紫色圈住的那些,但这不是严格且快速的标准,我认为,其它深度学习的研究者可能会很不同意我的观点或有着不同的直觉。
|
||||
|
||||
## 14.2 有哪些超参数
|
||||
学习率(learning rate)、batch_size、optimizer、 激活函数、正则化
|
||||
|
||||
## 14.3 如何选择调试值?
|
||||
## 14.4 为超参数选择合适的范围
|
||||
## 14.5 如何搜索超参数?
|
||||
|
||||
最后,关于如何搜索超参数的问题,我见过大概两种重要的思想流派或人们通常采用的两种重要但不同的方式。
|
||||
|
||||
一种是你照看一个模型,通常是有庞大的数据组,但没有许多计算资源或足够的 CPU 和 GPU 的前提下,基本而言,你只可以一次负担起试验一个模型或一小批模型,在这种情况下,即使当它在试验时,你也可以逐渐改良。比如,第 0 天,你将随机参数初始化,然后开始试验,然后你逐渐观察自己的学习曲线,也许是损失函数 J,或者数据设置误差或其它的东西,在第 1 天内逐渐减少,那这一天末的时候,你可能会说,看,它学习得真不错。我试着增加一点学习速率,看看它会怎样,也许结果证明它做得更好,那是你第二天的表现。两天后,你会说,它依旧做得不错,也许我现在可以填充下 Momentum 或减少变量。然后进入第三天,每天,你都会观察它,不断调整你的参数。也许有一天,你会发现你的学习率太大了,所以你可能又回归之前的模型,像这样,但你可以说是在每天花时间照看此模型,即使是它在许多天或许多星期的试验过程中。所以这是一个人们照料一个模型的方法,观察它的表现,耐心地调试学习率,但那通常是因为你没有足够的计算能力,不能在同一时间试验大量模型时才采取的办法。
|
||||
|
||||
另一种方法则是同时试验多种模型,你设置了一些超参数,尽管让它自己运行,或者是一天甚至多天,然后你会获得像这样的学习曲线,这可以是损失函数 J 或实验误差或损失或数据误差的损失,但都是你曲线轨迹的度量。同时你可以开始一个有着不同超参数设定的不同模型,所以,你的第二个模型会生成一个不同的学习曲线,也许是像这样的一条(紫色曲线),我会说这条看起来更好些。与此同时,你可以试验第三种模型,其可能产生一条像这样的学习曲线(红色曲线),还有另一条(绿色曲线),也许这条有所偏离,像这样,等等。或者你可以同时平行试验许多不同的模型,橙色的线就是不同的模型。用这种方式你可以试验许多不同的参数设定,然后只是最后快速选择工作效果最好的那个。在这个例子中,也许这条看起来是最好的(下方绿色曲线)。
|
||||
|
||||
所以这两种方式的选择,是由你拥有的计算资源决定的,如果你拥有足够的计算机去平行试验许多模型,那绝对采用鱼子酱方式,尝试许多不同的超参数,看效果怎么样。但在一些应用领域,比如在线广告设置和计算机视觉应用领域,那里的数据太多了,你需要试验大量的模型,所以同时试验大量的模型是很困难的,它的确是依赖于应用的过程。但我看到那些应用熊猫方式多一些的组织,那里,你会像对婴儿一样照看一个模型,调试参数,试着让它工作运转。尽管,当然,甚至是在熊猫方式中,试验一个模型,观察它工作与否,也许第二或第三个星期后,也许我应该建立一个不同的模型(绿色曲线),像熊猫那样照料它,我猜,这样一生中可以培育几个孩子,即使它们一次只有一个孩子或孩子的数量很少。
|
||||
|
||||
|
||||
|
Before Width: | Height: | Size: 79 KiB After Width: | Height: | Size: 79 KiB |
|
Before Width: | Height: | Size: 82 KiB After Width: | Height: | Size: 82 KiB |
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
Before Width: | Height: | Size: 6.1 KiB After Width: | Height: | Size: 6.1 KiB |
|
Before Width: | Height: | Size: 281 KiB After Width: | Height: | Size: 281 KiB |
|
Before Width: | Height: | Size: 311 KiB After Width: | Height: | Size: 311 KiB |
|
Before Width: | Height: | Size: 284 KiB After Width: | Height: | Size: 284 KiB |
|
Before Width: | Height: | Size: 347 KiB After Width: | Height: | Size: 347 KiB |
|
Before Width: | Height: | Size: 367 KiB After Width: | Height: | Size: 367 KiB |
|
Before Width: | Height: | Size: 696 KiB After Width: | Height: | Size: 696 KiB |
|
Before Width: | Height: | Size: 863 KiB After Width: | Height: | Size: 863 KiB |
|
|
@ -0,0 +1,20 @@
|
|||
该文件用来记录修改日志:
|
||||
<----shw2018-2018-10-25---->
|
||||
1. 新增章节markdown文件
|
||||
|
||||
<----shw2018-2018-10-28---->
|
||||
1. 修改错误内容和格式
|
||||
2. 修改图片路径
|
||||
|
||||
<----shw2018-2018-10-31---->
|
||||
1. 新增第九章文件夹,里面包括:
|
||||
img---->用来放对应章节图片,例如路径./img/ch9/ch_*
|
||||
readme.md---->章节维护贡献者信息
|
||||
modify_log---->用来记录修改日志
|
||||
第 * 章_xxx.md---->对应章节markdown文件
|
||||
第 * 章_xxx.pdf---->对应章节生成pdf文件,便于阅读
|
||||
其他---->待增加
|
||||
2. 修改readme内容
|
||||
3. 修改modify内容
|
||||
4. 修改章节内容,图片路径等
|
||||
|
||||
|
|
@ -0,0 +1,14 @@
|
|||
###########################################################
|
||||
|
||||
### 深度学习500问-第 * 章 xxx
|
||||
|
||||
**负责人(排名不分先后):**
|
||||
xxx研究生-xxx(xxx)
|
||||
xxx博士生-xxx
|
||||
xxx-xxx
|
||||
|
||||
|
||||
**贡献者(排名不分先后):**
|
||||
内容贡献者可自加信息
|
||||
|
||||
###########################################################
|
||||
|
|
@ -1,244 +1,244 @@
|
|||
# 第一章 数学基础
|
||||
|
||||
> Markdown Revision 1; --update 2018/10/30 13:00
|
||||
> Date: 2018/10/25
|
||||
> Editor: 乔成磊-同济大学
|
||||
> Contact: qchl0318@163.com
|
||||
|
||||
## 1.1 标量、向量、矩阵、张量之间的联系
|
||||
**标量(scalar)**
|
||||
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
|
||||
|
||||
**向量(vector)**
|
||||
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如**A**。
|
||||
|
||||
**矩阵(matrix)**
|
||||
一个向量表示组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量x的第一个元素是x1,第二个元素是x2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
|
||||
|
||||
**张量(tensor)**
|
||||
在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用**$A$**来表示张量“A”。张量**$A$**中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$。
|
||||
|
||||
**关系**
|
||||
标量是0阶张量,向量是一阶张量。举例:
|
||||
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
|
||||
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
|
||||
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。
|
||||
|
||||
## 1.2 张量与矩阵的区别?
|
||||
1. 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么$n$阶张量就是所谓的$n$维的“表格”。 张量的严格定义是利用线性映射来描述的。
|
||||
2. 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
|
||||
3. 张量可以用3×3矩阵形式来表达。
|
||||
4. 表示标量的数和表示矢量的三维数组也可分别看作1×1,1×3的矩阵。
|
||||
|
||||
## 1.3 矩阵和向量相乘结果
|
||||
一个$m$行$n$列的矩阵和$n$行向量相乘,最后得到就是一个$m$行的向量。运算法则就是矩阵中的每一行数据看成一个行向量与该向量作点乘。
|
||||
|
||||
## 1.4 向量和矩阵的范数归纳
|
||||
**向量的范数**
|
||||
定义一个向量为:$\vec{a}=[-5, 6, 8, -10]$。
|
||||
向量的1范数:向量的各个元素的绝对值之和,上述向量$\vec{a}$的1范数结果就是:29。
|
||||
向量的2范数:向量的每个元素的平方和再开平方根,上述$\vec{a}$的2范数结果就是:15。
|
||||
向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量$\vec{a}$的负无穷范数结果就是:5。
|
||||
向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量$\vec{a}$的负无穷范数结果就是:10。
|
||||
向量的L-P范数:$L_p=|\vec{x}|_p=\sqrt[p]{\sum_{i=1}^{n}x_i^p},\vec{x}=( x_1,x_2,...,x_n )$
|
||||
|
||||
**矩阵的范数**
|
||||
定义一个矩阵$A=[-1, 2, -3; 4, -6, 6]$。
|
||||
矩阵的范数定义为
|
||||
$$
|
||||
\|A\|_p :=\sup_{x\neq 0}\frac{\|Ax\|_p}{\|x\|_p}.
|
||||
$$
|
||||
|
||||
当向量取不同范数时, 相应得到了不同的矩阵范数。
|
||||
|
||||
**矩阵的1范数**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$,再取最大的最终结果就是:9。
|
||||
**矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是:10.0623。
|
||||
**矩阵的无穷范数**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
**矩阵的核范数**:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
|
||||
**矩阵的L0范数**:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵$A$最终结果就是:6。
|
||||
**矩阵的L1范数**:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵$A$最终结果就是:22。
|
||||
**矩阵的F范数**:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的有点在它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。
|
||||
**矩阵的L21范数**:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵$A$最终结果就是:17.1559。
|
||||
|
||||
## 1.5 如何判断一个矩阵为正定?
|
||||
1. 顺序主子式全大于0;
|
||||
2. 存在可逆矩阵$C$使$C^TC$等于该矩阵;
|
||||
3. 正惯性指数等于$n$;
|
||||
4. 合同于单位矩阵$E$(即:规范形为$E$)
|
||||
5. 标准形中主对角元素全为正;
|
||||
6. 特征值全为正;
|
||||
7. 是某基的度量矩阵。
|
||||
|
||||
## 1.6 导数偏导计算
|
||||
|
||||
## 1.7 导数和偏导数有什么区别?
|
||||
导数和偏导没有本质区别,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限(如果极限存在的话)。
|
||||
一元函数,一个$y$对应一个$x$,导数只有一个。
|
||||
二元函数,一个$z$对应一个$x$和一个$y$,有两个导数:一个是$z$对$x$的导数,一个是$z$对$y$的导数,称之为偏导。
|
||||
求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导了。
|
||||
(http://blog.sina.com.cn/s/blog_5b014d510100axmt.html)
|
||||
|
||||
## 1.8 特征值分解与特征向量
|
||||
特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
|
||||
如果说一个向量$\vec{v}$是方阵$A$的特征向量,将一定可以表示成下面的形式:
|
||||
$$
|
||||
A\nu = \lambda \nu
|
||||
$$
|
||||
$\lambda$为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式:
|
||||
$$
|
||||
A=Q\sum Q^{-1}
|
||||
$$
|
||||
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。
|
||||
对于矩阵为高维的情况下,那么这个矩阵就是高维空间下的一个线性变换。可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N个特征向量,那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向,就可以近似这个矩阵(变换)。
|
||||
(http://blog.csdn.net/jinshengtao/article/details/18448355)
|
||||
|
||||
## 1.9 奇异值与特征值有什么关系?
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:
|
||||
$$
|
||||
(A^TA)V = \lambda V
|
||||
$$
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
$$
|
||||
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
|
||||
$$
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
$$
|
||||
A_{m\times n}\thickapprox U_{m \times r}\sum_{r\times r}V_{r \times n}^T
|
||||
$$
|
||||
右边的三个矩阵相乘的结果将会是一个接近于$A$的矩阵,在这儿,$r$越接近于$n$,则相乘的结果越接近于$A$。
|
||||
|
||||
## 1.10 机器学习为什么要使用概率?
|
||||
事件的概率是衡量该时间发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
|
||||
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。
|
||||
概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。
|
||||
|
||||
>例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。
|
||||
|
||||
## 1.11 变量与随机变量有什么区别?
|
||||
**随机变量**(random variable)表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
|
||||
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
|
||||
**变量与随机变量的区别:**
|
||||
当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量.
|
||||
比如:
|
||||
当变量$x$值为100的概率为1的话,那么$x=100$就是确定了的,不会再有变化,除非有进一步运算.
|
||||
当变量$x$的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。
|
||||
|
||||
## 1.12 常见概率分布?
|
||||
(https://wenku.baidu.com/view/6418b0206d85ec3a87c24028915f804d2b168707)
|
||||

|
||||

|
||||

|
||||

|
||||

|
||||

|
||||

|
||||
|
||||
## 1.13 举例理解条件概率
|
||||
条件概率公式如下:
|
||||
$$
|
||||
P(A/B) = P(A\cap B) / P(B)
|
||||
$$
|
||||
说明:在同一个样本空间$\Omega$中的事件或者子集$A$与$B$,如果随机从$\Omega$中选出的一个元素属于$B$,那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。
|
||||

|
||||
|
||||
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。
|
||||
举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
|
||||
**穷举法**:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3;
|
||||
**条件概率法**:$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则$P(女女)$为1/4,$P(女)= 1-P(男男)=3/4$,所以最后$1/3$。
|
||||
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。
|
||||
|
||||
## 1.14 联合概率与边缘概率联系区别?
|
||||
**区别:**
|
||||
联合概率:联合概率指类似于$P(X=a,Y=b)$这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
|
||||
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于$P(X=a)$,$P(Y=b)$这样,仅与单个随机变量有关的概率
|
||||
**联系:**
|
||||
联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
|
||||
|
||||
## 1.15条件概率的链式法则
|
||||
由条件概率的定义,可直接得出下面的乘法公式:
|
||||
乘法公式 设$A, B$是两个事件,并且$P(A) > 0$, 则有
|
||||
$$
|
||||
P(AB) = P(B|A)P(A)
|
||||
$$
|
||||
推广
|
||||
$$
|
||||
P(ABC)=P(C|AB)P(B)P(B|A)P(A)
|
||||
$$
|
||||
一般地,用归纳法可证:若$P(A_1A_2...A_n)>0$,则有
|
||||
$$
|
||||
P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1}P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)
|
||||
$$
|
||||
任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。
|
||||
|
||||
## 1.16 独立性和条件独立性
|
||||
**独立性**
|
||||
两个随机变量$x$和$y$,概率分布表示成两个因子乘积形式,一个因子只包含$x$,另一个因子只包含$y$,两个随机变量相互独立(independent)。
|
||||
条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
|
||||
举例:$P(XY)=P(X)P(Y)$, 事件$X$和事件$Y$独立。此时给定$Z$,
|
||||
$$
|
||||
P(X,Y|Z) \not = P(X|Z)P(Y|Z)
|
||||
$$
|
||||
事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。
|
||||
**条件独立性**
|
||||
给定$Z$的情况下,$X$和$Y$条件独立,当且仅当
|
||||
$$
|
||||
X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)
|
||||
$$
|
||||
$X$和$Y$的关系依赖于$Z$,而不是直接产生。
|
||||
**举例**定义如下事件:
|
||||
$X$:明天下雨;
|
||||
$Y$:今天的地面是湿的;
|
||||
$Z$:今天是否下雨;
|
||||
$Z$事件的成立,对$X$和$Y$均有影响,然而,在$Z$事件成立的前提下,今天的地面情况对明天是否下雨没有影响。
|
||||
|
||||
## 1.17期望、方差、协方差、相关系数总结
|
||||
(http://www.360doc.com/content/13/1124/03/9482_331690142.shtml)
|
||||
**期望**
|
||||
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
|
||||
线性运算: $E(ax+by+c) = aE(x)+bE(y)+c$
|
||||
推广形式: $E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)x_i+c}$
|
||||
函数期望:设$f(x)$为$x$的函数,则$f(x)$的期望为
|
||||
- 离散函数: $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
|
||||
- 连续函数: $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$
|
||||
|
||||
注意:函数的期望不等于期望的函数,即$E(f(x))=f(E(x))$
|
||||
一般情况下,乘积的期望不等于期望的乘积。
|
||||
如果$X$和$Y$相互独立,则$E(xy)=E(x)E(y)$。
|
||||
**方差**
|
||||
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
|
||||
方差是一种特殊的期望。定义为:
|
||||
$$
|
||||
Var(x) = E((x-E(x))^2)
|
||||
$$
|
||||
方差性质:
|
||||
1)$Var(x) = E(x^2) -E(x)^2$
|
||||
2) 常数的方差为0;
|
||||
3)方差不满足线性性质;
|
||||
4)如果$X$和$Y$相互独立, $Var(ax+by)=Var(x)+Var(y)$
|
||||
**协方差**
|
||||
协方差是衡量两个变量线性相关性强度及变量尺度。
|
||||
两个随机变量的协方差定义为:
|
||||
$$
|
||||
Cov(x,y)=E((x-E(x))(y-E(y)))
|
||||
$$
|
||||
方差是一种特殊的协方差。当$X=Y$时,$Cov(x,y)=Var(x)=Var(y)$。
|
||||
协方差性质:
|
||||
1) 独立变量的协方差为0。
|
||||
2) 协方差计算公式:
|
||||
$$
|
||||
Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}
|
||||
$$
|
||||
3) 特殊情况:
|
||||
$$
|
||||
Cov(a+bx, c+dy) = bdCov(x, y)
|
||||
$$
|
||||
**相关系数**
|
||||
相关系数是研究变量之间线性相关程度的量。
|
||||
两个随机变量的相关系数定义为:
|
||||
$$
|
||||
Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}
|
||||
$$
|
||||
性质:
|
||||
1) 有界性。相关系数的取值范围是 ,可以看成无量纲的协方差。
|
||||
# 第一章 数学基础
|
||||
|
||||
> Markdown Revision 1; --update 2018/10/30 13:00
|
||||
> Date: 2018/10/25
|
||||
> Editor: 乔成磊-同济大学
|
||||
> Contact: qchl0318@163.com
|
||||
|
||||
## 1.1 标量、向量、矩阵、张量之间的联系
|
||||
**标量(scalar)**
|
||||
一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。我们用斜体表示标量。标量通常被赋予小写的变量名称。
|
||||
|
||||
**向量(vector)**
|
||||
矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。其意义是一个对象表示为矩阵中的一行,一个特征表示为矩阵中的一列,每个特征都有数值型的取值。通常会赋予矩阵粗体的大写变量名称,比如**A**。
|
||||
|
||||
**矩阵(matrix)**
|
||||
一个向量表示组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。通常我们赋予向量粗体的小写变量名称,比如xx。向量中的元素可以通过带脚标的斜体表示。向量x的第一个元素是x1,第二个元素是x2,以此类推。我们也会注明存储在向量中的元素的类型(实数、虚数等)。
|
||||
|
||||
**张量(tensor)**
|
||||
在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。使用**$A$**来表示张量“A”。张量**$A$**中坐标为$(i,j,k)$的元素记作$A_{(i,j,k)}$。
|
||||
|
||||
**关系**
|
||||
标量是0阶张量,向量是一阶张量。举例:
|
||||
标量就是知道棍子的长度,但是你不会知道棍子指向哪儿。
|
||||
向量就是不但知道棍子的长度,还知道棍子指向前面还是后面。
|
||||
张量就是不但知道棍子的长度,也知道棍子指向前面还是后面,还能知道这棍子又向上/下和左/右偏转了多少。
|
||||
|
||||
## 1.2 张量与矩阵的区别?
|
||||
1. 从代数角度讲, 矩阵它是向量的推广。向量可以看成一维的“表格”(即分量按照顺序排成一排), 矩阵是二维的“表格”(分量按照纵横位置排列), 那么$n$阶张量就是所谓的$n$维的“表格”。 张量的严格定义是利用线性映射来描述的。
|
||||
2. 从几何角度讲, 矩阵是一个真正的几何量,也就是说,它是一个不随参照系的坐标变换而变化的东西。向量也具有这种特性。
|
||||
3. 张量可以用3×3矩阵形式来表达。
|
||||
4. 表示标量的数和表示矢量的三维数组也可分别看作1×1,1×3的矩阵。
|
||||
|
||||
## 1.3 矩阵和向量相乘结果
|
||||
一个$m$行$n$列的矩阵和$n$行向量相乘,最后得到就是一个$m$行的向量。运算法则就是矩阵中的每一行数据看成一个行向量与该向量作点乘。
|
||||
|
||||
## 1.4 向量和矩阵的范数归纳
|
||||
**向量的范数**
|
||||
定义一个向量为:$\vec{a}=[-5, 6, 8, -10]$。
|
||||
向量的1范数:向量的各个元素的绝对值之和,上述向量$\vec{a}$的1范数结果就是:29。
|
||||
向量的2范数:向量的每个元素的平方和再开平方根,上述$\vec{a}$的2范数结果就是:15。
|
||||
向量的负无穷范数:向量的所有元素的绝对值中最小的:上述向量$\vec{a}$的负无穷范数结果就是:5。
|
||||
向量的正无穷范数:向量的所有元素的绝对值中最大的:上述向量$\vec{a}$的负无穷范数结果就是:10。
|
||||
向量的L-P范数:$L_p=|\vec{x}|_p=\sqrt[p]{\sum_{i=1}^{n}x_i^p},\vec{x}=( x_1,x_2,...,x_n )$
|
||||
|
||||
**矩阵的范数**
|
||||
定义一个矩阵$A=[-1, 2, -3; 4, -6, 6]$。
|
||||
矩阵的范数定义为
|
||||
$$
|
||||
\|A\|_p :=\sup_{x\neq 0}\frac{\|Ax\|_p}{\|x\|_p}.
|
||||
$$
|
||||
|
||||
当向量取不同范数时, 相应得到了不同的矩阵范数。
|
||||
|
||||
**矩阵的1范数**:矩阵的每一列上的元素绝对值先求和,再从中取个最大的,(列和最大),上述矩阵$A$的1范数先得到$[5,8,9]$,再取最大的最终结果就是:9。
|
||||
**矩阵的2范数**:矩阵$A^TA$的最大特征值开平方根,上述矩阵$A$的2范数得到的最终结果是:10.0623。
|
||||
**矩阵的无穷范数**:矩阵的每一行上的元素绝对值先求和,再从中取个最大的,(行和最大),上述矩阵$A$的1范数先得到$[6;16]$,再取最大的最终结果就是:16。
|
||||
**矩阵的核范数**:矩阵的奇异值(将矩阵svd分解)之和,这个范数可以用来低秩表示(因为最小化核范数,相当于最小化矩阵的秩——低秩),上述矩阵A最终结果就是:10.9287。
|
||||
**矩阵的L0范数**:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏,上述矩阵$A$最终结果就是:6。
|
||||
**矩阵的L1范数**:矩阵中的每个元素绝对值之和,它是L0范数的最优凸近似,因此它也可以表示稀疏,上述矩阵$A$最终结果就是:22。
|
||||
**矩阵的F范数**:矩阵的各个元素平方之和再开平方根,它通常也叫做矩阵的L2范数,它的有点在它是一个凸函数,可以求导求解,易于计算,上述矩阵A最终结果就是:10.0995。
|
||||
**矩阵的L21范数**:矩阵先以每一列为单位,求每一列的F范数(也可认为是向量的2范数),然后再将得到的结果求L1范数(也可认为是向量的1范数),很容易看出它是介于L1和L2之间的一种范数,上述矩阵$A$最终结果就是:17.1559。
|
||||
|
||||
## 1.5 如何判断一个矩阵为正定?
|
||||
1. 顺序主子式全大于0;
|
||||
2. 存在可逆矩阵$C$使$C^TC$等于该矩阵;
|
||||
3. 正惯性指数等于$n$;
|
||||
4. 合同于单位矩阵$E$(即:规范形为$E$)
|
||||
5. 标准形中主对角元素全为正;
|
||||
6. 特征值全为正;
|
||||
7. 是某基的度量矩阵。
|
||||
|
||||
## 1.6 导数偏导计算
|
||||
|
||||
## 1.7 导数和偏导数有什么区别?
|
||||
导数和偏导没有本质区别,都是当自变量的变化量趋于0时,函数值的变化量与自变量变化量比值的极限(如果极限存在的话)。
|
||||
一元函数,一个$y$对应一个$x$,导数只有一个。
|
||||
二元函数,一个$z$对应一个$x$和一个$y$,有两个导数:一个是$z$对$x$的导数,一个是$z$对$y$的导数,称之为偏导。
|
||||
求偏导时要注意,对一个变量求导,则视另一个变量为常数,只对改变量求导,从而将偏导的求解转化成了一元函数的求导了。
|
||||
(http://blog.sina.com.cn/s/blog_5b014d510100axmt.html)
|
||||
|
||||
## 1.8 特征值分解与特征向量
|
||||
特征值分解可以得到特征值与特征向量,特征值表示的是这个特征到底有多重要,而特征向量表示这个特征是什么。
|
||||
如果说一个向量$\vec{v}$是方阵$A$的特征向量,将一定可以表示成下面的形式:
|
||||
$$
|
||||
A\nu = \lambda \nu
|
||||
$$
|
||||
$\lambda$为特征向量$\vec{v}$对应的特征值。特征值分解是将一个矩阵分解为如下形式:
|
||||
$$
|
||||
A=Q\sum Q^{-1}
|
||||
$$
|
||||
其中,$Q$是这个矩阵$A$的特征向量组成的矩阵,$\sum$是一个对角矩阵,每一个对角线元素就是一个特征值,里面的特征值是由大到小排列的,这些特征值所对应的特征向量就是描述这个矩阵变化方向(从主要的变化到次要的变化排列)。也就是说矩阵$A$的信息可以由其特征值和特征向量表示。
|
||||
对于矩阵为高维的情况下,那么这个矩阵就是高维空间下的一个线性变换。可以想象,这个变换也同样有很多的变换方向,我们通过特征值分解得到的前N个特征向量,那么就对应了这个矩阵最主要的N个变化方向。我们利用这前N个变化方向,就可以近似这个矩阵(变换)。
|
||||
(http://blog.csdn.net/jinshengtao/article/details/18448355)
|
||||
|
||||
## 1.9 奇异值与特征值有什么关系?
|
||||
那么奇异值和特征值是怎么对应起来的呢?我们将一个矩阵$A$的转置乘以$A$,并对$AA^T$求特征值,则有下面的形式:
|
||||
$$
|
||||
(A^TA)V = \lambda V
|
||||
$$
|
||||
这里$V$就是上面的右奇异向量,另外还有:
|
||||
$$
|
||||
\sigma_i = \sqrt{\lambda_i}, u_i=\frac{1}{\sigma_i}A\mu_i
|
||||
$$
|
||||
这里的$\sigma$就是奇异值,$u$就是上面说的左奇异向量。【证明那个哥们也没给】
|
||||
奇异值$\sigma$跟特征值类似,在矩阵$\sum$中也是从大到小排列,而且$\sigma$的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上了。也就是说,我们也可以用前$r$($r$远小于$m、n$)个的奇异值来近似描述矩阵,即部分奇异值分解:
|
||||
$$
|
||||
A_{m\times n}\thickapprox U_{m \times r}\sum_{r\times r}V_{r \times n}^T
|
||||
$$
|
||||
右边的三个矩阵相乘的结果将会是一个接近于$A$的矩阵,在这儿,$r$越接近于$n$,则相乘的结果越接近于$A$。
|
||||
|
||||
## 1.10 机器学习为什么要使用概率?
|
||||
事件的概率是衡量该时间发生的可能性的量度。虽然在一次随机试验中某个事件的发生是带有偶然性的,但那些可在相同条件下大量重复的随机试验却往往呈现出明显的数量规律。
|
||||
机器学习除了处理不确定量,也需处理随机量。不确定性和随机性可能来自多个方面,使用概率论来量化不确定性。
|
||||
概率论在机器学习中扮演着一个核心角色,因为机器学习算法的设计通常依赖于对数据的概率假设。
|
||||
|
||||
>例如在机器学习(Andrew Ng)的课中,会有一个朴素贝叶斯假设就是条件独立的一个例子。该学习算法对内容做出假设,用来分辨电子邮件是否为垃圾邮件。假设无论邮件是否为垃圾邮件,单词x出现在邮件中的概率条件独立于单词y。很明显这个假设不是不失一般性的,因为某些单词几乎总是同时出现。然而,最终结果是,这个简单的假设对结果的影响并不大,且无论如何都可以让我们快速判别垃圾邮件。
|
||||
|
||||
## 1.11 变量与随机变量有什么区别?
|
||||
**随机变量**(random variable)表示随机现象(在一定条件下,并不总是出现相同结果的现象称为随机现象)中各种结果的实值函数(一切可能的样本点)。例如某一时间内公共汽车站等车乘客人数,电话交换台在一定时间内收到的呼叫次数等,都是随机变量的实例。
|
||||
随机变量与模糊变量的不确定性的本质差别在于,后者的测定结果仍具有不确定性,即模糊性。
|
||||
**变量与随机变量的区别:**
|
||||
当变量的取值的概率不是1时,变量就变成了随机变量;当随机变量取值的概率为1时,随机变量就变成了变量.
|
||||
比如:
|
||||
当变量$x$值为100的概率为1的话,那么$x=100$就是确定了的,不会再有变化,除非有进一步运算.
|
||||
当变量$x$的值为100的概率不为1,比如为50的概率是0.5,为100的概率是0.5,那么这个变量就是会随不同条件而变化的,是随机变量,取到50或者100的概率都是0.5,即50%。
|
||||
|
||||
## 1.12 常见概率分布?
|
||||
(https://wenku.baidu.com/view/6418b0206d85ec3a87c24028915f804d2b168707)
|
||||

|
||||

|
||||

|
||||

|
||||

|
||||

|
||||

|
||||
|
||||
## 1.13 举例理解条件概率
|
||||
条件概率公式如下:
|
||||
$$
|
||||
P(A/B) = P(A\cap B) / P(B)
|
||||
$$
|
||||
说明:在同一个样本空间$\Omega$中的事件或者子集$A$与$B$,如果随机从$\Omega$中选出的一个元素属于$B$,那么下一个随机选择的元素属于$A$ 的概率就定义为在$B$的前提下$A$的条件概率。
|
||||

|
||||
|
||||
根据文氏图,可以很清楚地看到在事件B发生的情况下,事件A发生的概率就是$P(A\bigcap B)$除以$P(B)$。
|
||||
举例:一对夫妻有两个小孩,已知其中一个是女孩,则另一个是女孩子的概率是多少?(面试、笔试都碰到过)
|
||||
**穷举法**:已知其中一个是女孩,那么样本空间为男女,女女,女男,则另外一个仍然是女生的概率就是1/3;
|
||||
**条件概率法**:$P(女|女)=P(女女)/P(女)$,夫妻有两个小孩,那么它的样本空间为女女,男女,女男,男男,则$P(女女)$为1/4,$P(女)= 1-P(男男)=3/4$,所以最后$1/3$。
|
||||
这里大家可能会误解,男女和女男是同一种情况,但实际上类似姐弟和兄妹是不同情况。
|
||||
|
||||
## 1.14 联合概率与边缘概率联系区别?
|
||||
**区别:**
|
||||
联合概率:联合概率指类似于$P(X=a,Y=b)$这样,包含多个条件,且所有条件同时成立的概率。联合概率是指在多元的概率分布中多个随机变量分别满足各自条件的概率。
|
||||
边缘概率:边缘概率是某个事件发生的概率,而与其它事件无关。边缘概率指类似于$P(X=a)$,$P(Y=b)$这样,仅与单个随机变量有关的概率
|
||||
**联系:**
|
||||
联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。
|
||||
|
||||
## 1.15条件概率的链式法则
|
||||
由条件概率的定义,可直接得出下面的乘法公式:
|
||||
乘法公式 设$A, B$是两个事件,并且$P(A) > 0$, 则有
|
||||
$$
|
||||
P(AB) = P(B|A)P(A)
|
||||
$$
|
||||
推广
|
||||
$$
|
||||
P(ABC)=P(C|AB)P(B)P(B|A)P(A)
|
||||
$$
|
||||
一般地,用归纳法可证:若$P(A_1A_2...A_n)>0$,则有
|
||||
$$
|
||||
P(A_1A_2...A_n)=P(A_n|A_1A_2...A_{n-1}P(A_{n-1}|A_1A_2...A_{n-2})...P(A_2|A_1)P(A_1)
|
||||
$$
|
||||
任何多维随机变量联合概率分布,都可以分解成只有一个变量的条件概率相乘形式。
|
||||
|
||||
## 1.16 独立性和条件独立性
|
||||
**独立性**
|
||||
两个随机变量$x$和$y$,概率分布表示成两个因子乘积形式,一个因子只包含$x$,另一个因子只包含$y$,两个随机变量相互独立(independent)。
|
||||
条件有时为不独立的事件之间带来独立,有时也会把本来独立的事件,因为此条件的存在,而失去独立性。
|
||||
举例:$P(XY)=P(X)P(Y)$, 事件$X$和事件$Y$独立。此时给定$Z$,
|
||||
$$
|
||||
P(X,Y|Z) \not = P(X|Z)P(Y|Z)
|
||||
$$
|
||||
事件独立时,联合概率等于概率的乘积。这是一个非常好的数学性质,然而不幸的是,无条件的独立是十分稀少的,因为大部分情况下,事件之间都是互相影响的。
|
||||
**条件独立性**
|
||||
给定$Z$的情况下,$X$和$Y$条件独立,当且仅当
|
||||
$$
|
||||
X\bot Y|Z \iff P(X,Y|Z) = P(X|Z)P(Y|Z)
|
||||
$$
|
||||
$X$和$Y$的关系依赖于$Z$,而不是直接产生。
|
||||
**举例**定义如下事件:
|
||||
$X$:明天下雨;
|
||||
$Y$:今天的地面是湿的;
|
||||
$Z$:今天是否下雨;
|
||||
$Z$事件的成立,对$X$和$Y$均有影响,然而,在$Z$事件成立的前提下,今天的地面情况对明天是否下雨没有影响。
|
||||
|
||||
## 1.17期望、方差、协方差、相关系数总结
|
||||
(http://www.360doc.com/content/13/1124/03/9482_331690142.shtml)
|
||||
**期望**
|
||||
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和。它反映随机变量平均取值的大小。
|
||||
线性运算: $E(ax+by+c) = aE(x)+bE(y)+c$
|
||||
推广形式: $E(\sum_{k=1}^{n}{a_ix_i+c}) = \sum_{k=1}^{n}{a_iE(x_i)x_i+c}$
|
||||
函数期望:设$f(x)$为$x$的函数,则$f(x)$的期望为
|
||||
- 离散函数: $E(f(x))=\sum_{k=1}^{n}{f(x_k)P(x_k)}$
|
||||
- 连续函数: $E(f(x))=\int_{-\infty}^{+\infty}{f(x)p(x)dx}$
|
||||
|
||||
注意:函数的期望不等于期望的函数,即$E(f(x))=f(E(x))$
|
||||
一般情况下,乘积的期望不等于期望的乘积。
|
||||
如果$X$和$Y$相互独立,则$E(xy)=E(x)E(y)$。
|
||||
**方差**
|
||||
概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
|
||||
方差是一种特殊的期望。定义为:
|
||||
$$
|
||||
Var(x) = E((x-E(x))^2)
|
||||
$$
|
||||
方差性质:
|
||||
1)$Var(x) = E(x^2) -E(x)^2$
|
||||
2) 常数的方差为0;
|
||||
3)方差不满足线性性质;
|
||||
4)如果$X$和$Y$相互独立, $Var(ax+by)=Var(x)+Var(y)$
|
||||
**协方差**
|
||||
协方差是衡量两个变量线性相关性强度及变量尺度。
|
||||
两个随机变量的协方差定义为:
|
||||
$$
|
||||
Cov(x,y)=E((x-E(x))(y-E(y)))
|
||||
$$
|
||||
方差是一种特殊的协方差。当$X=Y$时,$Cov(x,y)=Var(x)=Var(y)$。
|
||||
协方差性质:
|
||||
1) 独立变量的协方差为0。
|
||||
2) 协方差计算公式:
|
||||
$$
|
||||
Cov(\sum_{i=1}^{m}{a_ix_i}, \sum_{j=1}^{m}{b_jy_j}) = \sum_{i=1}^{m} \sum_{j=1}^{m}{a_ib_jCov(x_iy_i)}
|
||||
$$
|
||||
3) 特殊情况:
|
||||
$$
|
||||
Cov(a+bx, c+dy) = bdCov(x, y)
|
||||
$$
|
||||
**相关系数**
|
||||
相关系数是研究变量之间线性相关程度的量。
|
||||
两个随机变量的相关系数定义为:
|
||||
$$
|
||||
Corr(x,y) = \frac{Cov(x,y)}{\sqrt{Var(x)Var(y)}}
|
||||
$$
|
||||
性质:
|
||||
1) 有界性。相关系数的取值范围是 ,可以看成无量纲的协方差。
|
||||
2) 值越接近1,说明两个变量正相关性(线性)越强。越接近-1,说明负相关性越强,当为0时,表示两个变量没有相关性。
|
||||
|
Before Width: | Height: | Size: 15 KiB After Width: | Height: | Size: 15 KiB |
|
Before Width: | Height: | Size: 78 KiB After Width: | Height: | Size: 78 KiB |
|
Before Width: | Height: | Size: 89 KiB After Width: | Height: | Size: 89 KiB |
|
Before Width: | Height: | Size: 62 KiB After Width: | Height: | Size: 62 KiB |
|
Before Width: | Height: | Size: 176 KiB After Width: | Height: | Size: 176 KiB |
|
Before Width: | Height: | Size: 51 KiB After Width: | Height: | Size: 51 KiB |
|
Before Width: | Height: | Size: 22 KiB After Width: | Height: | Size: 22 KiB |
|
Before Width: | Height: | Size: 318 KiB After Width: | Height: | Size: 318 KiB |
|
Before Width: | Height: | Size: 12 KiB After Width: | Height: | Size: 12 KiB |
|
Before Width: | Height: | Size: 12 KiB After Width: | Height: | Size: 12 KiB |
|
Before Width: | Height: | Size: 41 KiB After Width: | Height: | Size: 41 KiB |
|
Before Width: | Height: | Size: 6.2 KiB After Width: | Height: | Size: 6.2 KiB |
|
Before Width: | Height: | Size: 7.4 KiB After Width: | Height: | Size: 7.4 KiB |
|
Before Width: | Height: | Size: 12 KiB After Width: | Height: | Size: 12 KiB |
|
Before Width: | Height: | Size: 14 KiB After Width: | Height: | Size: 14 KiB |
|
Before Width: | Height: | Size: 47 KiB After Width: | Height: | Size: 47 KiB |
|
Before Width: | Height: | Size: 92 KiB After Width: | Height: | Size: 92 KiB |
|
Before Width: | Height: | Size: 162 KiB After Width: | Height: | Size: 162 KiB |
|
Before Width: | Height: | Size: 36 KiB After Width: | Height: | Size: 36 KiB |
|
Before Width: | Height: | Size: 92 KiB After Width: | Height: | Size: 92 KiB |
|
Before Width: | Height: | Size: 15 KiB After Width: | Height: | Size: 15 KiB |
|
Before Width: | Height: | Size: 48 KiB After Width: | Height: | Size: 48 KiB |
|
Before Width: | Height: | Size: 16 KiB After Width: | Height: | Size: 16 KiB |
|
Before Width: | Height: | Size: 15 KiB After Width: | Height: | Size: 15 KiB |
|
Before Width: | Height: | Size: 15 KiB After Width: | Height: | Size: 15 KiB |
|
Before Width: | Height: | Size: 11 KiB After Width: | Height: | Size: 11 KiB |
|
Before Width: | Height: | Size: 13 KiB After Width: | Height: | Size: 13 KiB |
|
Before Width: | Height: | Size: 27 KiB After Width: | Height: | Size: 27 KiB |
|
Before Width: | Height: | Size: 34 KiB After Width: | Height: | Size: 34 KiB |
|
Before Width: | Height: | Size: 17 KiB After Width: | Height: | Size: 17 KiB |
|
Before Width: | Height: | Size: 26 KiB After Width: | Height: | Size: 26 KiB |
|
Before Width: | Height: | Size: 30 KiB After Width: | Height: | Size: 30 KiB |
|
Before Width: | Height: | Size: 12 KiB After Width: | Height: | Size: 12 KiB |
|
Before Width: | Height: | Size: 50 KiB After Width: | Height: | Size: 50 KiB |
|
Before Width: | Height: | Size: 16 KiB After Width: | Height: | Size: 16 KiB |