2.16 index 修正

2.16 index 修正
This commit is contained in:
CoderOverflow 2019-04-12 11:17:37 +08:00 committed by GitHub
parent 2186ee5ba7
commit 6c2e85bd2f
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23
1 changed files with 5 additions and 5 deletions

View File

@ -1271,7 +1271,7 @@ TPR = TP/(TP+FN) = 0.5 FPR = FP/(TN+FP) = 0
计算上图的AUC为0.88与计算正例与排在负例前面的概率0.6 × 1 + 0.2 × 0.8 + 0.2 × 0.6 = 0.88相等左上角阴影部分的面积是负例排在正例前面的概率0.2 × 0.2 × 3 = 0.12。
### 2.16.18 代价敏感错误率与代价曲线
### 2.16.17 代价敏感错误率与代价曲线
不同的错误会产生不同代价。以二分法为例,设置代价矩阵如下:
@ -1311,13 +1311,13 @@ $$
![](./img/ch2/2.16.18.1.png)
### 2.16.19 模型有哪些比较检验方法
### 2.16.18 模型有哪些比较检验方法
正确性分析:模型稳定性分析,稳健性分析,收敛性分析,变化趋势分析,极值分析等。
有效性分析:误差分析,参数敏感性分析,模型对比检验等。
有用性分析:关键数据求解,极值点,拐点,变化趋势分析,用数据验证动态模拟等。
高效性分析:时空复杂度分析与现有进行比较等。
### 2.16.21 为什么使用标准差?
### 2.16.19 为什么使用标准差?
方差公式为:$S^2_{N}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}$
@ -1332,13 +1332,13 @@ $$
3、在样本数据大致符合正态分布的情况下标准差具有方便估算的特性66.7%的数据点落在平均值前后1个标准差的范围内、95%的数据点落在平均值前后2个标准差的范围内而99%的数据点将会落在平均值前后3个标准差的范围内。
### 2.16.25 类别不平衡产生原因?
### 2.16.20 类别不平衡产生原因?
类别不平衡class-imbalance是指分类任务中不同类别的训练样例数目差别很大的情况。
产生原因:
分类学习算法通常都会假设不同类别的训练样例数目基本相同。如果不同类别的训练样例数目差别很大则会影响学习结果测试结果变差。例如二分类问题中有998个反例正例有2个那学习方法只需返回一个永远将新样本预测为反例的分类器就能达到99.8%的精度;然而这样的分类器没有价值。
### 2.16.26 常见的类别不平衡问题解决方法
### 2.16.21 常见的类别不平衡问题解决方法
  防止类别不平衡对学习造成的影响,在构建分类模型之前,需要对分类不平衡性问题进行处理。主要解决方法有:
1、扩大数据集