更新了部分文档
This commit is contained in:
parent
d1c00dc07b
commit
a1003a71a8
BIN
Day01-20.zip
BIN
Day01-20.zip
Binary file not shown.
|
|
@ -19,12 +19,12 @@ df1
|
|||
输出:
|
||||
|
||||
```
|
||||
语文 数学 英语
|
||||
1001 69 80 79
|
||||
1002 71 60 100
|
||||
1003 94 81 93
|
||||
1004 88 88 67
|
||||
1005 82 66 60
|
||||
语文 数学 英语
|
||||
1001 69 80 79
|
||||
1002 71 60 100
|
||||
1003 94 81 93
|
||||
1004 88 88 67
|
||||
1005 82 66 60
|
||||
```
|
||||
|
||||
#### 通过字典创建DataFrame对象
|
||||
|
|
@ -244,10 +244,10 @@ emp2_df = pd.read_sql_table('tb_emp2', engine, index_col='eno')
|
|||
```
|
||||
dname dloc
|
||||
dno
|
||||
10 会计部 北京
|
||||
20 研发部 成都
|
||||
30 销售部 重庆
|
||||
40 运维部 深圳
|
||||
10 会计部 北京
|
||||
20 研发部 成都
|
||||
30 销售部 重庆
|
||||
40 运维部 深圳
|
||||
```
|
||||
|
||||
员工表(`emp_df`),其中`eno`是员工编号,`ename`、`job`、`mgr`、`sal`、`comm`和`dno`分别代表员工的姓名、职位、主管编号、月薪、补贴和部门编号。
|
||||
|
|
@ -255,20 +255,20 @@ dno
|
|||
```
|
||||
ename job mgr sal comm dno
|
||||
eno
|
||||
1359 胡一刀 销售员 3344.0 1800 200.0 30
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3088 李莫愁 设计师 2056.0 3500 800.0 20
|
||||
3211 张无忌 程序员 2056.0 3200 NaN 20
|
||||
3233 丘处机 程序员 2056.0 3400 NaN 20
|
||||
3244 欧阳锋 程序员 3088.0 3200 NaN 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
3344 黄蓉 销售主管 7800.0 3000 800.0 30
|
||||
3577 杨过 会计 5566.0 2200 NaN 10
|
||||
3588 朱九真 会计 5566.0 2500 NaN 10
|
||||
4466 苗人凤 销售员 3344.0 2500 NaN 30
|
||||
5234 郭靖 出纳 5566.0 2000 NaN 10
|
||||
5566 宋远桥 会计师 7800.0 4000 1000.0 10
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
1359 胡一刀 销售员 3344.0 1800 200.0 30
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3088 李莫愁 设计师 2056.0 3500 800.0 20
|
||||
3211 张无忌 程序员 2056.0 3200 NaN 20
|
||||
3233 丘处机 程序员 2056.0 3400 NaN 20
|
||||
3244 欧阳锋 程序员 3088.0 3200 NaN 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
3344 黄蓉 销售主管 7800.0 3000 800.0 30
|
||||
3577 杨过 会计 5566.0 2200 NaN 10
|
||||
3588 朱九真 会计 5566.0 2500 NaN 10
|
||||
4466 苗人凤 销售员 3344.0 2500 NaN 30
|
||||
5234 郭靖 出纳 5566.0 2000 NaN 10
|
||||
5566 宋远桥 会计师 7800.0 4000 1000.0 10
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
```
|
||||
|
||||
> **说明**:在数据库中`mgr`和`comm`两个列的数据类型是`int`,但是因为有缺失值(空值),读取到`DataFrame`之后,列的数据类型变成了`float`,因为我们通常会用`float`类型的`NaN`来表示空值。
|
||||
|
|
@ -335,12 +335,12 @@ emp_df.head()
|
|||
|
||||
```
|
||||
ename job mgr sal comm dno
|
||||
eno
|
||||
1359 胡一刀 销售员 3344 1800 200 30
|
||||
2056 乔峰 分析师 7800 5000 1500 20
|
||||
3088 李莫愁 设计师 2056 3500 800 20
|
||||
3211 张无忌 程序员 2056 3200 NaN 20
|
||||
3233 丘处机 程序员 2056 3400 NaN 20
|
||||
eno
|
||||
1359 胡一刀 销售员 3344 1800 200 30
|
||||
2056 乔峰 分析师 7800 5000 1500 20
|
||||
3088 李莫愁 设计师 2056 3500 800 20
|
||||
3211 张无忌 程序员 2056 3200 NaN 20
|
||||
3233 丘处机 程序员 2056 3400 NaN 20
|
||||
```
|
||||
|
||||
### 操作数据
|
||||
|
|
@ -422,13 +422,13 @@ emp_df.loc[2056:3344]
|
|||
```
|
||||
ename job mgr sal comm dno
|
||||
eno
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3088 李莫愁 设计师 2056.0 3500 800.0 20
|
||||
3211 张无忌 程序员 2056.0 3200 NaN 20
|
||||
3233 丘处机 程序员 2056.0 3400 NaN 20
|
||||
3244 欧阳锋 程序员 3088.0 3200 NaN 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
3344 黄蓉 销售主管 7800.0 3000 800.0 30
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3088 李莫愁 设计师 2056.0 3500 800.0 20
|
||||
3211 张无忌 程序员 2056.0 3200 NaN 20
|
||||
3233 丘处机 程序员 2056.0 3400 NaN 20
|
||||
3244 欧阳锋 程序员 3088.0 3200 NaN 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
3344 黄蓉 销售主管 7800.0 3000 800.0 30
|
||||
```
|
||||
|
||||
#### 数据筛选
|
||||
|
|
@ -444,10 +444,10 @@ emp_df[emp_df.sal > 3500]
|
|||
```
|
||||
ename job mgr sal comm dno
|
||||
eno
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
5566 宋远桥 会计师 7800.0 4000 1000.0 10
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
5566 宋远桥 会计师 7800.0 4000 1000.0 10
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
```
|
||||
|
||||
当然,我们也可以组合多个条件来进行数据筛选,例如从`emp_df`中筛选出月薪超过`3500`且部门编号为`20`的员工,代码如下所示。
|
||||
|
|
@ -461,9 +461,9 @@ emp_df[(emp_df.sal > 3500) & (emp_df.dno == 20)]
|
|||
```
|
||||
ename job mgr sal comm dno
|
||||
eno
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
2056 乔峰 分析师 7800.0 5000 1500.0 20
|
||||
3251 张翠山 程序员 2056.0 4000 NaN 20
|
||||
7800 张三丰 总裁 NaN 9000 1200.0 20
|
||||
```
|
||||
|
||||
除了使用布尔索引,`DataFrame`对象的`query`方法也可以实现数据筛选,`query`方法的参数是一个字符串,它代表了筛选数据使用的表达式,而且更符合 Python 程序员的使用习惯。下面我们使用`query`方法将上面的效果重新实现一遍,代码如下所示。
|
||||
|
|
|
|||
|
|
@ -163,7 +163,7 @@ $$
|
|||
\text{Cosine Similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\lVert \mathbf{A} \rVert \lVert \mathbf{B} \rVert}
|
||||
$$
|
||||
|
||||
其中,$\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量,$\small{\cdot}$ 是向量的点积运算,$\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间,值越大表示两个词越相似,越小则表示越不相似。
|
||||
其中, $\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量, $\small{\cdot}$ 是向量的点积运算, $\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间,值越大表示两个词越相似,越小则表示越不相似。
|
||||
|
||||
另一方面,我们可以研究词向量的空间关系并完成一些有趣的运算。例如,如果我们想知道`'king'`(国王)和`'queen'`(王后)之间的关系,可以通过这样的方式来探索:
|
||||
|
||||
|
|
|
|||
|
|
@ -784,7 +784,7 @@ Python在以下领域都有用武之地。
|
|||
1. 模型评估
|
||||
1. 模型部署
|
||||
|
||||
### Day91~100 - [团队项目开发](./Day91-100)
|
||||
### Day91~99 - [团队项目开发](./Day91-100)
|
||||
|
||||
#### 第91天:[团队项目开发的问题和解决方案](./Day91-100/91.团队项目开发的问题和解决方案.md)
|
||||
|
||||
|
|
@ -1024,11 +1024,11 @@ Python在以下领域都有用武之地。
|
|||
5. 数据分析
|
||||
6. 项目相关
|
||||
|
||||
#### 第100天:[补充内容](./Day91-100/100.补充内容.md)
|
||||
### 第100天 - [补充内容](./Day91-100/100.补充内容.md)
|
||||
|
||||
- 面试宝典
|
||||
- Python 面试宝典
|
||||
- 数据分析师 SQL 面试宝典
|
||||
- SQL 面试宝典(数据分析师)
|
||||
- 商业分析面试宝典
|
||||
- 机器学习面试宝典
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue