更新了部分文档

2025-02-17 23:15:43 +08:00 · 2025-02-17 23:15:43 +08:00 · a1003a71a8
parent d1c00dc07b
commit a1003a71a8
4 changed files with 48 additions and 48 deletions
--- a/Day01-20.zip
+++ b/Day01-20.zip
--- a/Day66-80/73.深入浅出pandas-2.md
+++ b/Day66-80/73.深入浅出pandas-2.md
@ -19,12 +19,12 @@ df1
 输出：

 ```
-		语文	数学	英语
-1001    69    80	79
-1002    71	  60	100
-1003    94    81	93
-1004    88	  88	67
-1005    82	  66    60
+        语文  数学  英语
+1001    69    80    79
+1002    71    60    100
+1003    94    81    93
+1004    88    88    67
+1005    82    66    60
 ```

 #### 通过字典创建DataFrame对象
@ -244,10 +244,10 @@ emp2_df = pd.read_sql_table('tb_emp2', engine, index_col='eno')
 ```
    dname  dloc
 dno
-10	会计部	北京
-20	研发部	成都
-30	销售部	重庆
-40	运维部	深圳
+10  会计部  北京
+20  研发部  成都
+30  销售部  重庆
+40  运维部  深圳
 ```

 员工表（`emp_df`），其中`eno`是员工编号，`ename`、`job`、`mgr`、`sal`、`comm`和`dno`分别代表员工的姓名、职位、主管编号、月薪、补贴和部门编号。
@ -255,20 +255,20 @@ dno
 ```
        ename    job        mgr      sal     comm    dno
 eno
-1359	胡一刀    销售员	   3344.0	1800	200.0	30
-2056	乔峰	    分析师	    7800.0	 5000	 1500.0	 20
-3088	李莫愁	   设计师	   2056.0	3500	800.0	20
-3211	张无忌	   程序员	   2056.0	3200	NaN     20
-3233	丘处机	   程序员	   2056.0	3400	NaN	    20
-3244	欧阳锋	   程序员	   3088.0	3200	NaN     20
-3251	张翠山	   程序员	   2056.0	4000	NaN	    20
-3344	黄蓉	    销售主管   7800.0	3000	800.0	30
-3577	杨过	    会计	     5566.0	  2200	  NaN	  10
-3588	朱九真	   会计	    5566.0	 2500	 NaN	 10
-4466	苗人凤	   销售员	   3344.0	2500	NaN	    30
-5234	郭靖	    出纳	     5566.0	  2000	  NaN	  10
-5566	宋远桥	   会计师	   7800.0	4000	1000.0	10
-7800	张三丰	   总裁	    NaN      9000	 1200.0	 20
+1359    胡一刀    销售员      3344.0    1800    200.0    30
+2056    乔峰      分析师      7800.0    5000    1500.0   20
+3088    李莫愁    设计师      2056.0    3500    800.0    20
+3211    张无忌     程序员     2056.0    3200    NaN     20
+3233    丘处机     程序员     2056.0    3400    NaN     20
+3244    欧阳锋     程序员     3088.0    3200    NaN     20
+3251    张翠山     程序员     2056.0    4000    NaN     20
+3344    黄蓉      销售主管    7800.0    3000    800.0   30
+3577    杨过      会计       5566.0    2200     NaN     10
+3588    朱九真     会计       5566.0    2500    NaN     10
+4466    苗人凤     销售员     3344.0    2500    NaN     30
+5234    郭靖       出纳      5566.0    2000    NaN      10
+5566    宋远桥     会计师     7800.0    4000    1000.0   10
+7800    张三丰     总裁       NaN      9000    1200.0    20
 ```

 > **说明**：在数据库中`mgr`和`comm`两个列的数据类型是`int`，但是因为有缺失值（空值），读取到`DataFrame`之后，列的数据类型变成了`float`，因为我们通常会用`float`类型的`NaN`来表示空值。
@ -335,12 +335,12 @@ emp_df.head()

 ```
        ename    job    mgr    sal    comm  dno
-eno						
-1359	胡一刀   销售员	3344   1800  200   30
-2056	乔峰	   分析师	 7800   5000  1500	20
-3088	李莫愁	  设计师	2056   3500  800   20
-3211	张无忌	  程序员	2056   3200  NaN   20
-3233	丘处机	  程序员	2056   3400	 NaN   20
+eno
+1359    胡一刀   销售员   3344   1800   200   30
+2056    乔峰     分析师   7800   5000   1500  20
+3088    李莫愁    设计师   2056   3500  800   20
+3211    张无忌    程序员   2056   3200  NaN   20
+3233    丘处机    程序员   2056   3400  NaN   20
 ```

 ### 操作数据
@ -422,13 +422,13 @@ emp_df.loc[2056:3344]
 ```
        ename    job        mgr      sal     comm    dno
 eno
-2056	乔峰	    分析师	    7800.0	 5000	 1500.0	 20
-3088	李莫愁	   设计师	   2056.0	3500	800.0	20
-3211	张无忌	   程序员	   2056.0	3200	NaN     20
-3233	丘处机	   程序员	   2056.0	3400	NaN	    20
-3244	欧阳锋	   程序员	   3088.0	3200	NaN     20
-3251	张翠山	   程序员	   2056.0	4000	NaN	    20
-3344	黄蓉	    销售主管   7800.0	3000	800.0	30
+2056    乔峰      分析师     7800.0    5000    1500.0   20
+3088    李莫愁    设计师     2056.0    3500    800.0    20
+3211    张无忌    程序员     2056.0    3200    NaN      20
+3233    丘处机    程序员     2056.0    3400    NaN      20
+3244    欧阳锋    程序员     3088.0    3200    NaN      20
+3251    张翠山    程序员     2056.0    4000    NaN      20
+3344    黄蓉     销售主管    7800.0    3000    800.0    30
 ```

 #### 数据筛选
@ -444,10 +444,10 @@ emp_df[emp_df.sal > 3500]
 ```
        ename    job        mgr      sal     comm    dno
 eno
-2056	乔峰	    分析师	    7800.0	 5000	 1500.0	 20
-3251	张翠山	   程序员	   2056.0	4000	NaN	    20
-5566	宋远桥	   会计师	   7800.0	4000	1000.0	10
-7800	张三丰	   总裁	    NaN      9000	 1200.0	 20
+2056    乔峰      分析师      7800.0   5000    1500.0    20
+3251    张翠山    程序员      2056.0    4000    NaN      20
+5566    宋远桥    会计师      7800.0    4000    1000.0   10
+7800    张三丰    总裁        NaN      9000    1200.0    20
 ```

 当然，我们也可以组合多个条件来进行数据筛选，例如从`emp_df`中筛选出月薪超过`3500`且部门编号为`20`的员工，代码如下所示。
@ -461,9 +461,9 @@ emp_df[(emp_df.sal > 3500) & (emp_df.dno == 20)]
 ```
        ename    job        mgr      sal     comm    dno
 eno
-2056	乔峰	    分析师	    7800.0	 5000	 1500.0	 20
-3251	张翠山	   程序员	   2056.0	4000	NaN	    20
-7800	张三丰	   总裁	    NaN      9000	 1200.0	 20
+2056    乔峰      分析师      7800.0   5000   1500.0    20
+3251    张翠山     程序员     2056.0   4000    NaN       20
+7800    张三丰     总裁       NaN      9000   1200.0    20
 ```

 除了使用布尔索引，`DataFrame`对象的`query`方法也可以实现数据筛选，`query`方法的参数是一个字符串，它代表了筛选数据使用的表达式，而且更符合 Python 程序员的使用习惯。下面我们使用`query`方法将上面的效果重新实现一遍，代码如下所示。
--- a/Day81-90/89.自然语言处理入门.md
+++ b/Day81-90/89.自然语言处理入门.md
@ -163,7 +163,7 @@ $$
 \text{Cosine Similarity}(\mathbf{A}, \mathbf{B}) = \frac{\mathbf{A} \cdot \mathbf{B}}{\lVert \mathbf{A} \rVert \lVert \mathbf{B} \rVert}
 $$

-其中，$\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量，$\small{\cdot}$ 是向量的点积运算，$\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间，值越大表示两个词越相似，越小则表示越不相似。
+其中， $\small{\mathbf{A}}$ 和 $\small{\mathbf{B}}$ 是两个词的词向量， $\small{\cdot}$ 是向量的点积运算， $\small{\lVert \mathbf{A} \rVert}$ 和 $\small{\lVert \mathbf{B} \rVert}$ 是它们的模长。余弦相似度的值介于 -1 到 1 之间，值越大表示两个词越相似，越小则表示越不相似。

 另一方面，我们可以研究词向量的空间关系并完成一些有趣的运算。例如，如果我们想知道`'king'`（国王）和`'queen'`（王后）之间的关系，可以通过这样的方式来探索：

--- a/README.md
+++ b/README.md
@ -784,7 +784,7 @@ Python在以下领域都有用武之地。
 1. 模型评估
 1. 模型部署

-### Day91~100 - [团队项目开发](./Day91-100)
+### Day91~99 - [团队项目开发](./Day91-100)

 #### 第91天：[团队项目开发的问题和解决方案](./Day91-100/91.团队项目开发的问题和解决方案.md)

@ -1024,11 +1024,11 @@ Python在以下领域都有用武之地。
 5. 数据分析
 6. 项目相关

-#### 第100天：[补充内容](./Day91-100/100.补充内容.md)
+### 第100天 - [补充内容](./Day91-100/100.补充内容.md)

 - 面试宝典
    - Python 面试宝典
-    - 数据分析师 SQL 面试宝典
+    - SQL 面试宝典（数据分析师）
    - 商业分析面试宝典
    - 机器学习面试宝典