更新了README文件
This commit is contained in:
parent
95fac2280a
commit
b9b170ae0e
|
|
@ -252,7 +252,7 @@ Word2Vec 虽然已经帮助我们掌握了词与词之间的联系,但是由
|
|||
|
||||
为了解决传统 RNN 中的梯度消失和梯度爆炸问题,研究人员又提出了**长短期记忆**(LSTM) 和**门控循环单元**(GRU)等改进算法。LSTM 和 GRU 都引入了门控机制,允许模型控制信息的流动和遗忘,从而有效防止了梯度消失问题,可以捕捉长时间序列的依赖关系。但是,LSTM 和 GRU 仍然存在计算效率低、训练速度慢的问题,且无法进行并行化训练的问题。
|
||||
|
||||
### Seq2Seq模型
|
||||
### Seq2Seq
|
||||
|
||||
起初,研究人员尝试用一个独立的 RNN 来解决机器翻译、文本摘要、语音识别等 NLP 任务,但是发现效果并不理想。主要原因是 RNN 在同时处理输入和输出序列时,既要负责编码又要负责解码,所以很容易出现信息损失。后来,谷歌提出了 Seq2Seq 模型,核心思想是通过学习输入与输出序列之间的映射关系,从而实现序列到序列的转换。Seq2Seq 模型通常包含一个**编码器**和一个**解码器**,编码器通常由 RNN 或其变体构成(LSTM、GRU等)构成,其主要任务是读取输入序列并将其转换成上下文向量,上下文向量包含了整个输入序列的语义信息,并作为解码器生成输出的基础;解码器通常也是由 RNN 或其变体构成,其主要任务是根据上下文向量生成目标序列。Seq2Seq 模型的结构如下图所示。
|
||||
|
||||
|
|
@ -260,7 +260,7 @@ Word2Vec 虽然已经帮助我们掌握了词与词之间的联系,但是由
|
|||
|
||||
简单的 Seq2Seq 模型将整个输入序列的信息压缩到一个固定大小的上下文向量中,这可能导致信息丢失,尤其是在处理长序列时。**注意力机制**是 Seq2Seq 模型的一个重要扩展,通过在每个解码步骤中动态的对编码器输出的不同部分进行加权求和,允许解码器在生成每个词时能够关注输入序列中的相关部分。这样,模型能够根据当前的解码需求自动“聚焦”在输入的某个子部分,而不是依赖于一个固定大小的上下文向量。
|
||||
|
||||
### Transformer概述
|
||||
### Transformer
|
||||
|
||||
为了进一步克服 LSTM、GRU 等模型在长序列建模中的局限,2017 年谷歌大脑(Google Brain)团队的 Vaswani 等人在其论文 [*Attention Is All You Need*](https://proceedings.neurips.cc/paper_files/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf) 中提出了 **Transformer** 架构,这个架构迅速成为 NLP 领域的主流方法,彻底改变了这个领域的生态,大名鼎鼎的 GPT 和 BERT 都是基于 Transformer 架构的。Transformer 的核心是**自注意力机制**(Self-Attention),它能够为输入序列中的每个元素分配不同的权重,从而更好的捕捉序列内部的依赖关系。此外,Transformer 摒弃了 RNN 和 LSTM 中的循环结构,采用了全新的编码器-解码器架构,这种设计使得模型可以并行处理输入数据,进一步加速训练的过程。除了 NLP 领域,Transformer 在计算机视觉、语音识别等领域也取得了显著的成果。
|
||||
|
||||
|
|
|
|||
Loading…
Reference in New Issue