Attention is all you need
Transformerの提案
前提:
Autoencoderの機構
AI界を席巻する「Transformer」をゆっくり解説(2日目) ~Introduction / Background編~
- RNNの記憶力弱いのに対して、Transformerは強い、と AI界を席巻する「Transformer」をゆっくり解説(3日目) ~Model Architecture編 1~
Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する | AI専門ニュースメディア AINOW
- わかりやすい
- Self Attention
- その単語を理解する上で大事な周辺単語への注目を推論する
自然言語処理の必須知識 Transformer を徹底解説! | DeepSquare
- 分からない事
- Encoder-Decoderモデルの構造とどう対応しているのかが分からない
Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。
エンコーダ-デコーダモデル Attention Position-wise全結合層 文字の埋め込みとソフトマックス 位置エンコーディング