Attention is all you need
Transformerの提案
前提:
- Attention機構
Attention機構
とは 【深層学習】Attention機構とは何のか? | DenDenBlog データのどこに注目するかを推論 入力: contextと、注目度を評価したいデータ群 それぞれの非線形関数に(context + データの一つ)を入力して、重要度が出力される様に訓練する 出力: それぞれのデータの相対的重要さ これを、とかとかと組み合わせる方法が今まで使われていた は、組み合わせる必要すらねぇと言っている? ...
- Encoder-Decoderモデル
Encoder-Decoderモデル
https://cvml-expertguide.net/terms/dl/encoder-decoder/ に書いたような話っぽい 系列データ間のEncoder-Decoderは,当初[seq2seq]モデルと名付けられ,その後,アテンション中心の構成のTransformerへと発展した. ...
- Attention機構
Autoencoderの機構
AI界を席巻する「Transformer」をゆっくり解説(2日目) ~Introduction / Background編~
- RNN
RNN
https://www.imagazine.co.jp/再帰型ニューラルネットワークの%E3%80%8C基礎の基礎%E3%80%8D/ ニューラルネットワークが二つの目的を持って最適化される感じかな 出力層は、普通に結果の損失関数を小さくするように訓練されていく ...
Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する | AI専門ニュースメディア AINOW
- わかりやすい
- Self Attention
- その単語を理解する上で大事な周辺単語への注目を推論する
自然言語処理の必須知識 Transformer を徹底解説! | DeepSquare
- 分からない事
Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。
エンコーダ-デコーダモデル Attention Position-wise全結合層 文字の埋め込みとソフトマックス 位置エンコーディング