Attention機構
とは
データのどこに注目するかを推論
入力: contextと、注目度を評価したいデータ群
- それぞれの非線形関数に(context + データの一つ)を入力して、重要度が出力される様に訓練する
出力: それぞれのデータの相対的重要さ
これを、CNNとかLSTMとかと組み合わせる方法が今まで使われていた
- Attention is all you need
Attention is all you need
原著 https://arxiv.org/abs/1706.03762 の提案 深層学習界の大前提Transformerの論文解説! - Qiita 前提: の機構 AI界を席巻する「Transformer」をゆっくり解説(2日目) ~Introduction / Background編~ の記憶力弱いのに対して、Transformerは強い、と AI界を席巻する「Transformer」をゆっくり解説(3日目) ~Model Architecture編 1~ Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する | AI専門ニュースメディア...
- Attention is all you need