RNN
- https://www.imagazine.co.jp/再帰型ニューラルネットワークの%E3%80%8C基礎の基礎%E3%80%8D/
- ニューラルネットワークが二つの目的を持って最適化される感じかな
- 出力層は、普通に結果の損失関数を小さくするように訓練されていく
- 中間層は、上手く次の時刻に渡せるデータを生み出せる様に訓練されていく感じ?
Search
講義 普通に考えると、感覚から動作へのマップを作ろうと思ってしまう 例: ものを掴むの場合、視界の画像を与えられて、それにどういう運動をするのかという学習をしてしまいがち しかし、動作したことによって自分自身の状態・感覚が変わってしまうことも多い(これが本質であることも) 自分がしているもの全て(環境だけではなく、自分自身の感覚()含む)を全て予測していく、という考え方が有効 #身体知 どういう制御をするとどう動くのか、というのも予測の一部 どう動くとどう物体が反応するのか、というのも予測の一部 end-to-end、一気に全部やっちゃおう それらをそれぞれ頑張って理論ベースで計算するのも可能だけど、めっちゃ複雑・大変 どう学習するのか 環境全て(自分自身含む)のデータを与える データは人間の操作とかで集める? そのシーケンスデータを学習し、ロボットが次の瞬間の環境を予測できるようにする の範囲はどこまでか、という的議論とも繋がる 予測学習したロボットは、すごい自己の範囲が狭い物となる 自己は自分の「意思」(=予測データ)のみ、それ以外は全て非自己(環境) 予測学習は、普通の[ニューラルネットワーク]])だときつい? 一コマ前の状態だけから予測するのは大変 例えば往復運動している物体を予測する場合、 あるコマが往路なのか復路なのかは分からない なので、が良い(を持たせられるので) 応用例 ...
...* P( | hello world) 各単語について、それ以前の文章から考えてその単語がどのくらいありうるかを評価 P(a|b)をどうするか の出現頻度で簡単に計算できる 低頻度な現象には弱い 0を返されるとP(a|b)の総乗が0になってしまう による近似 単語以前の全てではなく、単語以前のn単語のみを用いて nが小さいほど、低頻度な物に強くなる nが多いほど長い文脈を考慮できる 機械翻訳n=4 (4-gram)までが一般的 による推定 に突っ込む 言語モデルは、等を測る上で単語間の繋がりの情報を保持している つまり、言語モデルは文章等をにエンコード/デコードする物とも定義できる? による に突っ込んで () 出力はで0~1に正規化 長い文になると、各単語が出力ベクトルに与える影響が小さくなってしまう 出力ベクトルのサイズは固定 アテンションの重みを計算して、重要な単語を強く反映させる のを無くして、注意機構のみでエンコード/デコード ベクトルへのエンコードと、その別言語によるデコードができればが出来る , などはの応用 言語モデル 様々なタスクに適応できる 大規模モデルはメンテナンス等にコストかかり、扱いにくい 専用の小さいモデルと比べて、この点がデメリット 軽量なモデル(とか)も作られている......
...https://arxiv.org/abs/1706.03762 の提案 深層学習界の大前提Transformerの論文解説! - Qiita 前提: の機構 AI界を席巻する「Transformer」をゆっくり解説(2日目) ~Introduction / Background編~ の記憶力弱いのに対して、Transformerは強い、と AI界を席巻する「Transformer」をゆっくり解説(3日目) ~Model Architecture編 1~ Transformer解説:GPT-3、BERT、T5の背後にあるモデルを理解する | AI専門ニュースメディア AINOW わかりやすい その単語を理解する上で大事な周辺単語への注目を推論する 自然言語処理の必須知識 Transformer を徹底解説! | DeepSquare 分からない事 の構造とどう対応しているのかが分からない Transformerは基本的な大枠はエンコーダ-デコーダモデルでself-attention層とPosition-wise全結合層を使用していることが特徴。 つまり、以下の3つ(+2つ)のことが分かればモデル構造が理解できる ので順に説明していく。 > エンコーダ-デコーダモデル Attention Position-wise全結合層 文字の埋め込みとソフトマックス......