言語モデル

Last updated Unknown Edit Source

自然言語処理

の講義

言語モデルの定義の一つ: 文の「もっともらしさ」を評価する
- 音声認識とかのいくつかの認識結果候補から一つを選ぶのにも使える
確率的言語モデル
- 「[[文]]」の数学的表現
  - 文s = ~~hello world~~
    - は、文頭/文末を表す単語的存在
- ↑を用いて、文らしさを評価
  - P(a|b)は、bが来たあとのaの単語出現確率
  - P(~~) * P(hello | ~~) * P(world | ~~hello) * P(~~ | ~~hello world)~~~~~~
  - ~~各単語について、それ以前の文章から考えてその単語がどのくらいありうるかを評価~~
  - P(a|b)をどうするか
    最尤推定
    コーパスの出現頻度で簡単に計算できる
    低頻度な現象には弱い
    0を返されるとP(a|b)の総乗が0になってしまう
    n-gramによる近似
    単語以前の全てではなく、単語以前のn単語のみを用いて最尤推定
    nが小さいほど、低頻度な物に強くなる
    nが多いほど長い文脈を考慮できる
    トレードオフ
    
    トレードオフ
    
     https://twitter.com/yam_eye/status/1274161755090907136?s=21 二つの相反する要素のどちらを取るか、あるいはその良い妥協点はどこか、と言うようなフレーミングはしばしば現状肯定的である。イノベーションは大抵その線上にはない。もトレードオフを壊す的な発想 ...
    
    1/3/2023
    
    機械翻訳n=4 (4-gram)までが一般的
    ニューラルネットワーク
    
    ニューラルネットワーク
    
    基本の回帰モデルを表すと↑になるこれの層を増やしたり、間のユニットを増やすことで学習各矢印が、重みwを持っている、全部違う値学習によって調整されるそれだけだとただの回帰と同じ、だから、やを使ってフィルターをかけるみたいに、して重みを0に近づけることもできるデフォルトはほとんど正則化しない最初は、乱数で重みを決める学習した内容の解析が難しい、やる方法の一つは重みのヒートマップをみることパラメーター学習のには、や等が初心者向けにある #Pythonで始める機械学習モデルが完成したら、実際にする時はこの計算をすればいいだけ、簡単（xが入力、Wが各層の重み、yが出力、σが）一つの層のたくさんあるのうち、一つがめっちゃ影響力強くなっちゃうことがあるそれを避けるために、ランダムにdropoutする ...
    
    1/3/2023
    
    による推定
    RNN
    
    RNN
    
    https://www.imagazine.co.jp/再帰型ニューラルネットワークの%E3%80%8C基礎の基礎%E3%80%8D/ ニューラルネットワークが二つの目的を持って最適化される感じかな出力層は、普通に結果の損失関数を小さくするように訓練されていく ...
    
    1/3/2023
    
    に突っ込む
~~言語モデルは、尤もらしさ等を測る上で単語間の繋がりの情報を保持している~~
- ~~つまり、言語モデルは文章等をベクトルにエンコード/デコードする物とも定義できる?~~
~~ニューラルネットワーク~~

ニューラルネットワーク

基本の回帰モデルを表すと↑になるこれの層を増やしたり、間のユニットを増やすことで学習各矢印が、重みwを持っている、全部違う値学習によって調整されるそれだけだとただの回帰と同じ、だから、やを使ってフィルターをかけるみたいに、して重みを0に近づけることもできるデフォルトはほとんど正則化しない最初は、乱数で重みを決める学習した内容の解析が難しい、やる方法の一つは重みのヒートマップをみることパラメーター学習のには、や等が初心者向けにある #Pythonで始める機械学習モデルが完成したら、実際にする時はこの計算をすればいいだけ、簡単（xが入力、Wが各層の重み、yが出力、σが）一つの層のたくさんあるのうち、一つがめっちゃ影響力強くなっちゃうことがあるそれを避けるために、ランダムにdropoutする ...

1/3/2023

による言語モデル

言語モデル

 の講義言語モデルの定義の一つ: 文の「」を評価するとかのいくつかの認識結果候補から一つを選ぶのにも使える「[[文]]」の数学的表現文s =...

1/3/2023
- RNN
  
  RNN
  
  https://www.imagazine.co.jp/再帰型ニューラルネットワークの%E3%80%8C基礎の基礎%E3%80%8D/ ニューラルネットワークが二つの目的を持って最適化される感じかな出力層は、普通に結果の損失関数を小さくするように訓練されていく ...
  
  1/3/2023
  
  に突っ込んでembedding (エンコード)
  出力はSoftmax
  
  Softmax
  
  なぜこれ？出力の合計が1になるようにしたいので、総和の分数として表現するまた、入力のzの値がなんであっても正になってほしいので、 $e^z$ にする結果はベクトルと同じフォーマット one-hotベクトルは、softmaxの出力としてみれば実質一つの確率が100%だと言っているので ...
  
  1/3/2023
  
  で0~1に正規化
- Attention機構
  
  Attention機構
  
  とは【深層学習】Attention機構とは何のか？ | DenDenBlog データのどこに注目するかを推論入力: contextと、注目度を評価したいデータ群それぞれの非線形関数に(context + データの一つ)を入力して、重要度が出力される様に訓練する出力: それぞれのデータの相対的重要さこれを、とかとかと組み合わせる方法が今まで使われていたは、組み合わせる必要すらねぇと言っている? ...
  
  1/3/2023
  
  長い文になると、各単語が出力ベクトルに与える影響が小さくなってしまう
  出力ベクトルのサイズは固定
  アテンションの重みを計算して、重要な単語を強く反映させる
- Transformer
  
  Transformer
  
  理解したい ...
  
  1/3/2023
  
  RNN
  
  RNN
  
  https://www.imagazine.co.jp/再帰型ニューラルネットワークの%E3%80%8C基礎の基礎%E3%80%8D/ ニューラルネットワークが二つの目的を持って最適化される感じかな出力層は、普通に結果の損失関数を小さくするように訓練されていく ...
  
  1/3/2023
  
  の再帰を無くして、注意機構のみでエンコード/デコード
- ~~ベクトルへのエンコードと、その別言語によるデコードができれば機械翻訳が出来る~~
~~GPT-3~~

GPT-3

のデコーダを使用が作った (のv3) めっちゃ巨大なモデルというコーパス、、等を使っている巨大ながあると、同じ文が繰り返し出るのを防げる = 文を覚えたりしないで訓練できるを他の様々なタスクにも応用 (どうやって?) タスクのタイプ ...

1/3/2023

, BERT

BERT

のエンコーダを活用より遥かに小さいが、はGPT3より得意...

1/3/2023

などはTransformer

Transformer

理解したい ...

1/3/2023

の応用
~~Pre-trained言語モデル~~
- 様々なタスクに適応できる言語モデル
  
  言語モデル
  
   の講義言語モデルの定義の一つ: 文の「」を評価するとかのいくつかの認識結果候補から一つを選ぶのにも使える「[[文]]」の数学的表現文s =...
  
  1/3/2023
- 大規模モデルはメンテナンス等にコストかかり、扱いにくい
  専用の小さいモデルと比べて、この点がデメリット
- ~~軽量なモデル(DistillBERTとか)も作られている~~
~~人間の言語能力が強い言語モデルよりすごい理由~~

人間の言語能力が強い言語モデルよりすごい理由

 の能力が等の強いよりもすごい理由人間は全Webテキストなど読んでいないのに言語能力を獲得している人間はどの言語的タスクでも大きな差はない、GPT-3は得意なタスクと苦手なタスクがあるこれは、「人間ができるもの」を「言語的タスク」と設定しているからでは? ...

1/3/2023

Bluemo's Brain

言語モデル

自然言語処理

トレードオフ

ニューラルネットワーク

RNN

ニューラルネットワーク

言語モデル

RNN

Softmax

Attention機構

Transformer

RNN

GPT-3

BERT

Transformer

言語モデル

人間の言語能力が強い言語モデルよりすごい理由

Backlinks

自然言語処理

言語モデル

Interactive Graph