Bluemo's Brain

Search

Search IconIcon to open search

自然言語処理

Last updated Unknown Edit Source

    • Encodingの歴史
      • LV1 One-hot vector = 0,0,0,1,0,0,0 (only one 1 (hot))
      • LV2 Tf-idf = appear frequently globally => not important & apper frequently locally => important
      • LV3 Word2vec = x,x,x king - distance(male,female) (includes some essence tf-idf
      • LV4 BERT
        • BERT can’t understand he/she (pronouns)
          • But, it 推測 from surrounding other words (word sense disambiguation)

    https://ishitonton.hatenablog.com/entry/2018/11/25/200332

    • embeddingについて

    情報科学の達人.icon - 言語学情報科学が重なる分野 - アプローチ - 人間が言語の入力/出力を行う仕組みを知りたい - 脳科学とか使わないと脳の情報処理はわからない - なので、観測可能な言語を通じて仕組みを探る
    • やることの一部

    • ただの言語の処理だけではない

      • 言語が持つ意味、知識、感情等、人間の知能に関わる深いところまで繋がる
      • blu3mo.icon イメージ以上に広い分野
    • 方法論

      • 文字列として処理はできない (ケヤキとケーキは文字列としては近い、意味的には全然違う)

      • 意味をどのように扱うか

        • 意味とは?: 人間が同値性を判定できるもの
        • (頭の中の処理は観察できないので、観察できる同値性の判定を用いる)
      • 離散構造」と「連続的規則性」をどう組み合わせるか

        • 自然言語の構造は、正誤がはっきりしている = 離散値構造的な規則性がある
          • ex: 画像とかなら一ピクセル変えてもそんなに影響ない、でも自然言語で一文字変えると大きな問題
        • ただ、あいまい性、不確実性もある (統計的、連続値的な性質)
          • 言語のあいまい性と直結
        • つまり、離散的・連続的の複合的な性質を持つ
      • 何をコーパスから学ぶか

      • 技術として一番よく使うのはやはり機械学習

    • 構文解析

      • 文章の構文を理解する技術
      • 詳しく↑に書いた
    • 意味解析

      • 文章/単語の意味を理解する技術
      • 詳しく↑に書いた