Bluemo's Brain

Search

Search IconIcon to open search

特徴量エンジニアリング

Last updated Unknown Edit Source

    • データーの表現の形を模索すること

    • データサイエンティストの重要な仕事

    • パラメーターの調整より重要なこともある

    • One-Hot

      One-hot

      one-hot ベクトル: (0,...,1,...,0)(0,...,1,...,0)みたいな形式で値を表現する ...

      1/3/2023

      • 例: job変数の値が{student, engineer, chef}の三種の場合、One-hotで{1,0,0}のように表す
      • それぞれに数字が割り当てられてる場合もある、それでも連続値ではない(順番に意味がない)から、そのまま数値として扱わないように注意
    • %e9%9b%a2%e6%95%a3%e5%8c%96">[ビニング]

      • 連続値を区切って、クラスにする
    • 多項式特徴量

      • 線形モデル

        線形モデル

        線形モデルは、多次元のデーターに対しては非常に強力 つまり、に注意する必要がある () p67に良くまとまっている パラメーターは、アルファorCの調整が重要 線形モデルは、基本的に非常に高速、予測も高速 予測手法がわかりやすい ...

        1/3/2023

        とかだと、xというパラメーターがあった時にx^2,x^3とかも追加すると曲線で分離できる
      • 決定木とかだとむしろ性能下げるかも
      • 累乗だけではなく、sin, cos, logとかも使える
        • ベルカーブを描くデーターだとよく学習できるから、それに変形するために使ったり
    • 自動特徴量選択

      • 役に立つ特徴量を自動で選んで特徴量の数を減らすと、汎化性能が上がる
        • 統計的な相関が高いやつを選ぶとか
        • モデルを学習させて、そのモデルから特徴量の重要度を得て、重要だった特徴量を使ってさらに学習するとか
        • ↑を繰り返すとか
    • 専門家の知識を使う

      • 統計データーからじゃ読み取れないけど、人間ならわかる知識もある
      • それを考慮しながら特徴量

        特徴量

        パターン認識 表現法によって、の次元やパターンの分布も変化 ex: 画像を全ピクセルのベクトルではなく、 色合いのヒストグラムを特徴にする ...

        1/3/2023

        エンジニアリングをしていく #Pythonで始める機械学習