トレードオフ
https://twitter.com/yam_eye/status/1274161755090907136?s=21
二つの相反する要素のどちらを取るか、あるいはその良い妥協点はどこか、と言うようなフレーミングはしばしば現状肯定的である。イノベーションは大抵その線上にはない。
kineto
kineto
プロジェクト関連ページは、 #pKineto にまとめる ...
Search
https://twitter.com/yam_eye/status/1274161755090907136?s=21
二つの相反する要素のどちらを取るか、あるいはその良い妥協点はどこか、と言うようなフレーミングはしばしば現状肯定的である。イノベーションは大抵その線上にはない。
kineto
プロジェクト関連ページは、 #pKineto にまとめる
...kineto
...* P( | hello world) 各単語について、それ以前の文章から考えてその単語がどのくらいありうるかを評価 P(a|b)をどうするか の出現頻度で簡単に計算できる 低頻度な現象には弱い 0を返されるとP(a|b)の総乗が0になってしまう による近似 単語以前の全てではなく、単語以前のn単語のみを用いて nが小さいほど、低頻度な物に強くなる nが多いほど長い文脈を考慮できる 機械翻訳n=4 (4-gram)までが一般的 による推定 に突っ込む 言語モデルは、等を測る上で単語間の繋がりの情報を保持している つまり、言語モデルは文章等をにエンコード/デコードする物とも定義できる? による に突っ込んで () 出力はで0~1に正規化 長い文になると、各単語が出力ベクトルに与える影響が小さくなってしまう 出力ベクトルのサイズは固定 アテンションの重みを計算して、重要な単語を強く反映させる のを無くして、注意機構のみでエンコード/デコード ベクトルへのエンコードと、その別言語によるデコードができればが出来る , などはの応用 言語モデル 様々なタスクに適応できる 大規模モデルはメンテナンス等にコストかかり、扱いにくい 専用の小さいモデルと比べて、この点がデメリット 軽量なモデル(とか)も作られている......