日本語と英語の情報量per文字
一般的に、英語1語=日本語2文字と言われている
英語は26文字に対して日本語はもっとたくさん文字がある
- これで英語一単語と日本語一文字の情報量
情報量
https://logics-of-blue.com/information-theory-basic/ なぜなのかが分かりやすい > 以下の2つの要請を満たす「情報量」を定義しましょう。 > 1:発生する確率が低いこと(珍しいこと)が分かった時のほうが、情報量が多い >...
- あと日本語の文字の使用頻度は当然均一ではないし、どこまで含むと英語n語=日本語2n文字と釣り合うのかも気になる
- これで英語一単語と日本語一文字の情報量
平均英単語文字数
- https://www.researchgate.net/figure/Average-word-length-in-the-English-language-Different-colours-indicate-the-results-for_fig1_230764201
- Average word length in the English language. Different colours indicate the results for the common and fiction bases, and also for British and American bases separately
- とりあえず4.5でいいや
- なので、英語2.25文字=日本語1文字 4.5/2
平均情報量per文字
- 英語 -log(1/26)= 4.7
- 日本語 -log(1/
これMath IAのネタになるかも
- ただシラバス外なので怖い
#実装するかも