日本語と英語の情報量per文字
一般的に、英語1語=日本語2文字と言われている
英語は26文字に対して日本語はもっとたくさん文字がある
- これで英語一単語と日本語一文字の情報量を比較したら、ちょうど英語n語=日本語2n文字になったりするのかなと
- あと日本語の文字の使用頻度は当然均一ではないし、どこまで含むと英語n語=日本語2n文字と釣り合うのかも気になる
平均英単語文字数
- https://www.researchgate.net/figure/Average-word-length-in-the-English-language-Different-colours-indicate-the-results-for_fig1_230764201
- Average word length in the English language. Different colours indicate the results for the common and fiction bases, and also for British and American bases separately
- とりあえず4.5でいいや
- なので、英語2.25文字=日本語1文字 4.5/2
平均情報量per文字
- 英語 -log(1/26)= 4.7
- 日本語 -log(1/
これMath IAのネタになるかも
- ただシラバス外なので怖い
#実装するかも