さて今回は辞書データを調べて
日本語の単語の数がどうなっているかを
調べてみました。
解説動画はこちら
さて今回使用する辞書データは
こちらのものです
naist-jdic.csv(Mecab用の辞書データ)
(奈良先端科学技術大学院大学 : Nara Institute of Science and Technology)
調べたい方は検索してみてください。
早速これを読み込みします。
48万行ほどあるので
結構な数の単語が載っていますね。
1文字目を取り出して集計してみます。
シ 25156
オ 23427
ア 18293
ト 17947
・・・
「か」で始まる単語が多そうですね。
次はこれを行で数えてみます。
結果は・・・
カ行の単語が一番多く
次いでア行、サ行でした。
前半の方に単語が多く載っていそうです。
ラ行やワ行の言葉は
かなり少ないですね。
何でこんなに偏るのか
日本語の成り立ちが気になっちゃいました。
今回は辞書データを調べて
どの行の単語が多いのか
調べてみました。
それでは。
日本語の単語の数がどうなっているかを
調べてみました。
解説動画はこちら
さて今回使用する辞書データは
こちらのものです
naist-jdic.csv(Mecab用の辞書データ)
(奈良先端科学技術大学院大学 : Nara Institute of Science and Technology)
調べたい方は検索してみてください。
早速これを読み込みします。
import pandas as pd import codecs tmp = codecs.open('naist-jdic.csv', 'r', 'euc_jp', 'ignore') df = pd.read_csv(tmp) df.shape(485862, 16)
48万行ほどあるので
結構な数の単語が載っていますね。
1文字目を取り出して集計してみます。
df['行'] = df[' .2'].str[0:1] df2 = pd.DataFrame(df['行'].value_counts()) for i , row in df2[df2['行']>=10].iterrows(): print(i,row['行'])カ 30723
シ 25156
オ 23427
ア 18293
ト 17947
・・・
「か」で始まる単語が多そうですね。
次はこれを行で数えてみます。
dc1={ 'ア':['ア','イ','ウ','エ','オ','ヴ'], 'カ':['カ','キ','ク','ケ','コ','ガ','ギ','グ','ゲ','ゴ'], 'サ':['サ','シ','ス','セ','ソ','ザ','ジ','ズ','ゼ','ゾ'], 'タ':['タ','チ','ツ','テ','ト','ダ','ヂ','ヅ','デ','ド','ッ'], 'ナ':['ナ','ニ','ヌ','ネ','ノ'], 'ハ':['ハ','ヒ','フ','ヘ','ホ','バ','ビ','ブ','ベ','ボ','パ','ピ','プ','ペ','ポ'], 'マ':['マ','ミ','ム','メ','モ'], 'ヤ':['ヤ','ユ','ヨ','',''], 'ラ':['ラ','リ','ル','レ','ロ'], 'ワ':['ワ','ヲ','ン']} dc2 = {k:{v2:0 for v2 in v} for k,v in dc1.items() } for i , row in df2[df2['行']>=10].iterrows(): for k,v in dc2.items(): if i in v: dc2[k][i]=row['行'] break for k,v in dc2.items(): print(k,sum([v2 for k2 , v2 in v.items()]))
結果は・・・
ア 77966
カ 88527
サ 72447
タ 69555
ナ 35274
ハ 65386
マ 41391
ヤ 22425
ラ 7263
ワ 5477
カ行の単語が一番多く
次いでア行、サ行でした。
前半の方に単語が多く載っていそうです。
ラ行やワ行の言葉は
かなり少ないですね。
何でこんなに偏るのか
日本語の成り立ちが気になっちゃいました。
今回は辞書データを調べて
どの行の単語が多いのか
調べてみました。
それでは。