ラーメン大好き齊藤京子さんが
大好きな乙pyです。
今回はラーメン店のデータを調べてみました。
解説動画はこちら
ラーメン屋さんのデータベースから
データ化してデータフレームに読み込むと
こんな感じのデータでした。

データを見てみると

都道府県では東京都が一番多いですね。
一番少なかったのは香川県でした。
うどんに浸食されてしまっているんでしょうか・・・
点数が載っていたので分布を見てみましたが
だいぶ歪です、正規分布を期待しましたが

点数に関してはそこまで気にしなくても
良いのかもしれません。
ここからが本題です。
ラーメン屋さんに使われている漢字
ベスト50はこんな漢字でした。
ちなみにこんなコードで集計しています。
ここらへんの漢字を使えば
ラーメン屋さんっぽく聞こえますね。
逆に一回しか使われていないような
漢字も600近くありました。
ここらへんは読むのも大変
探すのも大変になるので
お店の名前には使わない方が
良いかもしれませんね。
今回はラーメンのデータと
よく使われている漢字を調べてみました。
それでは。
大好きな乙pyです。
今回はラーメン店のデータを調べてみました。
解説動画はこちら
ラーメン屋さんのデータベースから
データ化してデータフレームに読み込むと
こんな感じのデータでした。

データを見てみると

都道府県では東京都が一番多いですね。
一番少なかったのは香川県でした。
うどんに浸食されてしまっているんでしょうか・・・
点数が載っていたので分布を見てみましたが
だいぶ歪です、正規分布を期待しましたが

点数に関してはそこまで気にしなくても
良いのかもしれません。
ここからが本題です。
ラーメン屋さんに使われている漢字
ベスト50はこんな漢字でした。
ちなみにこんなコードで集計しています。
hira = [chr(i) for i in range(12353, 12439)]
kata = [chr(i) for i in range(12449, 12539)]
alfa = [chr(i) for i in range(97, 97+26)] + [chr(i).upper() for i in range(97, 97+26)]
kigo = ['ー']
data = []
with open('ramen_data2.csv') as _f:
for i,row in enumerate(_f):
if i>0:
data.append(row.replace('\n','').split('\t'))
calc_dict = {}
for rows in data:
st = rows[1].replace(' ','')
for s in st:
if all([s not in hira,s not in kata,s not in alfa,s not in kigo]):
if s in calc_dict:
calc_dict[s] +=1
else:
calc_dict[s] =1
ranks = {}
for i,(k,v) in enumerate(sorted(calc_dict.items(),reverse=True,key=lambda x:x[1])):
if i<=49:
print('{0:02}'.format(i+1) , k , v)
ranks[i+1]=(k,v)
50 王
49 口
48 海
47 餃
46 長
45 八
44 駅
43 小
42 門
41 前
40 飯
39 高
38 台
37 北
36 日
35 野
34 多
33 三
32 来
31 国
30 天
29 福
28 楽
27 新
26 横
25 龍
24 町
23 処
22 味
21 浜
20 軒
19 子
18 東
17 川
16 亭
15 山
14 一
13 田
12 料
11 理
10 本
09 堂
08 大
07 食
06 家
05 華
04 中
03 屋
02 麺
01 店
ここらへんの漢字を使えば
ラーメン屋さんっぽく聞こえますね。
逆に一回しか使われていないような
漢字も600近くありました。
ここらへんは読むのも大変
探すのも大変になるので
お店の名前には使わない方が
良いかもしれませんね。
今回はラーメンのデータと
よく使われている漢字を調べてみました。
それでは。

コメントする