ラーメン大好き齊藤京子さんが
大好きな乙pyです。

今回はラーメン店のデータを調べてみました。

解説動画はこちら




ラーメン屋さんのデータベースから
データ化してデータフレームに読み込むと
こんな感じのデータでした。

スクリーンショット 2022-03-05 17.45.50

データを見てみると
スクリーンショット 2022-03-05 17.47.26

都道府県では東京都が一番多いですね。
一番少なかったのは香川県でした。
うどんに浸食されてしまっているんでしょうか・・・

点数が載っていたので分布を見てみましたが
だいぶ歪です、正規分布を期待しましたが
download

点数に関してはそこまで気にしなくても
良いのかもしれません。


ここからが本題です。


ラーメン屋さんに使われている漢字
ベスト50はこんな漢字でした。

ちなみにこんなコードで集計しています。
hira = [chr(i) for i in range(12353, 12439)]
kata = [chr(i) for i in range(12449, 12539)]
alfa = [chr(i) for i in range(97, 97+26)] + [chr(i).upper() for i in range(97, 97+26)]
kigo = ['ー']
data = []
with open('ramen_data2.csv') as _f:
    for i,row in enumerate(_f):
        if i>0:
            data.append(row.replace('\n','').split('\t'))
calc_dict = {}
for rows in data:
    st = rows[1].replace(' ','')
    for s in st:
        if all([s not in hira,s not in kata,s not in alfa,s not in kigo]):
            if s in calc_dict:
                calc_dict[s] +=1
            else:
                calc_dict[s] =1
ranks = {}
for i,(k,v) in enumerate(sorted(calc_dict.items(),reverse=True,key=lambda x:x[1])):
    if i<=49:
        print('{0:02}'.format(i+1) , k , v)
        ranks[i+1]=(k,v)

50 王
49 口
48 海
47 餃
46 長
45 八
44 駅
43 小
42 門
41 前
40 飯
39 高
38 台
37 北
36 日
35 野
34 多
33 三
32 来
31 国
30 天
29 福
28 楽
27 新
26 横
25 龍
24 町
23 処
22 味
21 浜
20 軒
19 子
18 東
17 川
16 亭
15 山
14 一
13 田
12 料
11 理
10 本
09 堂
08 大
07 食
06 家
05 華
04 中
03 屋
02 麺
01 店

ここらへんの漢字を使えば
ラーメン屋さんっぽく聞こえますね。


逆に一回しか使われていないような
漢字も600近くありました。

ここらへんは読むのも大変
探すのも大変になるので
お店の名前には使わない方が
良いかもしれませんね。


今回はラーメンのデータと
よく使われている漢字を調べてみました。

それでは。