乙Py先生のプログラミング教室
初学者のためのプログラミング学習サイト

データ

今年の夏は暑いですねー
毎日アイスを食べたくなりますね

そんなわけでアイスの価格のデータを
見てみることとしました。


解説動画はこちら



E-statに小売物価統計調査(動向編)2021年
というのが有って


結果表 1 調査品目の月別価格及び年平均価格
【都道府県庁所在市及び人口15万以上の市】
「1701 ようかん」 ~ 「1797 弁当」
というのが今回使用したデータです。

アイスは「ハーゲンダッツ・バニラ」
(295円,税込318円)を基準にしている
ようでした。

しかしe-statのデータはこんな感じで
aice

エクセルファイルになっていますが
まだエクセルなのは0点だとしても

ヘッダーに文章が有ったり
縦積みしなければいけない所を
横積みにしていたりと
相当なゴミっぷり-100点です。

なので、2回の整形、加工が必要でした。

まずはこのエクセルから
必要な部分だけをコピーして
TSV形式で保存しなおします。

aice.tsv

次はこのデータの横積みされている所から
縦積みに直します。

こんな感じのコードで整形です。
data = []
with open('aice.tsv') as _f:
    for row in _f:
        rows = row.replace('\n','').split('\t')
        data.append(rows)

data2 = []
for rows in data[2:]:
    name = rows[1]
    for i,t in enumerate(rows[4:]):
        tmp = [name , '{0:02}月分'.format(i+1) , int(t)]
        data2.append(tmp)


さて、このデータを見ていきましょう。
データフレームに読み込みします。
import pandas as pd

df = pd.DataFrame(data2 , columns=['市町村','月','価格'])

df.shape
(972, 3)


平均価格が安い地域はどこか?
df2 = df.groupby('市町村').mean('価格').sort_values('価格')

df2
スクリーンショット 2022-08-13 16.59.52


最安値の地区は?
df3 = df.sort_values('価格').head()

df3
スクリーンショット 2022-08-13 17.00.12


最安地域の分布
import seaborn as sns
from matplotlib import pyplot as plt

df4 = df[df['市町村'].isin(df2.index[0:10])]

plt.figure(figsize=(10,5))
sns.boxplot(x='市町村',y='価格', data=df4,order=df2.head(10).index)
plt.title('')
plt.show()
download


これで見ると
全国の地域の中で
最も安い値をつけたのは「浦安市」
平均価格でも「浦安市」が安くなっていました。

アイスを安く買いたければ
「浦安市」のスーパーが
安い可能性が高いですね。

でも、なんでこんなに安いんですかね?
ミッキーに脅されていたりしたら
面白いんですけどね

ちなみに
ハーゲンダッツの小売は300円くらいなので
200切っていたら相当な買いですねー

自分は安い時にまとめ買いしてます。

今年は消費量が多いので
データから家計を守るのも
大事と思います。

それでは。

本日は最強のそうめんが何か
レシピサイトの投稿データから
考えてみることにしました。

解説動画はこちら




さて、とあるレシピ投稿サイトから
データを引っ張ってきました。

一応のデータはこんな感じになっています。
スクリーンショット 2022-07-23 13.40.35

293件のそうめんレシピがあって
点数がついているものもありました。

分布を見てみると
download
こんな感じで
点がついていないものは0にしました。

5点満点だとすると
4.5点以上が良いレシピなんではないかと思います。

これで絞り込んでみると
32件が該当しました。

別途食材のデータも取っています。
スクリーンショット 2022-07-23 13.43.46

これを併せて良い点が付いたレシピの
食材を集計してみました。

結果はこんな感じです。

そうめん 31
水 19
ごま油 16
酒 11
しょうゆ 9
めんつゆ[3倍濃縮] 9
大葉 7
おろししょうが 7
塩 6
白いりごま 6
めんつゆ(3倍濃縮) 5
みょうが 5
おろしにんにく 5
豚バラ薄切り肉 4
きゅうり 4
マヨネーズ 4
白すりごま 4
トマト 4
みりん 3
かつお節 3
細ねぎ(刻み) 3
ミニトマト 3
こしょう 3
長ねぎ 3
塩こしょう 3


この中の食材を使えば
大概はおいしいそうめんが出来上がると思います。

ということでレシピを考案してみました。

案1:さっぱりそうめん
具材料:トマト、刻みネギ(少々)、大葉(お好みで)
調味料:ごま油、めんつゆ、塩、胡椒
酢、おろしにんにく、白いりゴマ

案2:シンプルそうめん
具材料:ミョウガ、大葉、かつお節
調味料:めんつゆ

案3:スタミナそうめん
具材料:豚バラ肉、刻みネギ(少々)、大葉(お好みで)
調味料:めんつゆ、おろしニンニク、塩胡椒、ごま油


こんな感じでした。

まとめると
めんつゆと大葉があればうまい
なのかなと


今回はそうめんのレシピを
投稿サイトのデータから考えてみました

困ったときは
スクレイピングが役立ちますねー

それでは。




今回はとあるデータを拾ってきて
Tableauで可視化しました。

非常に興味深いデータです。

解説動画はこちら



データに関してはかなり雑な調べです。
今日現在(2020/09/05)までで
生年月日のデータが取得できた方が対象です。

全体像はこんな感じです。
4823人分のデータが取れました。

スクリーンショット 2020-09-05 17.22.33


雑に可視化しているだけなので
そこまで凝ったことはしていません。

まずは生年で見ていきましょう。
スクリーンショット 2020-09-05 17.06.46

下は2001年生まれ!!!!!
現在2020年だと18,19歳がいるかもしれません。

もっとも上は1923年!!!
おん年97では?!?!!?!

まあ、データなので間違っているかもしれないし
生きているかは不明です。調べる気もありません。

これでみるとボリュームゾーンは1984年
今年36あたりで18デビューなら
2002年あたりがデビュー年ですね。

人数はそこからやや減少傾向になり
1994年が少し増えてますね。
ここら辺はリーマンショックの後なので
影響が有ったかもしれません。

出身です。
スクリーンショット 2020-09-05 17.07.01
出身は東京都が多く
次いで神奈川、千葉、埼玉ですね。

単純に首都圏でのスカウトが多いからでしょうね。
この4都県で7割、地方の方は少数派ですね。


次に身長です。
スクリーンショット 2020-09-05 17.07.14

身長のデータは面白い傾向が出ています。

この手のデータを無作為に集めると
通常は平均値付近が最大となる
「正規分布」という分布になります。

ですがxx9cmの所とxx0cmの所では
2倍位違っているところがあります。

恐らくですが、プロフィールに
159cmと書くよりは160cmと書きたかった
のではないかな?と思われます。

149,159,169でこの傾向が大きく出ていますね。
ということで身長はサバ読んでるかも
しれないデータが混じっているだろうと思います。

その傾向はバストでも有るかもしれません。
スクリーンショット 2020-09-05 17.07.28
こちらはバストのデータ分布ですが
こちらも79,89よりも80,90が圧倒的に多いんです。

大は小を兼ねると申しますが
小さいよりは、大きい方が嬉しいですもんね!!!
鯖読みの傾向がここにも出ているかと思われます。

スクリーンショット 2020-09-05 17.07.41

血液型の分布は日本の血液型統計と
あまり変わりないんじゃないでしょうか?

日本人におけるABO式血液型の割合は
おおよそA型40%,O型30%,B型20%,AB型10%
といわれています。

少しだけO型が多いかな、というくらいですね。

そして皆様お待ちかね
カップサイズです

カップサイズはこのような分布になりました。

スクリーンショット 2020-09-05 17.07.55

4823人のデータから見ると
Dが一番多いです!!!!!!!!

次いでC,E,F,G
BよりもGが多いのが驚きです。

Aになると0.76%なので、ほぼ外れ値ですね。

このデータで行くと最大は
Pカップです!!!!

もうね、ここまでくると
手に負えないですよね。

やはり、手に負えないよりは
ギリギリ手に負えるGあたりが
自分は好きです。

ちなみにGは10%ほどおりますので
10人に一人くらいはG
という嬉しい結果となりました。

C,D,Eで6割に達しますので
日本人の大半はCDE

それよりも少し大きいのが2割
小さすぎは1割弱
大きすぎも1割ないくらいですね。

Tableauで割合をいろいろ変えて
試していますので
そちらも見ていただければと思います。

今回はこれまで
それでは!!!

このページのトップヘ