乙Py先生のプログラミング教室
初学者のためのプログラミング学習サイト

Tableau

今回はとあるデータを拾ってきて
Tableauで可視化しました。

非常に興味深いデータです。

解説動画はこちら



データに関してはかなり雑な調べです。
今日現在(2020/09/05)までで
生年月日のデータが取得できた方が対象です。

全体像はこんな感じです。
4823人分のデータが取れました。

スクリーンショット 2020-09-05 17.22.33


雑に可視化しているだけなので
そこまで凝ったことはしていません。

まずは生年で見ていきましょう。
スクリーンショット 2020-09-05 17.06.46

下は2001年生まれ!!!!!
現在2020年だと18,19歳がいるかもしれません。

もっとも上は1923年!!!
おん年97では?!?!!?!

まあ、データなので間違っているかもしれないし
生きているかは不明です。調べる気もありません。

これでみるとボリュームゾーンは1984年
今年36あたりで18デビューなら
2002年あたりがデビュー年ですね。

人数はそこからやや減少傾向になり
1994年が少し増えてますね。
ここら辺はリーマンショックの後なので
影響が有ったかもしれません。

出身です。
スクリーンショット 2020-09-05 17.07.01
出身は東京都が多く
次いで神奈川、千葉、埼玉ですね。

単純に首都圏でのスカウトが多いからでしょうね。
この4都県で7割、地方の方は少数派ですね。


次に身長です。
スクリーンショット 2020-09-05 17.07.14

身長のデータは面白い傾向が出ています。

この手のデータを無作為に集めると
通常は平均値付近が最大となる
「正規分布」という分布になります。

ですがxx9cmの所とxx0cmの所では
2倍位違っているところがあります。

恐らくですが、プロフィールに
159cmと書くよりは160cmと書きたかった
のではないかな?と思われます。

149,159,169でこの傾向が大きく出ていますね。
ということで身長はサバ読んでるかも
しれないデータが混じっているだろうと思います。

その傾向はバストでも有るかもしれません。
スクリーンショット 2020-09-05 17.07.28
こちらはバストのデータ分布ですが
こちらも79,89よりも80,90が圧倒的に多いんです。

大は小を兼ねると申しますが
小さいよりは、大きい方が嬉しいですもんね!!!
鯖読みの傾向がここにも出ているかと思われます。

スクリーンショット 2020-09-05 17.07.41

血液型の分布は日本の血液型統計と
あまり変わりないんじゃないでしょうか?

日本人におけるABO式血液型の割合は
おおよそA型40%,O型30%,B型20%,AB型10%
といわれています。

少しだけO型が多いかな、というくらいですね。

そして皆様お待ちかね
カップサイズです

カップサイズはこのような分布になりました。

スクリーンショット 2020-09-05 17.07.55

4823人のデータから見ると
Dが一番多いです!!!!!!!!

次いでC,E,F,G
BよりもGが多いのが驚きです。

Aになると0.76%なので、ほぼ外れ値ですね。

このデータで行くと最大は
Pカップです!!!!

もうね、ここまでくると
手に負えないですよね。

やはり、手に負えないよりは
ギリギリ手に負えるGあたりが
自分は好きです。

ちなみにGは10%ほどおりますので
10人に一人くらいはG
という嬉しい結果となりました。

C,D,Eで6割に達しますので
日本人の大半はCDE

それよりも少し大きいのが2割
小さすぎは1割弱
大きすぎも1割ないくらいですね。

Tableauで割合をいろいろ変えて
試していますので
そちらも見ていただければと思います。

今回はこれまで
それでは!!!

乃木坂46の情報を集めて
可視化してみました。

動画はこちら



使用しているTableauはこちらです。

 


さて
色々みていきましょう。
全体像はこんな感じですね。

氏名生年月日年齢出身地血液型星座身長(cm)
1期生秋元 真夏1993/08/2026埼玉県B型しし座154
1期生生田 絵梨花1997/01/2222東京都A型みずがめ座160
2期生伊藤 純奈1998/11/3021神奈川県A型いて座166
3期生伊藤 理々杏2002/10/0817沖縄県B型てんびん座154
1期生井上 小百合1994/12/1424埼玉県B型いて座156
3期生岩本 蓮加2004/02/0215東京都B型みずがめ座157
3期生梅澤 美波1999/01/0620神奈川県A型やぎ座170
3期生大園 桃子1999/09/1320鹿児島県O型おとめ座156
2期生北野 日奈子1996/07/1723北海道O型かに座158
3期生久保 史緒里2001/07/1418宮城県O型かに座159
1期生齋藤 飛鳥1998/08/1021東京都O型しし座158
3期生阪口 珠美2001/11/1018東京都A型さそり座161
2期生佐々木 琴子1998/08/2821埼玉県A型おとめ座163
3期生佐藤 楓1998/03/2321愛知県A型おひつじ座161
1期生白石 麻衣1992/08/2027群馬県A型しし座162
2期生新内 眞衣1992/01/2227埼玉県B型みずがめ座165
2期生鈴木 絢音1999/03/0520秋田県O型うお座160
1期生高山 一実1994/02/0825千葉県A型みずがめ座162
2期生寺田 蘭世1998/09/2321東京都不明てんびん座155
1期生中田 花奈1994/08/0625埼玉県A型しし座158
3期生中村 麗乃2001/09/2718東京都不明てんびん座167
1期生樋口 日奈1998/01/3121東京都A型みずがめ座159
1期生星野 みなみ1998/02/0621千葉県B型みずがめ座155
2期生堀 未央奈1996/10/1523岐阜県O型てんびん座160
1期生松村 沙友理1992/08/2727大阪府B型おとめ座164
3期生向井 葉月1999/08/2320東京都A型おとめ座152
2期生山崎 怜奈1997/05/2122東京都B型ふたご座164
3期生山下 美月1999/07/2620東京都O型しし座159
3期生吉田 綾乃クリスティー1995/09/0624大分県A型おとめ座161
3期生与田 祐希2000/05/0519福岡県O型おうし座152
2期生渡辺 みり愛1999/11/0120東京都O型さそり座153
1期生和田 まあや1998/04/2321広島県O型おうし座160
4期生遠藤 さくら2001/10/0318愛知県不明てんびん座160
4期生賀喜 遥香2001/08/0818栃木県A型しし座166
4期生掛橋 沙耶香2002/11/2017岡山県B型さそり座156
4期生金川 紗耶2001/10/3118北海道O型さそり座164
4期生北川 悠理2001/08/0818カリフォルニア州不明しし座163
4期生柴田 柚菜2003/03/0316千葉県A型うお座160
4期生清宮 レイ2003/08/0116埼玉県O型しし座162
4期生田村 真佑1999/01/1220埼玉県A型やぎ座158
4期生筒井 あやめ2004/06/0815愛知県O型ふたご座160
4期生早川 聖来2000/08/2419大阪府A型おとめ座164
4期生矢久保 美緒2002/08/1417東京都B型しし座152

こんなデータを用いて統計情報を作ってみました。

乃木坂46と言っているのに
43人しかいませんねーー

増えたり減ったりを繰り返しているようです。

43人の
平均的な身長は160くらいになり
平均年齢は20.5歳でした

最高年齢は
27歳が3名

最年少は
15歳が2名ですね。

最高身長は170cmが一人
最低身長は152cmが3名でした。

ここからはカテゴリ別で見ていきましょう。


まずは期別です
スクリーンショット 2019-12-07 17.27.41
よく知りませんが1-4期まであり、
人数は大体どの期も10人前後のようです。
年齢は1期の方から若くなっていきますね。

続いて血液型別です。

スクリーンショット 2019-12-07 17.27.29

血液型はA型が最も多くついでO,B

不明が数人いますが
なんとAB型はいないようですね。

乃木坂46になるにはAB型はダメなのかも知れませんねwww


星座別だとしし座、水瓶座、おとめ座が多いですね。

スクリーンショット 2019-12-07 17.27.56

アイドルになりにくい星座なんてのも
ありえるかも知れませんが、これだけだと
分かりませんね。

お次は都道府県別です。

スクリーンショット 2019-12-07 17.28.06
さすがに東京都は多いですね。
ついで埼玉でした。

東京の近辺は乃木坂46になるのには有利なのかも
知れません。

一人カリフォルニア出身がいますね
「欧米か!!!」
っと突っ込んであげましょう。



最後に名前の読み数です。
スクリーンショット 2019-12-07 17.28.15

まあ、女性の名前って2,3文字が多いので
しょうがありませんが、やはりアイドルの名前は
3文字以内が良さそうですね。






さて

ライトノベル
皆さん読みますか?

自分は小説を読めない病で
小説を見ると頭が痛くなってしまうので
小説を読んだことが無いです。

ただしライトノベルの
タイトルは気になりました。

まずはラノベのタイトルに関するデータを
頑張って用意して・・・・

それをTableauで
こねこねします。

まずは全体のデータ量


文字数での作品数

3万タイトルくらいですかね
そのタイトルの文字数をヒストグラムにしてみました。

ボリュームゾーンは10-15文字くらいの
タイトルが多そうですね。


お次は
発売年月でタイトルの平均文字数を見てみます。

発売年別文字数平均の推移


年月単位で見ると
2005年から2019年のデータです。
上昇傾向にあるのがわかります。

年にまとめてみると

発売年別文字数平均

前年比が急激に変わったのは
2016年からですね

タイトルの平均文字数
16文字前後で推移していたのが
ドカンと増えています。

その後も上昇傾向は続きます。

年別で文字数の分布ごとの作品数の推移を見ます。

作品数は毎年上昇傾向にあります。

ラノベの年度別文字数別作品数の推移

10文字ずつでまとめた作品数を見てみると
2015年をピークに
10文字以下の作品数が減っています。

10-20文字の作品数は横ばい

2016-2018年では30文字以上のタイトルが
かなり増えてますね。

ここら辺が
タイトルの文字数が増える要因になっていると
考えられます。

いやー
小説のタイトルは
あまり気にしたことはないですが

最近はライトノベルの
タイトルが長いのが多いなーと
思ってはいたものの

統計的にも
数字に現れているんだなーと
実感しました。

タイトルの文字数が多いから売れたのか

売れてるタイトルの文字数が多いから
文字数を多くしたのか


そこがどっちなのかが気になりますね〜〜〜

販売数のデータ
どなたかお持ちでは無いでしょうか!!!!!!

だれか
データをください!!

2019年2月
プログラミング系の求人情報をデータ化して
Tableauで可視化しました。

動画はこちら



Tableauはこちら


BIツールの最高峰
Tableauがver10.2になって
Pythonが使えるようになりました

使い方

1.
Tableau10.2をインストールするかアップグレード 

2.
TabPyをダウンロード

git clone git://github.com/tableau/TabPy

gitコマンドでのダウンロードになるので
gitが無い人は要git install 

3.
TabPyディレクトリに移動

cd TabPy

4. 
TabPyサーバーのインストール

sh setup.sh (Macの場合)
setup.bat (Windowsの場合)

※ここでエラーが出るかも知れませんが
普通に使えました

5.
TabPyサーバーを起動

anacondaを既にインストールしている場合
anacondaディレクトリ配下に
インストールされるみたいなので
そこの中のstartup.sh(windowsはstartup.bat)を使って起動させる

起動させるとポート9004で立ち上がる

6.
Tableau側の連携設定

外部サービス接続設定で
no title

サーバー:localhost
ポート:9004
を指定する

※外部サーバーを指定することも可能

これで環境は整ったのであとは使う側


TableauからPythonの呼び出し方

計算式を作り
SCRIPT_REAL関数等を使って呼び出す

構文
SCRIPT_REAL(
'Pythonスクリプト' , 引数指定するメジャー1 , 引数指定するメジャー2 ・・・)

引数は2個以上設定可能なため , で繋げて行く

Pythonスクリプトの部分は
Pythonの関数を定義するような形にする

引数をPython側に渡すには引数名を
_arg1 , _arg2 ・・・のような命名にする

例:
サンプルストアのデータを使って
numpyで売上、利益の相関係数を返す

1

SCRIPT_REAL( '
import numpy as np
return np.corrcoef(_arg1,_arg2)[0,1]
' , 
SUM([売上]) ,
SUM([利益]) )

2つの引数がPython側に渡り
計算値がreturnでTableau側に返ってきます

この場合単に計算式を作って配置しただけだと
式のエラー表示が出ます

これは表計算で
ディメンジョンを使用しているからです

なので式の表計算設定で
使っているディメンジョンを指定してやります
(この場合は顧客名)
フィルターに設定する場合も同様です

最後に
トヨタの株価の推移と
米ドルの価格をつかって
どれだけ相関しているかを求めてみました

toyota

期間でフィルターしており
2016年10月から現在までのトヨタの株価と
米ドルの相関性は93%ほどになりました

期間によっては相関していない部分もあったり
こういう調査をするのにプログラムコードを書かずに
マウス操作だけで出来るようになるのは
Tableauの強みかと思います

因みに
Python連携できるのは
Tableau Desktopか
Tableau Serverだけで
Public版ではできないようです

買うしか無いとかwww



 

このページのトップヘ