乙Py先生のプログラミング教室
初学者のためのプログラミング学習サイト

Python

プログラミング未経験の方のための
プログラミング学習講座を作成しました

その名も
「1時間で学べるPythonプログラミング」


講義動画はこちら




この講座は初学者の方が
短時間でPython言語を学ぶことのできる
プログラミング学習用の講座です

プログラミングが分からないない方は
Python言語を通じて
プログラミングの基礎を学習できます

講座は動画に加えてGoogle Colabを用いて
手元でコードを動かすことのできます
コードがどう動くのかを確認をしながら
進めていってください

資料はここ:
Google Colabの資料


00:00 1.はじめに
02:13 2.導入方法
02:55 3.GoogleColaboratoryの操作方法
06:19 4.Pythonの計算の基礎
27:27 5.Pythonの制御文
42:14 6.Pythonのクラス
49:11 7.Pythonのその他構文
64:30 8.まとめ

なおPythonチートシートを作成しています。

コーディングに迷った際に役に立ち

WEB検索する時間を無くして

作業時間を効率化できます。

note
Pythonチートシート


 

今回はKaggleの
マーケティング用データを
覗いてみました。

解説動画はこちら



マーケティングデータを使ってデータ分析してみよう


kaggle のサンプルデータを用いて分析をしてみよう


生成AI系の登場で、単純なプログラマーや
開発系エンジニアの需要が急落しています。

でも、マーケターの需要はまだ有ると思うので
データ分析とかが出来るようになった方が
仕事の幅が増えるんじゃ無い?

ということで、早速マーケティング用の
分析手法を体験するコードを動かしてみましょう。

ここから先は
Google Colab で実行する事ができます。
試したい方は、colabでコードをコピペして
試してみてください。



データセットのダウンロード先

Kaggleのリンク

こちらのサイトからダウンロードできます
Google アカウントなどでログインが必要ですが
ダウンロードしてCSVファイルを手元に保存してください。




サンプルデータの概要

架空の企業による
架空の広告キャンペーンの出稿データのようです


    企業情報: 複数の架空企業
    •    キャンペーン形式: メール・SNS・インフルエンサー・ディスプレイ広告・検索広告など
    •    ターゲット層: 年齢・性別で区分されたオーディエンス
    •    チャネル利用: SNS、YouTube、Google Ads、メールなど複数可
    •    成果指標:
    •    Conversion Rate(CVR):成果への転換率
    •    Clicks , Impressions(CTR):クリック・表示回数
    •    Acquisition Cost , ROI:獲得単価・投資利益率
    •    Engagement Score:1〜10段階のエンゲージメントスコア
    •    時系列データ: キャンペーン実施日あり
    •    地理情報・言語: 主要都市と多言語対応(英・西・仏・独・中)




ライブラリのインポート

データを読み込みするには以下のライブラリを
先に読み込みする必要があります。

pandas : データフレームというデータ型を扱うためのライブラリ
seaborn : 詳細な可視化をするためのライブラリ
matplotlib : 可視化用の基本ライブラリ

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


データの読み込み

ライブラリを読み込みできたら
次はデータの配置です。

ダウンロードしたファイルをデータ置き場に置く

colabのメニューの左側に
「フォルダ」マークがあるので
フォルダを開いて、その中にドラッグで
データを配置できます。


配置できたら次のコードで
データを読み込みしましょう。


CSVファイルを読み込みしてPandasデータフレームにする


import pandas as pd
データフレーム変数名 = pd.read_csv(ファイルパス)

# サンプルデータの読み込み
import pandas as pd
file_path = "marketing_campaign_dataset.csv"
df = pd.read_csv(file_path)

データのプレビューは次のコードです
# データのプレビュー
df.head(3)


データを加工する

データ分析では正しい形にデータを補正する必要があります。

今回は下記のデータ加工を行います。

1.数値になっていないカラムを数値に変換
2.不要な数値IDカラムを文字列に変換

.astype(データ型)
.replace("正規表現検索" "変換後の文字列", regex=True)
.str.replace("変換前の文字列","変換後の文字列")

# データの加工を行う
df["Campaign_ID"] = df["Campaign_ID"].astype(str)
df["Acquisition_Cost"] = df["Acquisition_Cost"].replace("[\$,]", "", regex=True).astype(float)
df["Duration"] = df["Duration"].str.replace(" days","").astype(float)


今データに無い指標を作る

データから、別のデータを作成することもできます。
今回のデータにはCTR,CPAの項目がないので
新たに作成してみましょう。


・クリックレート(CTR)
クリック数 / インプレッション数

・顧客獲得単価(Cost Per Acquisition)
獲得コスト / クリック数

# 新しい指標カラムを作成する
df["CTR"] = df["Clicks"] / df["Impressions"]
df["CPA"] = df["Acquisition_Cost"] / df["Clicks"]


数値データの統計量を見る

pandasデータフレームでは
数値型の統計量を見るメソッド describe があります。

これで数値カラムの統計量を算出してみてみましょう。
# 統計量を算出する
df.describe()


ここから、データ分析用のサンプルコードを見ていきましょう
(おさわりだけが)



1.数値データをヒストグラムにする

Seabornライブラリの histplot でヒストグラムを描画する

# 数値型のカラムのみ抽出
numeric_cols = df.select_dtypes(include='number').columns

# カラムごとに個別プロット
for col in numeric_cols:
    plt.figure(figsize=(8, 4))
    sns.histplot(df[col], bins=30, kde=True)
    plt.title(f"Histogram of {col}")
    plt.xlabel(col)
    plt.ylabel("Frequency")
    plt.tight_layout()
    plt.show()



2.チャネル別パフォーマンス分析

チャネル別でConversion_Rate,ROI,Acquisition_Costを集計して
matplotlob で棒グラフで描画する

# チャネルごとの平均CVR・ROI・Acquisition_Costを集計
channel_stats = df.groupby("Channel_Used")[["Conversion_Rate", "ROI", "Acquisition_Cost"]].mean().reset_index()

# 可視化(棒グラフ)
plt.figure(figsize=(12, 5))
sns.barplot(data=channel_stats, x="Channel_Used", y="Conversion_Rate")
plt.title("Chanel AVG Conversion Rate")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


3.キャンペーンタイプ別のROI比較(箱ひげ図

Seabornライブラリの boxplot で箱ひげ図を描画する

# ROIの分布をキャンペーンタイプごとに比較
plt.figure(figsize=(10, 6))
sns.boxplot(data=df, x="Campaign_Type", y="ROI")
plt.title("Campaign_Type ROI distribution")
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()


4.ターゲット × セグメントごとのCVR比較

Seabornライブラリの heatmap でヒートマップを描画する


# ピボットテーブルで平均CVRを可視化
pivot = df.pivot_table(values="Conversion_Rate", 
                       index="Target_Audience", 
                       columns="Customer_Segment", 
                       aggfunc="mean")

# ヒートマップで表示
plt.figure(figsize=(12, 6))
sns.heatmap(pivot, annot=True, fmt=".2f", cmap="Blues")
plt.title("Target ×Segment Conversion Rate")
plt.tight_layout()
plt.show()


5.CTR・CVR・CPAの統合評価

Seabornライブラリの scatterplot で
散布図を描画する


# 散布図でCTRとCVRの相関を視覚化(CPAでサイズ分け)
plt.figure(figsize=(10, 6))
sns.scatterplot(data=df, x="CTR", y="Conversion_Rate", size="CPA", hue="Channel_Used", sizes=(20, 200), alpha=0.7)
plt.title("CTR vs Conversion Rate(dots=CPA)")
plt.tight_layout()
plt.show()


おわりに


マーケティング活動もプログラミングができると
より大量のデータ量を扱え、もっと多彩な分析手法も
取り入れる事ができるようになります。

もっとマーケティング X プログラミング を学びたい方は
この先の講座を検討中につき、それをお待ちください!!!

それでは。

 

今回は最近注目度が上がってきている
簡単UI作成ツールStreamlitのお話です




解説動画はこちら




Streamlitについて


1. Streamlitとは?

一言で言うと…

Pythonコードだけでインタラクティブな
Webアプリを作れるツールです


何がすごいの?

以下のような特徴があります。


HTMLやJavaScriptの知識がほぼ不要で
めちゃくちゃ簡単にGUIが作れる



開発のホットリロード(即時反映)が可能で
主にデータ可視化や機械学習モデルのデモ
ダッシュボード作成に使われる

StreamlitはSnowflake傘下となり
クラウドデータ活用との親和性がより高くなっている
(Snowflakeはフルマネージドなデータウェアハウスサービス)


2. Streamlitの特徴

こんな特徴があります。

PythonだけでOK
WebフレームワークやHTML/CSS/JSを知らなくても作れる


インタラクティブUI
スライダー、チェックボックス
セレクトボックスなど簡単に追加できる


ライブ更新
コードを保存するだけで即座にアプリが更新される


グラフとの相性
matplotlib, plotly, seaborn, altairなどと簡単に連携


デプロイも簡単
streamlit.ioや他のクラウドでも簡単に公開できる


Snowflake統合
Snowflake上でStreamlitアプリをホスティング可能

最近ではSnowflake上で簡単に
Streamlitアプリを作って公開できるので
めちゃくちゃ便利で捗ります!!!!!!

これだけでも使う価値アリかなと思っています。





3. 基本的な使い方

インストール方法

ローカルで使用したい場合は以下のコマンドで
インストールできます。
pip install streamlit


インストールが終わったら
こんな簡単なコードを書いて
app.py で保存します。
import streamlit as st

st.title("こんにちは Streamlit!")
st.write("これは最初のアプリです")
x = st.slider("数字を選んでください", 0, 100, 25)
st.write("選んだ数字は", x)

アプリを起動するには
streamlit run app.py
で起動できます。
(ファイルが有るディレクトリで実行)

実行するとブラウザーが立ち上がり
そこにアプリが表示されます。

スクリーンショット 2025-04-19 15.42.00



4. 使えるウィジェットの例


ウィジェットの紹介
次のようなものが使えます。

    st.button()    ボタン    
    st.slider()    スライダー    
    st.selectbox()    プルダウン    
    st.checkbox()    チェックボックス    
    st.text_input()    テキスト入力    
    st.file_uploader()    ファイルアップロード    
    st.image()    画像表示    
    st.map()    地図表示(pandasの緯度・経度データ)    

以下のコードを書いて実行すると
サンプル的に試すことができます。

import streamlit as st
import pandas as pd
import numpy as np
from PIL import Image

st.title("Streamlit ウィジェットの紹介")

st.header("1. st.button() - ボタン")
if st.button("クリックしてね"):
    st.write("ボタンが押されました!")

st.header("2. st.slider() - スライダー")
slider_val = st.slider("数値を選んでください", 0, 100, 25)
st.write(f"現在の値: {slider_val}")

st.header("3. st.selectbox() - プルダウンメニュー")
option = st.selectbox("好きな果物を選んでください", ["りんご", "バナナ", "ぶどう"])
st.write(f"選択されたのは: {option}")

st.header("4. st.checkbox() - チェックボックス")
agree = st.checkbox("私は利用規約に同意します")
if agree:
    st.write("同意ありがとうございます!")

st.header("5. st.text_input() - テキスト入力")
name = st.text_input("あなたの名前は?")
if name:
    st.write(f"こんにちは、{name}さん!")

st.header("6. st.file_uploader() - ファイルアップロード")
uploaded_file = st.file_uploader("画像をアップロードしてください", type=["jpg", "png"])
if uploaded_file is not None:
    image = Image.open(uploaded_file)
    st.image(image, caption="アップロードされた画像", width=300)

st.header("7. st.image() - 画像表示(サンプル画像)")
st.image("https://cdn.pixabay.com/photo/2024/11/30/15/55/eiffel-tower-9235220_1280.jpg", caption="タワー", width=100)

st.header("8. st.map() - 地図表示")
st.write("ランダムな緯度・経度データを地図に表示します")
df_map = pd.DataFrame(
    np.random.randn(100, 2) / [50, 50] + [35.69, 139.70],  # 東京周辺
    columns=['lat', 'lon']
)
st.map(df_map)

st.markdown("---")
st.write("以上、Streamlitの基本ウィジェットの紹介でした ")


5. どんな人におすすめ?


以下のような悩みを持っている人ならオススメです!!

PythonでGUIを作りたい人
データ可視化を誰かにシェアしたい人
機械学習モデルを他人に使わせたい人
Snowflakeを使おうとしている人
簡単な社内ツールを作りたい人


6. よくある使い道

こんな使われ方が多いです。

データの可視化アプリ
機械学習モデルのデモ用UI
社内ツールや分析ダッシュボード
ちょっとしたプロトタイプ作成


7.社内ツールデモ

デモは動画をご覧ください。


今回は
最近のStreamlitの使われかた等について
解説させていただきました。

ユーザーが増えると
すんごく捗ると思うので
これからも大注目です

今日はここまでです
それでは。




今回は2025年4月現在で
フリーランスのPythonエンジニアが
どれくらい稼げるかを調査してみました。


解説動画はこちら


 
Pythonエンジニアは稼げるのか


フリーランスになって3年目
Python関連のお仕事してますが

世間的にフリーランスの
Pythonエンジニアはどれくらい稼げるのかを
調査してみました。

フリーランスの案件紹介サイトから
700件ほどを抽出して
サマリーを出してみました。

案件の最頻値、一番多い件数の月単価は
65万円

最大では200万円でしたが
流石にこれは一般人では難しそうです。
download

だいたい単価はこんな感じの分布になります。

案件のスキルや内容をワードクラウドにすると
こんな感じでした。

download-1


WEB系の開発に加えて
データ分析やAI系のツール開発や業務支援アプリ開発
みたいなのが増えていますかね

データ分析基盤の開発なんかも
増えている印象でした。




まとめ

月額65万円あたりが一番多いとなると
年収ベースで780万円前後が関の山

100万円を超えるような単価の高額案件は
経験スキルとしてクラウド開発や複数言語の開発経験が必須

AI開発系は当然、AI開発の経験とデータ周りの
知識が必要になってきていました。

単純なPython開発のみだと
少し夢が無いですよねー

簡単なWEB系の開発単価は下がり
AI系の単価はやや高め

だんだんと二極化してきている感じもあります。

これが2025年4月現在の
Python案件の内容でした。

頑張ってもっと稼げるように
スキルアップしていこうと思う次第でした

今日はこれまでです
それでは。


今回は疑似乱数の生成方法についてです


解説動画はこちら




乱数と疑似乱数

今回は疑似乱数についてのお話です

一般的に乱数というものは
予測できない数値のことで
原子核の放射崩壊により放出された放射線のカウント
のように予測が出来ない数値のことです

一方で疑似乱数とは
コンピューターで生成した一定の規則に基づく
乱数のような値のことで

真の乱数列は本来、規則性も再現性もないものであるため
本来は確定的な計算によって求めることはできないです

擬似乱数は計算によって作るので
生成法と内部状態が判れば予測も可能ではあります。

また過去に現れた数と同じ数が現れた際のその長さを
周期と言っています。



疑似乱数の作成手法


一般的には初期値(シード)と
演算法(アルゴリズム)を用いて生成します。



平方採中法 (middle-square method)

1946年頃、数学者ノイマンによって提唱された手法です。

この方法は
適当に初期値を決める 例 : 1234
その数を 2 乗した値の中央にある必要な桁数を採って
次の乱数とする

これを繰り返して乱数列とする方法です。

Pythonでの実装例はこんな感じになります。

# ノイマンの平方採中法による乱数生成
def middle_square_method(seed, num_samples=10, num_digits=4):
    random_numbers = []
    current_value = seed
    for _ in range(num_samples):
        num_digits = len(str(current_value))
        # 2乗して中央の桁を取り出す
        squared_value = current_value ** 2
        squared_str = str(squared_value).zfill(2 * num_digits)
        # 中央の桁を取り出す
        start = len(squared_str) - num_digits - 2
        middle_digits = squared_str[start: start + 4]
        current_value = int(middle_digits)
        random_numbers.append(current_value)
    return random_numbers

# 初期値とパラメータ設定
seed = 1234  # 初期値(任意の4桁の数)
random_nums = middle_square_method(seed)
print(random_nums)



線形合同法 (linear congruential method)

次のような漸化式による生成方法です。

スクリーンショット 2025-04-05 17.35.45

周期の最大は m で
パラメータ次第では周期が短くなり
予想ができてしまう手法です。


class LCG:
    def __init__(self, seed=1, a=1664525, c=1013904223, m=2**32):
        self.a = a
        self.c = c
        self.m = m
        self.state = seed

    def next(self):
        self.state = (self.a * self.state + self.c) % self.m
        return self.state / self.m

# 使用例
seed = 1320
lcg = LCG(seed=seed)
for _ in range(10):
    print(lcg.next())
0.7476371766533703
0.0075369239784777164



Xorshift

George Marsagliaが2003年に提案した手法です

ビット演算を用いた高速な擬似乱数生成法で
基本的な計算ステップは次の3つです。
state ^= (state << a)
state ^= (state >> b)
state ^= (state << c)
a, b, c は定数(一般的には a=13, b=17, c=5)
^= はビット単位の XOR を行って
結果を state に代入です。
class XorShift32:
    def __init__(self, seed=2463534242):
        self.state = seed

    def next(self):
        x = self.state
        x ^= (x << 13) & 0xFFFFFFFF
        x ^= (x >> 17)
        x ^= (x << 5) & 0xFFFFFFFF
        self.state = x & 0xFFFFFFFF
        return self.state / 0xFFFFFFFF

# 使用例
xorshift = XorShift32(seed=123456789)
for _ in range(5):
    print(xorshift.next())
0.6321277193799912
0.5212643641329521


メルセンヌ・ツイスタ (Mersenne Twister : MT)

1996年に松本眞と西村拓士によって
国際会議で発表された手法です。

名前の由来は
周期がメルセンヌ素数(2^19937 - 1)であることからだそうです

•出力:32ビットの整数
•長所:
•非常に長い周期(2^19937 - 1)
•高次元(623次元)でも均一な分布を持つ
•高速(特にビット演算が中心)

以下の3ステップで計算されています。
1.初期化(シードによる状態配列の構築)
2.状態配列の更新(Twist)
3.出力整形(Tempering)


元々Pythonのrandomなどの実装は
この手法を基にしているそうなので
実装する必要は無いのですが
中身の実装を真似るとこんな感じのコードになります
class MT19937:
    # 初期化(シードによる状態配列の構築)
    def __init__(self, seed):
        self.w, self.n, self.m, self.r = 32, 624, 397, 31
        self.a = 0x9908B0DF
        self.u, self.d = 11, 0xFFFFFFFF
        self.s, self.b = 7, 0x9D2C5680
        self.t, self.c = 15, 0xEFC60000
        self.l = 18
        self.f = 1812433253

        self.MT = [0] * self.n
        self.index = self.n
        self.lower_mask = (1 << self.r) - 1
        self.upper_mask = (~self.lower_mask) & 0xFFFFFFFF

        self.MT[0] = seed
        for i in range(1, self.n):
            self.MT[i] = (self.f * (self.MT[i - 1] ^ (self.MT[i - 1] >> (self.w - 2))) + i) & 0xFFFFFFFF

    # 状態配列の更新(Twist)
    # 複数のビットを結合して新しい状態を作り出す処理
    def twist(self):
        for i in range(self.n):
            x = (self.MT[i] & self.upper_mask) + (self.MT[(i + 1) % self.n] & self.lower_mask)
            xA = x >> 1
            if x % 2 != 0:
                xA ^= self.a
            self.MT[i] = self.MT[(i + self.m) % self.n] ^ xA
        self.index = 0

    # 出力整形(Tempering)
    # 出力する前にビットをシャッフルして統計的性質を良くする
    def extract_number(self):
        if self.index >= self.n:
            self.twist()

        y = self.MT[self.index]
        y ^= (y >> self.u) & self.d
        y ^= (y << self.s) & self.b
        y ^= (y << self.t) & self.c
        y ^= (y >> self.l)
        self.index += 1
        return y & 0xFFFFFFFF

    def random(self):
        return self.extract_number() / 0xFFFFFFFF


まとめ

コンピューターでは真の乱数を生成することは
非常に困難ですが乱数に近い値を計算で求める事は出来ます

しかし乱数生成アルゴリズムが分かってしまった場合には
リスクが発生することがあります。


システム内で使用される乱数
(セッションID、認証トークン、パスワードのハッシュなど)が
予測されて攻撃されたり

暗号化や認証に使用される乱数
(例:暗号鍵生成やトークンの生成)が
予測可能だと、暗号が破られやすくなるでしょう。

またゲームやギャンブルサイトでの
不正行為にも使われてしまった例があったようです。

まあ、疑似乱数を1から生成するコードを実装する機会は
ほとんど無いかもしれませんが、アルゴリズムの採択によっては
それがシステム上のリスクになりえる事は
考えておいても良いんじゃ無いでしょうか

今回は疑似乱数についてのお話でした。
それでは。


このページのトップヘ