2019-04-06

第4章　開始

python pythonではじめる機械学習

（90ｍ）15：30～17：30

第4章　データの表現と特徴量エンジニアリング

連続値特徴量の他に、離散型特徴量がある。

スケール変換のように特徴量を正確に把握することは分析の第一歩である。これを特徴量エンジニアリングと呼ぶ。

カテゴリ変数：離散型特徴量である。例えば職業や学歴など・・・

ワンホットエンコーディング（ダミー変数）：カテゴリ変数に1or0を当てはめる。しかもそれはそれぞれの回答に。

（例：【職業】「公務員であるかどうか」1or0 「民間かどうか」1or0 「無職かどうか」1or0・・・）

pd.get_dummies()

カテゴリデータチェック：スペルミスや表記の違いなどのためにどのようなカテゴリ分けされているかすべて確認するべき

.value_counts()

数字か言葉か：仮に（質問：「職業」回答「1：公務員　2：民間　3：無職」）があったとすると回答は1～3に収束され、連続値特徴量と誤解する。ワンホットエンコーディングは数字の特徴量は即ち連続量と捉える為、ダミー作成のため変換が必要である。

x.astype(str)

get_dummies(X_data,columns=[x（指定）])

#忘れた

LogisticRegression：すぐ忘れるので困る。

2019-04-06

ロードバイク

(120m)0600-0800

約40kmロードバイク。春は蚊柱が半端じゃない。上流の花畑付近が特にひどい。下流のほうがいい。

2019-04-04

クラスタリングまとめ

python pythonではじめる機械学習

(60m) 05:00~06:00

画像はうつった

タブ下げができてない

Kmeans:クラスタセンタを用いて特徴を表現できる。クラスタセンタによる成分分解手法としても（凝集型と合わせてクラスタ数指定分類）

DBSCAN:ノイズ検出可能、クラスタ数も自動、ただし平均的な分類は望めない

＃意味不明だけどぶち込んでる

[mask]

subplot_kw={"xticks":(),"yticks":()}

for Ｘ in (--):
　　　　Ａ=Ｂ==Ｃ

2019-04-03

DBSCAN 顔画像

python pythonではじめる機械学習

(60m) 05:00~06:00

「pythonではじめる機械学習」

クラスタリング：固有数字ではなく区別である。裏：表が一緒であれば0：1も一緒

PCA:大きな特徴量をＸ軸へ回転（whiten:scalerをかけるか）

シルエット係数：よくわからん。コンパクトさを計算する。

最後画像がうつらん。謎

2019-04-02

走る

ランニング

(30分)05:15~05:45　30分　5km

またひざ痛はじまる

2019-04-01

勉強

python pythonではじめる機械学習

（60分）22：00～23：00

「pythonではじめる機械学習」

（3章教師なし学習と前処理）

Kmeans　:　クラスタ指定　距離

AgglomerativeClustering　：凝集型クラスタリング　クラスタ数指定

DBSCAN　：　eps(距離？) min_sample(最小個数)指定。epsにmin_sampleがあればコアサンプル。あとは繰り返し。当てはまらなければノイズ

ARI(adjusted_rand_index)　：調整ランド指数。クラスタリング指標指数。accuracy_scoreでは違う結果になる。

A=[1,0,0,1,1]

B=[0,0,1,0,1]

ＡとＢは同じクラスタ？わからん。

離婚後の日記

離婚した。

第4章　開始

ロードバイク

クラスタリングまとめ

DBSCAN 顔画像

走る

勉強