離婚後の日記

離婚した。

python

7章 テキストデータの処理

7章 コードにわからない部分が多い。導入も苦労した。 ・BOW(bag of words) 1-トークン分割 スぺースや句読点で句切り、細かい単位(単語…)にする。 2-ボキャブラリ構築 ボキャブラリとして整理し番号をつける。 3-エンコード 個々の文章に現れる回数を数…

6章 アルゴリズムチェーンとパイプライン

間が空いてしまって色々忘れる。 継続しなければならない。 6章 前処理を検証用テストデータにも適用してしまうと過度な汎化が起きる。(? 例えばMinMaxを全データにかけてしまうと、汎化能力が上がる(場合もある)が 実際にはテストデータは未知なもので…

5.3.2.6受信者動作特性(ROC)とAUC

(30m)12:00~12:30 5.3.2.6受信者動作特性(ROC)とAUC ROCカーブ: 全てのスレッショルドを考慮して偽陽性率(FPR)と真陽性率(TPR)をプロットする。 FPR=FP/FP+TN(偽陽性を全ての陰性で割る) AUC: カーブ下の領域を呼ぶ。…

5.3.2.4 不確実性を考慮する~ 5.3.2.5 適合率-再現率カーブとROCカーブ

(60m)06:00~07:00 5.3.2.4 decision_function(決定指向数 0を境に分類強度を図る) predict_proba(1~0の間で分類強度を図る) のthresholdを変更することで precison(適合率),recall(再現率)の能力を変動できる。 predict_probaがある場合は割合で指…

5.2.3.3~5.3 評価基準とスコア

(60m)15:00~16:00 5.3評価基準とスコア 実際には偏ったデータが多い為、R2スコアではわからない部分がたくさんある。 以下に注意。 エラーの種類: 陽性 :TP(True positive 求めている成果) 偽陽性:FP(False positive) 陰性 :TN(True negative) …

5.2 グリッドサーチ

(45m)09:30~10:15 5.2グリッドサーチ 5.2.3交差検証を使用したグリッドサーチ SVCのCとgammaで一番汎化性能が高いモデルを探る。 ①:for inで総当たり。 for gamma in[0.001,0.01,0.1,1,10,100]: for C in [0.001,0.01,0.1,1,10,100]: svm =SVC(gamma=gamma,…

5章 モデルの改良と評価 5.1交差検証

(60m)07:00~08:00 5.1 交差検証 k分割交差検証:KFold データを分割し、訓練とテストに振り分け評価を繰り返す。 例:①~⑤に分割→①をテスト残りを訓練→②をテスト残りを訓練→繰り返し 層化k分割交差検証:StratifiedKFold ターゲットの分類が均一だとただの…

わからん

R2スコア0~1 POSIX時刻=UNIX時間 テストデータは訓練データよりPOSIX時刻が後である。決定木は訓練セットの外まで外挿できない。 #interaction_only=Trueで各要素が交互作用のみ? poly_transformer=PolynomialFeatures(degree=2,interaction_only=…

4.6 専門家知識の利用

(60m)16:30~17:30 4.6 自転車レンタルを例に総合。 ランダムフォレストでの推測 ↓ 時間要素を追加 [0],[3],[6],... #[0時],[3時]... ↓ 曜日要素を追加 X_hour_week=np.hstack([citibike.index.dayofweek.values.reshape(-1,1),citibike.index.hour.val…

4.4単変量非線形変換~4.5自動特徴量変換

(60m)05:30~06:30 4.4 乗数の変換が有用であったように、log,sin,cosの変換も有用である(前回同様場合による) (???) ほとんどのモデルは「ガウス分布」に従っているときに最もうまく機能する。 つまり見慣れた「ベルカーブ」になる場合である。…

4.3 交互作用と多項式

(60m)13:00~14:00 ビニング毎の傾き: binsはダミーして0or1状態なので X_product=np.hstack([X_binned,X*X_binned])で bin + bin*特徴量を作ると傾きも出る。 Plynomial Features: (degree=X)に応じて特徴量を拡張する。 どのような拡張したかは poly…

4.2 ビニング

(60m)08:30~09:30 4.2 ビニング(決定木、線形モデル) ビニング(離散化):データを分割する。 bins=np.linspace(-3,3,11) bins:[-3. -2.4 -1.8 -1.2 -0.6 0. 0.6 1.2 1.8 2.4 3. ] #10個のビン(離散化)ができた #これをワンホットエンコダー(ダミー)…

第4章 開始

(90m)15:30~17:30 第4章 データの表現と特徴量エンジニアリング 連続値特徴量の他に、離散型特徴量がある。 スケール変換のように特徴量を正確に把握することは分析の第一歩である。これを特徴量エンジニアリングと呼ぶ。 カテゴリ変数:離散型特徴量…

クラスタリングまとめ

(60m) 05:00~06:00 画像はうつった タブ下げができてない Kmeans:クラスタセンタを用いて特徴を表現できる。クラスタセンタによる成分分解手法としても(凝集型と合わせてクラスタ数指定分類) DBSCAN:ノイズ検出可能、クラスタ数も自動、ただし平均的な分類…

DBSCAN 顔画像

(60m) 05:00~06:00 「pythonではじめる機械学習」 クラスタリング:固有数字ではなく区別である。裏:表が一緒であれば0:1も一緒 PCA:大きな特徴量をX軸へ回転(whiten:scalerをかけるか) シルエット係数:よくわからん。コンパクトさを計算する。 最後画…

勉強

(60分)22:00~23:00 「pythonではじめる機械学習」 (3章教師なし学習と前処理) Kmeans : クラスタ指定 距離 AgglomerativeClustering :凝集型クラスタリング クラスタ数指定 DBSCAN : eps(距離?) min_sample(最小個数)指定。epsにmin_sampleがあれ…