離婚後の日記

離婚した。

セブ(モアルボアル)

離婚することにした。 だから数少ない独身の友人と連絡を取り合うようにもなり、旅行に行くことになったのだ。一人は旅行の企画者である独身貴族のダイビング狂いであり、もう一人は薄汚いオタクであったが彼はもうすぐ婚約するという。 結婚を諦めて趣味に…

シン・仮面ライダー

最初の3分公開で見に行くことを決めた。 改造人間である気持ち悪さを強調してほしかったのだが最初だけだった。最初はすごく良かった。後は格好良くてニコニコしてしまう感じだった。決して悪くはない。本当に大人になって仮面ライダーを観た気分。 改造人間…

THE FIRST SULM DUNK

アリウープからずっと泣く。両隣の女子に気を使って歯ぎしりしながら泣く。本当は嗚咽混じりで泣きたかった。30代男子はすべからく泣く。 スラムダンクの面白さに気付かされて井上雄彦はやっぱり天才だった。きっちり原作をなぞりながら別要素も絡めて最高の…

詰むや詰まざるや 西武vsヤクルト

プロ野球には全く興味がない。スポーツ観戦自体が間の抜けた趣味だとすら思う。スポーツなんてものは見るのならばやるべきである。百歩譲って経験のある競技の観戦でなければならない。プロの高度な技術の良し悪しなど経験者ですら理解は困難だ。 但し、書籍…

続かない勉強

自分を高めようとして勉強するのだけれど、やっぱり諦めてしまう。3日坊主とは言わない。でも1ヶ月坊主くらいにはなってしまう。 これまで続いた習慣を振り返って理由付を複数にするといいのではないかと思った。 ランニングのときはまずはダイエットの為、…

ゴルフとサーフィン

ゴルフとサーフィンにハマっているのだけれど両者でいつも思うのは晴天とはとても素晴らしいということだ。そして運動が全てを忘れさせてくれることだ。 鬱病患者は外に出ろというのはきっと正しい。それが私の実感である。 すべての私の趣味は何かを忘れる…

離婚した。子供のいない穴。

離婚した。厳密には離婚調停中である。 子供の親権はとられそうだ。無念。 子供がいなくなった生活の穴、心の穴は大きい。すごく大きい。 土日の時間のあまり具合がすさまじい。午前中にはやりたいことは終わっている。 最初はゲームなんかもしてた。なんだ…

競馬

競馬予想AIできた。 ただ、1番人気の予想に勝つのは難しい。 競馬場のおっさんがいかに真剣なのか、人間の知恵がいかに偉大なのか思い知らされる。 下位3割を切ったがこれでいいのか。 ハイパーパラメータを理解したい。 季節を特徴量に入れたい。 調教も入…

今やっていること

星がついたので久しぶりに書く。 怠けていた。 在宅勤務は勉強するのに最適だ。 平日は毎朝5km走る。 今は競馬の機械学習に挑戦。 まだデータの前処理中。 でも結局3次元のデータフレームにしなきゃいけないのか、それがわからん。 また目標を見失うかも。…

8/4

バッチ(束)を作ると処理速度が上がる。 ニューラルネットワークは係数と重み。 ディープラーニング 損失関数で何を用いるか

ゼロから作るディープラーニング

区民プールで泳ぐようになる。 新しい本を買った。 3章 ニューラルネットワーク np.exp(a) e(ネイピア数)のa乗 ソフトマックス関数 np.exp(a)/np.sum(np.exp(a)) ソフトマックス関数を使う出力は総和が1であり確率的な分類ができる。

7章 テキストデータの処理

7章 コードにわからない部分が多い。導入も苦労した。 ・BOW(bag of words) 1-トークン分割 スぺースや句読点で句切り、細かい単位(単語…)にする。 2-ボキャブラリ構築 ボキャブラリとして整理し番号をつける。 3-エンコード 個々の文章に現れる回数を数…

6章 アルゴリズムチェーンとパイプライン

間が空いてしまって色々忘れる。 継続しなければならない。 6章 前処理を検証用テストデータにも適用してしまうと過度な汎化が起きる。(? 例えばMinMaxを全データにかけてしまうと、汎化能力が上がる(場合もある)が 実際にはテストデータは未知なもので…

5.3.2.6受信者動作特性(ROC)とAUC

(30m)12:00~12:30 5.3.2.6受信者動作特性(ROC)とAUC ROCカーブ: 全てのスレッショルドを考慮して偽陽性率(FPR)と真陽性率(TPR)をプロットする。 FPR=FP/FP+TN(偽陽性を全ての陰性で割る) AUC: カーブ下の領域を呼ぶ。…

5.3.2.4 不確実性を考慮する~ 5.3.2.5 適合率-再現率カーブとROCカーブ

(60m)06:00~07:00 5.3.2.4 decision_function(決定指向数 0を境に分類強度を図る) predict_proba(1~0の間で分類強度を図る) のthresholdを変更することで precison(適合率),recall(再現率)の能力を変動できる。 predict_probaがある場合は割合で指…

5.2.3.3~5.3 評価基準とスコア

(60m)15:00~16:00 5.3評価基準とスコア 実際には偏ったデータが多い為、R2スコアではわからない部分がたくさんある。 以下に注意。 エラーの種類: 陽性 :TP(True positive 求めている成果) 偽陽性:FP(False positive) 陰性 :TN(True negative) …

5.2 グリッドサーチ

(45m)09:30~10:15 5.2グリッドサーチ 5.2.3交差検証を使用したグリッドサーチ SVCのCとgammaで一番汎化性能が高いモデルを探る。 ①:for inで総当たり。 for gamma in[0.001,0.01,0.1,1,10,100]: for C in [0.001,0.01,0.1,1,10,100]: svm =SVC(gamma=gamma,…

5章 モデルの改良と評価 5.1交差検証

(60m)07:00~08:00 5.1 交差検証 k分割交差検証:KFold データを分割し、訓練とテストに振り分け評価を繰り返す。 例:①~⑤に分割→①をテスト残りを訓練→②をテスト残りを訓練→繰り返し 層化k分割交差検証:StratifiedKFold ターゲットの分類が均一だとただの…

わからん

R2スコア0~1 POSIX時刻=UNIX時間 テストデータは訓練データよりPOSIX時刻が後である。決定木は訓練セットの外まで外挿できない。 #interaction_only=Trueで各要素が交互作用のみ? poly_transformer=PolynomialFeatures(degree=2,interaction_only=…

4.6 専門家知識の利用

(60m)16:30~17:30 4.6 自転車レンタルを例に総合。 ランダムフォレストでの推測 ↓ 時間要素を追加 [0],[3],[6],... #[0時],[3時]... ↓ 曜日要素を追加 X_hour_week=np.hstack([citibike.index.dayofweek.values.reshape(-1,1),citibike.index.hour.val…

4.4単変量非線形変換~4.5自動特徴量変換

(60m)05:30~06:30 4.4 乗数の変換が有用であったように、log,sin,cosの変換も有用である(前回同様場合による) (???) ほとんどのモデルは「ガウス分布」に従っているときに最もうまく機能する。 つまり見慣れた「ベルカーブ」になる場合である。…

4.3 交互作用と多項式

(60m)13:00~14:00 ビニング毎の傾き: binsはダミーして0or1状態なので X_product=np.hstack([X_binned,X*X_binned])で bin + bin*特徴量を作ると傾きも出る。 Plynomial Features: (degree=X)に応じて特徴量を拡張する。 どのような拡張したかは poly…

復習

datasetは.keys()で調べよう。 logistic regressionはクラス分類の線形モデル(デフォルトでL2正則化あり)

4.2 ビニング

(60m)08:30~09:30 4.2 ビニング(決定木、線形モデル) ビニング(離散化):データを分割する。 bins=np.linspace(-3,3,11) bins:[-3. -2.4 -1.8 -1.2 -0.6 0. 0.6 1.2 1.8 2.4 3. ] #10個のビン(離散化)ができた #これをワンホットエンコダー(ダミー)…

第4章 開始

(90m)15:30~17:30 第4章 データの表現と特徴量エンジニアリング 連続値特徴量の他に、離散型特徴量がある。 スケール変換のように特徴量を正確に把握することは分析の第一歩である。これを特徴量エンジニアリングと呼ぶ。 カテゴリ変数:離散型特徴量…

ロードバイク

(120m)0600-0800 約40kmロードバイク。春は蚊柱が半端じゃない。上流の花畑付近が特にひどい。下流のほうがいい。

クラスタリングまとめ

(60m) 05:00~06:00 画像はうつった タブ下げができてない Kmeans:クラスタセンタを用いて特徴を表現できる。クラスタセンタによる成分分解手法としても(凝集型と合わせてクラスタ数指定分類) DBSCAN:ノイズ検出可能、クラスタ数も自動、ただし平均的な分類…

DBSCAN 顔画像

(60m) 05:00~06:00 「pythonではじめる機械学習」 クラスタリング:固有数字ではなく区別である。裏:表が一緒であれば0:1も一緒 PCA:大きな特徴量をX軸へ回転(whiten:scalerをかけるか) シルエット係数:よくわからん。コンパクトさを計算する。 最後画…

走る

(30分)05:15~05:45 30分 5km またひざ痛はじまる

勉強

(60分)22:00~23:00 「pythonではじめる機械学習」 (3章教師なし学習と前処理) Kmeans : クラスタ指定 距離 AgglomerativeClustering :凝集型クラスタリング クラスタ数指定 DBSCAN : eps(距離?) min_sample(最小個数)指定。epsにmin_sampleがあれ…