第4章 開始
(90m)15:30~17:30
第4章 データの表現と特徴量エンジニアリング
連続値特徴量の他に、離散型特徴量がある。
スケール変換のように特徴量を正確に把握することは分析の第一歩である。これを特徴量エンジニアリングと呼ぶ。
カテゴリ変数:離散型特徴量である。例えば職業や学歴など・・・
ワンホットエンコーディング(ダミー変数):カテゴリ変数に1or0を当てはめる。しかもそれはそれぞれの回答に。
(例:【職業】「公務員であるかどうか」1or0 「民間かどうか」1or0 「無職かどうか」1or0・・・)
pd.get_dummies()
カテゴリデータチェック:スペルミスや表記の違いなどのためにどのようなカテゴリ分けされているかすべて確認するべき
.value_counts()
数字か言葉か:仮に(質問:「職業」回答「1:公務員 2:民間 3:無職」)があったとすると回答は1~3に収束され、連続値特徴量と誤解する。ワンホットエンコーディングは数字の特徴量は即ち連続量と捉える為、ダミー作成のため変換が必要である。
x.astype(str)
get_dummies(X_data,columns=[x(指定)])
#忘れた
LogisticRegression:すぐ忘れるので困る。