kaggle始めます
kaggle始めます。start here!ということなので、Titanicから。
学習データの20%を検証データとする。LightGBM(ハイパーパラメータ初期値?)→ハイパーパラメータ調整(1つ)→クロスバリデーションによる学習(3分割)
Titanic - Maクロスバリデーションによる学習c
LightGBMのハイパーパラメータ一例
learning_rate:初期値0.1:学習率。各過程の学習をどの程度反映させるかを決める。
max_bin:初期値225:1つの分岐に入るデータ数の最大数。細かくすると細かく分かれ、大きくすると汎用性が高まる。
num_leaves:初期値31:1つの木に含まれる葉の最大数。木の複雑さを制御。
min_data_in_leaf:初期値20:決定木中における1つの葉における最小のデータ数。過学習をコントロールするための値。データ数によって調整
一通りの流れは理解できたが、実際順位を上げるためにどういったプロセスを進むべきかのかがいまいちわからなかった(ハイパーパラメータ調整・クロスバリデーションなど以外に根本的に手法を変えるなど)
参加者の知見を共有できるDiscussion(議論の一覧)やCode(ノートブックの一覧)を一通り読みあさる。
コンペ内でのトライ&エラーが書いてあって勉強になった。
モデルとしては、LightGBMで試す→特徴量エンジニアリングが重要(既存特徴量から新しい特徴量を作る)→ドメイン知識も重要
通勤中にじっくり見よう↓
個別モデルで行き詰まったら、スタッキング試す?
【機械学習】「スタッキング技術」を実装して予測精度を上げる – 株式会社ライトコード
【Pythonメモ】pandas-profilingが探索的データ解析にめちゃめちゃ便利だった件 - Qiita
Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常
↑いろいろな情報が載っていて勉強になる。