コンペ1発目

とりあえず手を動かしてみる精神で、ひろしまQuest2022:河川の水位予測に挑戦してみます。

チュートリアルついてるし、データの理解も早くできそう。

「観測日時、ダムや観測地点の緯度経度、水位、雨量、潮位」から「河川の水位」の推定

 

titanicで使ったLightGBMを用いてみる。

不要なデータを消して、index処理して、stationでmerge・・・

観測所が、水位・雨量・潮位で違うことに気づく。

 

共通港としては水系。これを軸にまとめてみる。

 

 

pandasで前処理

・set_index

drop

・stack() unstack()

 

参考

LightGBMを使って気温予測してみた - Blogress

kaggle始めます

kaggle始めます。start here!ということなので、Titanicから。

学習データの20%を検証データとする。LightGBM(ハイパーパラメータ初期値?)→ハイパーパラメータ調整(1つ)→クロスバリデーションによる学習(3分割)

Titanic - Maクロスバリデーションによる学習c

LightGBMのハイパーパラメータ一例

learning_rate:初期値0.1:学習率。各過程の学習をどの程度反映させるかを決める。

max_bin:初期値225:1つの分岐に入るデータ数の最大数。細かくすると細かく分かれ、大きくすると汎用性が高まる。

num_leaves:初期値31:1つの木に含まれる葉の最大数。木の複雑さを制御。

min_data_in_leaf:初期値20:決定木中における1つの葉における最小のデータ数。過学習をコントロールするための値。データ数によって調整

 

一通りの流れは理解できたが、実際順位を上げるためにどういったプロセスを進むべきかのかがいまいちわからなかった(ハイパーパラメータ調整・クロスバリデーションなど以外に根本的に手法を変えるなど)

 

参加者の知見を共有できるDiscussion(議論の一覧)やCode(ノートブックの一覧)を一通り読みあさる。

 

コンペ内でのトライ&エラーが書いてあって勉強になった。

kurupical.hatenablog.com

モデルとしては、LightGBMで試す→特徴量エンジニアリングが重要(既存特徴量から新しい特徴量を作る)→ドメイン知識も重要

 

 

通勤中にじっくり見よう↓

www.youtube.com

 

個別モデルで行き詰まったら、スタッキング試す?

【機械学習】「スタッキング技術」を実装して予測精度を上げる – 株式会社ライトコード

 

【Pythonメモ】pandas-profilingが探索的データ解析にめちゃめちゃ便利だった件 - Qiita

 

Kaggle参戦記 〜入門からExpert獲得までの半年間の記録 & お役立ち資料まとめ〜 - ML_BearのKaggleな日常

↑いろいろな情報が載っていて勉強になる。

ne Lear

ni

ng from

モデルD

saste

Titanic - Machine Learning from Disaster

Titanic - Machine Learn

Titanic - Machine Learning from Disaster

ing from Disaster

2022年末~元旦の勉強

①Udemyで手を動かしながら勉強~G検定で学んだことをPythonで実践するような感じ。結構ボリュームあって一応一通り機械学習・深層学習・強化学習まで触るような感じだけど実践的ではないようなイメージ。

【世界で91万人が受講】基礎から理解し、Pythonで実装!機械学習26のアルゴリズムを理論と実践を通じてマスターしよう | Udemy

 

②ぜろつく~先輩が飲みに行った翌日に貸してくれた本。旅行中に読めた。Udemyで学んだ内容をもう一つ踏み込んで理解できる。自然言語のほうはもう一回くらい読みたい。

・ゼロから作るDeep LearningPythonで学ぶディープラーニングの理論と実装

・ゼロから作るDeep Learning ❷ ―自然言語処理

 

③コンペ用~2023年コンペ参加のため旅行帰りの飛行機でさくっと読んだ。手は動かしていない。

Pythonで動かして学ぶ! Kaggleデータ分析入門

 

④番外編~3か月の講習の予習に。自分の弱いところがまさにこういうところ。

改訂3版 グロービスMBAクリティカル・シンキング (グロービスMBAシリーズ) 

これまで

プラント制御装置の更新の検討・発注など、PLCなどを使うプラント計装は業務経験あり。本業は、電気設備の設計・施工だけど、事業企画的な業務も少々。

2021年春に基本情報・2022年春に応用情報・秋にG検定合格。趣味程度にプログラミングをかじってきたけどどれも中途半端。

昨今のデータサイエンスの流れを汲み、再度本腰を入れて勉強を始めてみる。

G検定はただの興味で取ってみたけど、とっかかりとしては正解だった気がする。

統計検定3,2級範囲をyoutubeで一周。手を動かしていきたいなど統計検定を取るか悩み中

11月末 大学入学時に購入したMBAの動作が若干遅いからブラックフライデーでPC購入

 

とりあえず手を動かしてみようということでUdemyで講座をいくつか購入

11月中旬開始~

基本的なMLの説明はG検定の勉強の復習のような感じになった。Googlecolabで動画を見ながら実装していく形。簡易的なデータを扱うため概要理解には十分かなと。回帰・分類・クラスタリング・相関ルール学習・強化学習自然言語処理・DL(ANN,CNN)など幅広く。

 

 

 

 

www.udemy.com