月: 2023年6月

corr()を使用して説明変数間の相関係数が全て出力されない場合の対応方法

[概要] Scikit-learnライブラリのLinearRegressionクラスを使用して線形回帰モデル作成後、多重共線性が発生しているかどうかを検知するために相関係数を出力しようとするも、全説明変数間の相関係数が出 […]

Continue reading

Scikit-learnのStandardScalerを使用した学習用データ、テスト用データの標準化方法のあるべき姿

[概要] 機械学習モデル作成に使用される、Scikit-learnライブラリにはStandardScalerというクラスがあります。本クラスを使用する際、学習用データ、テスト用データの標準化方法について2つの具体的コード […]

Continue reading

Scikit-learnのGridSearchCVを使用した場合の最良のパラメータ選択と最小のモデル選択の仕組み

[概要] 機械学習モデル作成に使用される、Scikit-learnライブラリにはGridSearchCVというクラスがあります。本クラスを使用する際、グリッドサーチによる最良のパラメータ選択と、K分割交差検証による最良の […]

Continue reading

Scikit-learnの決定木モデル作成時、DecisionTreeClassifierクラスのハイパーパラメータ設定の注意点

[概要] DecisionTreeClassifierクラスの以下ハイパーパラメータは、それぞれ意味合いが異なります。混同しがちなので注意しましょう。 ・min_samples_split: ノードを分割するために必要な […]

Continue reading

決定木アルゴリズムによる分類モデル作成の仕組み理解のための、学習用データに基づくジニ係数、利得計算Excelシート

[概要] Kaggleの下記URLに登録されている心臓病疾患データを利用し、Scikit-learnのDecisionTreeClassifierクラスを使用し疾患あり、疾患なしの2値分類モデルを作成する仕組みについて理 […]

Continue reading

Kaggleのカリフォルニア住宅価格データセットの注意点

[概要] Kaggleの下記URLに登録されているカリフォルニア住宅価格データセットを利用する上で、2点注意すべきポイントがあります。 Kaggleカリフォルニア住宅価格データセットURL ①各データの単位は1戸の住宅単 […]

Continue reading

Scikit-learnのGridSearchCVを使用した場合のデータセットの分割方法

[概要] 機械学習モデル作成に使用される、Scikit-learnライブラリにはGridSearchCVというクラスがあります。本クラスを使用する際、データセットをK分割交差検証を使用して検証用データを確保したい場合は、 […]

Continue reading