それらを使用して新しいデータを予測するには、インターネットを介してデータを展開し、外部が使用できるようにする必要があります。この記事では、機械学習モデルをトレーニングし、Flaskを使用してその上にウェブアプリケーションを構築した方法について説明します。
このモデルで使用される必要なライブラリを多数インストールする必要があります。 pipを使用してすべてのライブラリをインストールします。
pip install pandas pip install numpy pip install sklearn
デシジョンツリー— b>
デシジョンツリー—使いやすく、弾力性があり、柔軟性があるため、よく知られている教師あり機械学習アルゴリズムです。 UCI機械学習リポジトリから成人向けデータセットにアルゴリズムを実装しました。
データを取得します—
データセットは
データセットの取得は終わりではありません。データを前処理する必要があります。つまり、データセットをクリアする必要があります。データセットのクレンジングには、欠落している値の削除、NA値の入力など、さまざまなタイプのプロセスが含まれます。
#データセットのインポート
< / p>
import
pandas
import
numpy
from
sklearn
import
前処理
df
=
pandas.read_csv(
`adult.csv`
)
df.head()
出力:
データセットの前処理&#8212; b>
14の属性と、個人の収入が年間5万未満かそれ以上かを示すクラスラベルで構成されています。これらの属性は、人の年齢、労働者階級のラベル、関係のステータス、および人が属する人種にまで及びます。すべての属性に関する情報はここにあります。
最初に、欠落しているすべての値を見つけてデータから削除します。この列では、欠落している値をモード値に置き換えました。欠落している値を置き換える方法は他にもたくさんありますが、これはこのデータセットタイプに最適のようです。
機械学習アルゴリズムは、カテゴリデータ値を処理できません。数値のみを処理できます。 離散性&#8212; b>は、カテゴリデータをより正確で意味のあるものにするための一般的な方法です。
出力:
|