ありまっくすのへっぽこ日記

アラフォーでへっぽこエンジニアをしております。へっぽこなりに頑張っています。

AIジョブカレ3回目に参加してきました

先々週の話ですが。。。

水曜日はAIジョブカレの第3回目に参加してきました。

 

今回のテーマは「分類」でした。例えば、「スパムメール」か「スパムメールでない」のようなものが挙げられます。

 

分類方法にはいくつか種類があります。

K近傍法

学習をしない方法(怠惰学習という)で、予測したいデータと距離の近いk個の訓練データの正解ラベルから予測を決定します。

「自分と周りは同じだろう」という前提の方法

ロジスティック回帰

以下の最小化問題を解き、重みパラメータ(w)を学習していきます。

機械学習は、損失関数を最小化していく

 

f:id:ari_max:20171202183422p:plain

http://scikit-learn.org/stable/modules/linear_model.html#logistic-regressionより


式の前半部分(+の前まで)はL2正則化といわれており、過学習を防ぐためにモデルに対してペナルティを与えています。(極端なデータが与えられた時にあまり学習しないようにする)

C の値が大きければ、正則化の効力が相対的に下がります。

yi=1(正しい例)のデータの戻り値が大きく、yi=-1(間違っている例)のデータの戻り値が小さくなるようなwを探していきます。 

最終的に、スコアはロジスティック関数によって確率に変換されます。 

ニューラルネットワーク 

入力されたデータによって発火する、脳のニューロンの仕組みを応用したもの。

下の図のように、入力層、隠れ層、出力層からなり、重みパラメータを学習していきます。

 

f:id:ari_max:20171202194024p:plain

http://scikit-learn.org/stable/modules/neural_networks_supervised.htmlより

力尽きたので、今日はここまで。