ニューラルネットワークで機械学習を行う方法とその多様な分野での活用
ニューラルネットワークとは、人間の脳の仕組みを模したコンピューターの学習モデルの一種です。機械学習は、コンピューターにデータを与えて、自動的にパターンや規則性を見つけさせる技術です。
ニューラルネットワークは、機械学習の手法の中でも特に高い表現力と汎用性を持ち、さまざまな分野で活用されています。
この記事では、ニューラルネットワークの基礎的な仕組みや構造、機械学習との関係性、そして具体的な応用例について解説します。
ニューラルネットワークの仕組み
ニューラルネットワークは、人間の脳に存在する神経細胞(ニューロン)とその接続(シナプス)を模したものです。ニューロンは、外部からの刺激(入力)を受け取り、それに応じて電気信号(出力)を発生させます。
シナプスは、ニューロン同士を結びつける役割を果たし、信号の強さに影響を与えます。
この図では、左側の丸が入力層、右側の丸が出力層、中央の丸が中間層(隠れ層)と呼ばれる層です。それぞれの丸はニューロン(またはノード)、それぞれの線はシナプス(またはエッジ)を表しています。
各エッジには重み(w)という値が付与されており、信号の強さに影響を与えます。各ニューロンにはバイアス(b)という値が付与されており、信号の閾値に影響を与えます。
ニューラルネットワークでは、入力層から出力層へ向かって信号が伝播していきます。
この過程を順伝播(forward propagation)と呼びます。順伝播では、以下のような計算が行われます。
- 各入力層のニューロンから出力される信号は、そのまま中間層の各ニューロンへ入力されます。
- 各中間層のニューロンでは、入力された信号に対応する重みを掛け合わせたものとバイアスを足し合わせた値(u)を計算します。
- uに対して活性化関数(f)という関数を適用して変換した値(y)を出力します。活性化関数は、入力された値を0から1や-1から1などの範囲に収める役割を果たします。
- 各出力層のニューロンでも同様にuとyを計算しますが、活性化関数は出力層に応じて異なるものが使われます。
例えば、以下のようなニューラルネットワークがあるとします。
このニューラルネットワークでは、入力層にx1とx2の2つの値が入力され、出力層にy1とy2の2つの値が出力されます。中間層には3つのニューロンがあります。
各エッジには重み(w)が、各ニューロンにはバイアス(b)が付与されています。中間層の活性化関数はシグモイド関数(f(u) = 1 / (1 + exp(-u)))、出力層の活性化関数は恒等関数(f(u) = u)とします。
このとき、順伝播の計算は以下のようになります。
- 入力層から中間層へ
- u1 = b1 + w11 * x1 + w21 * x2
- y1 = f(u1) = 1 / (1 + exp(-u1))
- u2 = b2 + w12 * x1 + w22 * x2
- y2 = f(u2) = 1 / (1 + exp(-u2))
- u3 = b3 + w13 * x1 + w23 * x2
- y3 = f(u3) = 1 / (1 + exp(-u3))
- 中間層から出力層へ
- u4 = b4 + w14 * y1 + w24 * y2 + w34 * y3
- y4 = f(u4) = u4
- u5 = b5 + w15 * y1 + w25 * y2 + w35 * y3
- y5 = f(u5) = u5
このようにして、入力層から出力層へ信号が伝播していきます。出力層の値は、ニューラルネットワークの予測値となります。
ニューラルネットワークの学習
ニューラルネットワークの学習とは、与えられたデータに対して最適な重みとバイアスを求めることです。最適な重みとバイアスとは、出力層の予測値と正解値との誤差(損失)が最小になるような値です。
ニューラルネットワークの学習では、以下のような手順で行われます。
- データを訓練データとテストデータに分割する
- 訓練データを用いて順伝播を行い、出力層の予測値を計算する
- 出力層の予測値と正解値との誤差(損失)を計算する
- 損失関数(L)という関数を用いて、全ての訓練データに対する損失の合計を求める
- 損失関数(L)を最小化するように、重み(w)とバイアス(b)を更新する
- 更新した重み(w)とバイアス(b)を用いて再び順伝播を行い、損失関数(L)を計算する
- 損失関数(L)が十分に小さくなるか、あるいは変化しなくなるまで、重み(w)とバイアス(b)の更新を繰り返す
- テストデータを用いて順伝播を行い、出力層の予測値を計算する
- 出力層の予測値と正解値との誤差(損失)を計算する
- 損失を用いて、ニューラルネットワークの性能(精度)を評価する
重み(w)とバイアス(b)の更新は、逆伝播(back propagation)と呼ばれる手法で行われます。逆伝播では、以下のような計算が行われます。
- 出力層から中間層へ向かって、各ニューロンの出力に対する損失関数(L)の変化量(勾配)を計算する
- 勾配に学習率(α)という値を掛け合わせたものを、重み(w)とバイアス(b)から引くことで、重み(w)とバイアス(b)を更新する
- 中間層から入力層へ向かって、同様に勾配を計算し、重み(w)とバイアス(b)を更新する
例えば、以下のようなニューラルネットワークがあるとします。
このニューラルネットワークでは、出力層にy1とy2の2つの値が出力されますが、正解値はt1とt2の2つの値です。損失関数は二乗誤差(L = (y1 – t1)^2 + (y2 – t2)^2 / 2)とします。このとき、逆伝播の計算は以下のようになります。
- 出力層から中間層へ
- y1に対する損失関数の勾配は、∂L / ∂y1 = y1 – t1です。
- y1はu4に対する恒等関数なので、u4に対する損失関数の勾配は、∂L / ∂u4 = ∂L / ∂y1 * ∂y1 / ∂u4 = y1 – t1です。
- u4はw14, w24, w34, b4, y1, y2, y3に依存しているので、それぞれに対する損失関数の勾配は以下のようになります。
- ∂L / ∂w14 = ∂L / ∂u4 * ∂u4 / ∂w14 = (y1 – t1) * y1
- ∂L / ∂w24 = ∂L / ∂u4 * ∂u4 / ∂w24 = (y1 – t1) * y2
- ∂L / ∂w34 = ∂L / ∂u4 * ∂u4 / ∂w34 = (y1 – t1) * y3
- ∂L / ∂b4 = ∂L / ∂u4 * ∂u4 / ∂b4 = (y1 – t1) * 1
- ∂L / ∂y1 = ∂L / ∂u4 * ∂u4 / ∂y1 = (y1 – t1) * w14
- ∂L / ∂y2 = ∂L / ∂u4 * ∂u4 / ∂y2 = (y1 – t1) * w24
- ∂L / ∂y3 = ∂L / ∂u4 * ∂u4 / ∂y3 = (y1 – t1) * w34
- 同様にして、y2に対する損失関数の勾配やそれに依存する変数に対する損失関数の勾配も計算します。
- それぞれの重みやバイアスに対する損失関数の勾配は、y1とy2から来る勾配の和になります。
- それぞれの重みやバイアスを、勾配に学習率を掛け合わせたものを引くことで更新します。
- 中間層から入力層へ
- y1, y2, y3に対する損失関数の勾配は、出力層から計算したものを用います。
- y1, y2, y3はそれぞれu1, u2, u3に対するシグモイド関数なので、u1, u2, u3に対する損失関数の勾配は、∂L / ∂ui = ∂L / ∂yi * ∂yi / ∂ui = ∂L / ∂yi * yi * (1 – yi)です。
- u1, u2, u3はそれぞれw11, w12, w13, w21, w22, w23, b1, b2, b3, x1, x2に依存しているので、それぞれに対する損失関数の勾配は以下のようになります。
- ∂L / ∂w11 = ∂L / ∂u1 * ∂u1 / ∂w11 = ∂L / ∂y1 * y1 * (1 – y1) * x1
- ∂L / ∂w12 = ∂L / ∂u2 * ∂u2 / ∂w12 = ∂L / ∂y2 * y2 * (1 – y2) * x1
- ∂L / ∂w13 = ∂L / ∂u3 * ∂u3 / ∂w13 = ∂L / ∂y3 * y3 * (1 – y3) * x1
- …
- ∂L / ∂b1 = ∂L / ∂u1 * ∂u1 / ∂b1 = ∂L / ∂y1 * y1 * (1 – y1) * 1
- …
- それぞれの重みやバイアスを、勾配に学習率を掛け合わせたものを引くことで更新します。
このようにして、出力層から入力層へ向かって重みとバイアスを更新していきます。これを繰り返すことで、ニューラルネットワークはデータに適応して学習していきます。
ニューラルネットワークの応用
ニューラルネットワークは、さまざまな分野で応用されています。例えば、以下のような応用例があります。
- 画像認識:ニューラルネットワークは、画像の中に含まれる物体や人物、文字などを認識することができます。例えば、顔認識や手書き文字認識などがあります。
- 自然言語処理:ニューラルネットワークは、自然言語(人間が話す言語)を理解したり生成したりすることができます。例えば、機械翻訳や音声認識や文章生成などがあります。
- 強化学習:ニューラルネットワークは、自ら試行錯誤しながら最適な行動を学習することができます。例えば、ゲームやロボットなどがあります。
ニューラルネットワークは、その構造やパラメータを変えることで、さまざまな問題に対応できる柔軟性を持っています。
例えば、中間層の数やニューロンの数を増やしたり減らしたりすることで、ニューラルネットワークの表現力や学習速度を調整できます。
また、活性化関数や損失関数を変えることで、ニューラルネットワークの出力の形式や最適化の方法を変えることができます。
さらに、入力層や出力層の形式を変えることで、ニューラルネットワークの入力や出力の種類を変えることができます。これらの工夫によって、ニューラルネットワークは多様な応用に適用されています。
動画で学びたい人向け!深層学習を動画で学ぼう!初心者におすすめの動画コンテンツ3選はこちら
まとめ
ニューラルネットワークは、人間の脳の仕組みを模したコンピューターの学習モデルです。
ニューラルネットワークは、入力層、中間層、出力層という3つの層から構成されており、各層にはニューロンとシナプスという要素があります。
ニューラルネットワークは、順伝播と逆伝播という2つの手順で信号を伝播させて学習します。ニューラルネットワークは、その構造やパラメータを変えることで、さまざまな分野で応用されています。
コメント