概要
PyTorchでニューラルネットワークによる重回帰分析をやってみました。
環境
- PyTorch 2.0.1
- Python 3.11.4
モデルについて
私が今回利用したのは、Kaggleで公開されている次のデータです。
https://www.kaggle.com/datasets/shivam2503/diamonds
ダイアモンドの価格や大きさ、透明度などの情報があるので、ダイアモンドの価格を予想するモデルを作成することにしました。
統計学的な手法であれば、重回帰係数を求めるというモデル作成方法がありますが、今回はPyTorchを利用してニューラルネットワークによるダイアモンド価格の予想モデルを作成します。
コード
PyTorchで重回帰分析のようなことをする場合、通常の分類モデルと同様のコードを利用できます。
class Net(nn.Module):
def __init__(self, input_dim, output_dim):
super(Net, self).__init__()
self.fc1 = nn.Linear(input_dim, 100)
self.fc2 = nn.Linear(100, 10)
self.fc3 = nn.Linear(10, output_dim)
def forward(self, x):
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
return self.fc3(x)
model = Net(26, 1).to(device)
optimizer = optim.Adam(model.parameters(), lr=0.001)
criterion = nn.MSELoss()
# X_trainに学習データの説明変数、X_test学習データの目的変数にデータが入っています
epochs = 20
data_size = len(X_train)
for epoch in range(epochs):
loss_sum = 0
for num in range(0, data_size):
x = X_train[num].to(device)
y = Y_train[num].to(device)
optimizer.zero_grad()
output = model(x)
loss = criterion(output.reshape(y.shape), y)
loss.backward()
optimizer.step()
loss_sum += loss.item()
print(f"Epoch: {epoch+1}/{epochs}, Loss: {loss_sum / len(X_train)}")
重要な部分は、criterion = nn.MSELoss()
です。損失関数に平均二乗誤差(MSELoss)を利用します。これで、ニューラルネットワークの出力として任意の値を取得できます。
分類で使われるBCELossやCrossEntropyLossでは、あくまでも0か1などの値をとり、分類を行うものです。回帰を行うのであれば、今回利用している平均二乗誤差(MSELoss)や平均絶対値誤差(L1Loss)などを使う必要があります。
さいごに
最近、PyTorchを使ってニューラルネットワークのモデルを作成するということをしています。
2値分類や多値分類はたくさん情報があるのですが、重回帰についての情報はあまりなく、探すのに苦労しました。