7.1.2. Example: MNIST on MN-Core 2

MNIST データセットを対象に、MN-Core 2 上で学習と推論を行うサンプルプログラム

学習結果は --outdir に指定された先の checkpoint.pt ファイルに保存されます (デフォルトでは /tmp/mlsdk_mnist/checkpoint.pt)。

実行方法

$ cd /opt/pfn/pfcomp/codegen/examples/
$ ./exec_with_env.sh python3 mnist.py

想定出力

学習中のログ

epoch 0, iter    0, loss 2.3125
epoch 0, iter  100, loss 0.6226431969368814
...
epoch 9, iter  900, loss 0.10909322893182918
epoch 9, loss 0.11064393848594248

推論結果

Correct: 9609 / 10000. Accuracy: 0.9609

関連リンク

サンプルプログラム

リスト 7.2 /opt/pfn/pfcomp/codegen/MLSDK/examples/mnist.py

import argparse
import random
from pathlib import Path
from typing import Mapping, Optional

import numpy as np
import torch
from mlsdk import (
    Context,
    MNCoreSGD,
    MNDevice,
    set_buffer_name_in_optimizer,
    set_tensor_name_in_module,
    storage,
)

from mnist_common import mnist_loaders, MNCoreClassifier

torch.manual_seed(0)
random.seed(0)
np.random.seed(0)


def main(outdir: str, option_json_path: Optional[Path], device_str: str) -> None:
    batch_size = 64
    eval_batch_size = 125

    device = MNDevice(device_str)
    context = Context(device)
    Context.switch_context(context)

    train_loader, eval_loader = mnist_loaders(batch_size, eval_batch_size)

    model_with_loss_fn = MNCoreClassifier()
    model_with_loss_fn.train()
    set_tensor_name_in_module(model_with_loss_fn, "model_with_loss_fn")
    for p in model_with_loss_fn.parameters():
        context.register_param(p)

    optimizer = MNCoreSGD(model_with_loss_fn.parameters(), 0.1, 0.9, 0.0)
    set_buffer_name_in_optimizer(optimizer, "optimizer")
    context.register_optimizer_buffers(optimizer)

    def train_step(inp: Mapping[str, torch.Tensor]) -> Mapping[str, torch.Tensor]:
        x = inp["x"]
        t = inp["t"]
        optimizer.zero_grad()
        output = model_with_loss_fn(x, t)
        loss = output["loss"]
        loss.backward()
        optimizer.step()
        return {"loss": loss}

    compile_options = {}
    if option_json_path is not None:
        compile_options["option_json"] = str(option_json_path)

    sample = next(iter(train_loader))
    compiled_train_step = context.compile(
        train_step,
        sample,
        storage.path(outdir) / "train_step",
        options=compile_options,
    )

    for epoch in range(10):
        loss = 0.0
        for i, sample in enumerate(train_loader):
            curr_loss = compiled_train_step(sample)["loss"].item()
            loss += (curr_loss - loss) / (i + 1)
            if i % 100 == 0:
                print(f"epoch {epoch}, iter {i:4}, loss {loss}")
        print(f"epoch {epoch}, loss {loss}")

    context.synchronize()

    torch.save(
        {
            "model_state_dict": model_with_loss_fn.state_dict(),
            "optim_state_dict": optimizer.state_dict(),
        },
        storage.path(outdir) / "checkpoint.pt",
    )

    model_with_loss_fn.eval()

    def eval_step(inp: Mapping[str, torch.Tensor]) -> Mapping[str, torch.Tensor]:
        x = inp["x"]
        t = inp["t"]
        output = model_with_loss_fn(x, t)
        y = output["y"]
        _, predicted = torch.max(y, 1)
        correct = (predicted == t).sum()
        return {"correct": correct}

    sample = next(iter(eval_loader))
    compiled_eval_step = context.compile(
        eval_step,
        sample,
        storage.path(outdir) / "eval_step",
        options=compile_options,
    )
    correct = 0
    for sample in eval_loader:
        correct += compiled_eval_step(sample)["correct"].item()
    print(
        f"Correct: {correct} / {len(eval_loader.dataset)}. "
        f"Accuracy: {correct / len(eval_loader.dataset)}"
    )
    assert 0.95 < correct / len(eval_loader.dataset)


if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--outdir", type=str, default="/tmp/mlsdk_mnist")
    parser.add_argument("--option_json", type=Path, default=None)
    parser.add_argument("--device", type=str, default="mncore2:auto")
    args = parser.parse_args()
    main(args.outdir, args.option_json, args.device)