import torch
import torch.nn as nn
import torch.nn.functional as F
from torchvision import datasets, transforms
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
latent_dim = 20
num_classes = 10
batch_size = 128
img_size = 28
img_channels = 1

transform = transforms.ToTensor()
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

def one_hot(labels, num_classes=10):
    return F.one_hot(labels, num_classes).float()

class CVAE(nn.Module):
    def __init__(self, latent_dim, num_classes):
        super(CVAE, self).__init__()
        self.latent_dim = latent_dim
        self.num_classes = num_classes

        self.encoder = nn.Sequential(
            nn.Linear(28*28 + num_classes, 400),
            nn.ReLU()
        )
        self.fc_mu = nn.Linear(400, latent_dim)
        self.fc_logvar = nn.Linear(400, latent_dim)

        self.decoder_input = nn.Linear(latent_dim + num_classes, 400)
        self.decoder = nn.Sequential(
            nn.ReLU(),
            nn.Linear(400, 28*28),
            nn.Sigmoid()
        )

    def encode(self, x, labels):
        x = x.view(x.size(0), -1)
        x = torch.cat([x, labels], dim=1)
        h = self.encoder(x)
        return self.fc_mu(h), self.fc_logvar(h)

    def reparameterize(self, mu, logvar):
        std = torch.exp(0.5 * logvar)
        eps = torch.randn_like(std)
        return mu + eps * std

    def decode(self, z, labels):
        z = torch.cat([z, labels], dim=1)
        h = self.decoder_input(z)
        return self.decoder(h).view(-1, 1, 28, 28)

    def forward(self, x, labels):
        mu, logvar = self.encode(x, labels)
        z = self.reparameterize(mu, logvar)
        recon = self.decode(z, labels)
        return recon, mu, logvar

def loss_function(recon_x, x, mu, logvar):
    BCE = F.binary_cross_entropy(recon_x, x, reduction='sum')
    KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp())
    return BCE + KLD

model = CVAE(latent_dim, num_classes).to(device)
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)

epochs = 100
model.train()
for epoch in range(epochs):
    total_loss = 0
    for imgs, labels in train_loader:
        imgs = imgs.to(device)
        labels_onehot = one_hot(labels).to(device)

        optimizer.zero_grad()
        recon, mu, logvar = model(imgs, labels_onehot)
        loss = loss_function(recon, imgs, mu, logvar)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    avg_loss = total_loss / len(train_loader.dataset)
    if epoch % 10 == 0 or epoch == 0:
        print(f"Epoch [{epoch+1}/{epochs}], Loss: {avg_loss:.4f}")

def show_generated_digit(model, digit=4):
    model.eval()
    with torch.no_grad():
        z = torch.randn(1, latent_dim).to(device)
        labels = one_hot(torch.tensor([digit]), num_classes).to(device)
        generated = model.decode(z, labels).cpu()

        plt.imshow(generated[0].squeeze(), cmap='gray')
        plt.axis('off')
        plt.show()

show_generated_digit(model, digit=4)

Variational Autoencoders on MNIST¶

1. Import Libraries

2. Hyperparameters

3. Load Dataset

4. One-Hot Label Encoding

5. Why Variational Autoencoders?

6. Conditional VAE Model

7. Loss Function

8. Training

9. Generate Digits