!pip install -q datasets transformers accelerate transformers[sentencepiece] sacrebleu rouge_score py7zr

from datasets import load_dataset
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import DataCollatorForSeq2Seq
from transformers import TrainingArguments, Trainer
from transformers import pipeline
import warnings
warnings.filterwarnings("ignore")

model_checkpoint = "t5-small"

tokenizer = AutoTokenizer.from_pretrained(model_checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint).to("cuda")

dataset = load_dataset("knkarthick/samsum")
dataset

def tokenize_content(data):
    dialogues = data["dialogue"]
    summaries = data["summary"]

    inputs = ["summarize: " + d if d else "summarize: " for d in dialogues]
    targets = [s if s else "" for s in summaries]

    input_encoding = tokenizer(inputs, max_length=1024, truncation=True, padding="max_length")
    with tokenizer.as_target_tokenizer():
        target_encoding = tokenizer(targets, max_length=128, truncation=True, padding="max_length")

    return {
        "input_ids": input_encoding["input_ids"],
        "attention_mask": input_encoding["attention_mask"],
        "labels": target_encoding["input_ids"],
    }

tokenized_dataset = dataset.map(tokenize_content, batched=True)

seq2seq_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

training_args = TrainingArguments(
    output_dir="t5-samsum-model",
    num_train_epochs=1,
    per_device_train_batch_size=1,
    per_device_eval_batch_size=1,
    warmup_steps=500,
    weight_decay=0.01,
    logging_steps=10,
    eval_steps=500,
    save_steps=1e6,
    gradient_accumulation_steps=16,
    report_to="none"
)

trainer = Trainer(
    model=model,
    args=training_args,
    tokenizer=tokenizer,
    data_collator=seq2seq_collator,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"]
)

trainer.train()

model.save_pretrained("t5_samsum_finetuned_model")
tokenizer.save_pretrained("t5_samsum_tokenizer")

tokenizer = AutoTokenizer.from_pretrained("t5_samsum_tokenizer")
model = AutoModelForSeq2SeqLM.from_pretrained("t5_samsum_finetuned_model").to("cuda")
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

sample_text = '''Luffy: Naruto! You won the ramen eating contest again?! That's your fifth win this month!

Naruto: Believe it, Luffy! Ichiraku's secret menu is my new training ground. Gotta keep up the chakra and the appetite!

Luffy: Haha! I like that! I trained by eating 20 meat-on-the-bone last night. Zoro thought I was insane.

Naruto: Bro, I've fought Akatsuki, and even I think that's dangerous. What's next? Competing with Goku?

Luffy: Maybe! But first I wanna become the Pirate King. Then I'll eat ramen on the moon!

Naruto: You sure talk big, rubber boy. But I respect that. Becoming Hokage wasn't easy either.

Luffy: We're kinda the same, huh? Chasing dreams, fighting crazy villains, making loyal friends.

Naruto: True that. Though I don't have a reindeer doctor or a skeleton with an afro.

Luffy: And I don't have a giant fox inside me. We're even!

Naruto: Hey, wanna team up for a mission? I heard there's a lost treasure in the Hidden Mist village.

Luffy: Treasure?! I'm in! Let's go find it, and maybe snack along the way.

Naruto: Deal. I'll bring the kunai, you bring the appetite.

Luffy: This is gonna be epic! Let's GO!!!

Naruto: Dattebayo!!!'''

from IPython.display import Markdown, display

result = summarizer(sample_text, max_length=100, min_length=30, do_sample=False)
display(Markdown(f"**Summary:** {result[0]['summary_text']}"))

Model	Params	Prefix needed
`t5-small`	60M	`"summarize: "`
`google/flan-t5-small`	80M	`"summarize: "`
`facebook/bart-base`	139M	none
`sshleifer/distilbart-cnn-12-6`	139M	none
`t5-base`	220M	`"summarize: "`
`google/flan-t5-base`	250M	`"summarize: "`
`facebook/bart-large`	406M	none
`google/pegasus-cnn_dailymail`	568M	none
`t5-large`	770M	`"summarize: "`

Fine-tuning Google T5-Small on Summarization¶

1. Import Libraries

2. Load Model & Tokenizer

3. Load SAMSum Dataset

4. Tokenize the Dataset

5. Setup Data Collator

6. Define Training Arguments

7. Initialize Trainer

8. Train the Model

9. Save Model & Tokenizer

10. Reload & Setup for Inference

11. Test on Sample Dialogue

12. Generate & Display Summary