whisper-tiny-it

Fine-tuned openai/whisper-tiny (39M params) for Italian automatic speech recognition (ASR).

Author: Ettore Di Giacinto

Brought to you by the LocalAI team. This model can be used directly with LocalAI.

Results

Evaluated on Common Voice 25.0 Italian test set (15,184 samples):

Step	Train Loss	Eval Loss	WER
1000	—	0.59	37.1%
3000	0.42	0.47	30.8%
5000	—	0.43	28.7%
10000	0.29	0.40	27.1%

Training Details

Base model: openai/whisper-tiny (39M parameters)
Dataset: Common Voice 25.0 Italian (173k train, 15k dev, 15k test)
Steps: 10,000 (batch size 32, ~1.8 epochs)
Learning rate: 1e-5 with 500 warmup steps
Precision: bf16 on NVIDIA GB10
Training time: ~2 hours

Usage

Transformers

from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model="LocalAI-io/whisper-tiny-it")
result = pipe("audio.mp3", generate_kwargs={"language": "it", "task": "transcribe"})
print(result["text"])

CTranslate2 / faster-whisper

For optimized CPU inference, use the INT8 quantized version: LocalAI-io/whisper-tiny-it-ct2-int8 (39MB).

LocalAI

This model is compatible with LocalAI for local, self-hosted AI inference.

Model tree for LocalAI-io/whisper-tiny-it

Base model

openai/whisper-tiny

Finetuned

(1791)

this model

LocalAI-io
/

whisper-tiny-it