tasks / speech-to-text

Hosted speech-to-text models

30 models · 0 live as APIs · benchmarked & compared

Speech-to-text models convert spoken audio into written text, enabling applications such as real-time captioning, meeting transcription, voice-controlled interfaces, and automated subtitling. Speaker diarization models—such as pyannote/speaker-diarization-3.1—extend this by identifying who spoke when, which is critical for multi-speaker recordings like conference calls or interviews.

In production, these models are typically deployed in pipelines that include voice activity detection, language identification, and post-processing for punctuation and formatting. The choice among models involves a trade-off between transcription accuracy, latency, and computational cost. For example, openai/whisper-base offers a fast, compact option, while larger variants or specialized models like jonatasgrosman/wav2vec2-large-xlsr-53-japanese are tuned for specific languages or higher accuracy at the expense of speed and memory.

This page lists 30 speech-to-text models (0 currently live, the remainder being onboarded), including pyannote/speaker-diarization-3.1, argmaxinc/whisperkit-coreml, openai/whisper-base, and several wav2vec2 variants. Calling a

compare

model	params	downloads/mo	price	status
pyannote/speaker-diarization-3.1	-	8.2M	at launch	coming soon
argmaxinc/whisperkit-coreml	-	8M	at launch	coming soon
openai/whisper-base	72.6M	6.4M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-japanese	-	6.1M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-polish	-	4.7M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-dutch	-	4.1M	at launch	coming soon
indonesian-nlp/wav2vec2-indonesian-javanese-sundanese	-	4.1M	at launch	coming soon
pyannote/speaker-diarization-community-1	-	4M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-arabic	-	3.5M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-hungarian	-	3.4M	at launch	coming soon
openai/whisper-small	241.7M	3.3M	at launch	coming soon
MahmoudAshraf/mms-300m-1130-forced-aligner	315.5M	3.2M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-portuguese	-	3.2M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-russian	-	2.9M	at launch	coming soon
gigant/romanian-wav2vec2	315.5M	2.8M	at launch	coming soon
anuragshas/wav2vec2-large-xlsr-53-telugu	-	2.8M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-persian	-	2.5M	at launch	coming soon
KBLab/wav2vec2-large-voxrex-swedish	315.5M	2.5M	at launch	coming soon
kingabzpro/wav2vec2-large-xls-r-300m-Urdu	315.5M	2.3M	at launch	coming soon
theainerd/Wav2Vec2-large-xlsr-hindi	315.5M	2.1M	at launch	coming soon
pyannote/voice-activity-detection	-	2M	at launch	coming soon
mistralai/Voxtral-Mini-4B-Realtime-2602	4429.7M	2M	at launch	coming soon
imvladikon/wav2vec2-xls-r-300m-hebrew	315.5M	1.8M	at launch	coming soon
mesolitica/wav2vec2-xls-r-300m-mixed	-	1.8M	at launch	coming soon
airesearch/wav2vec2-large-xlsr-53-th	-	1.7M	at launch	coming soon
openai/whisper-tiny	37.8M	1.6M	at launch	coming soon
jonatasgrosman/wav2vec2-large-xlsr-53-chinese-zh-cn	-	1.5M	at launch	coming soon
mlx-community/parakeet-tdt-0.6b-v2	-	1.5M	at launch	coming soon
arijitx/wav2vec2-xls-r-300m-bengali	-	1.4M	at launch	coming soon
Systran/faster-whisper-base	-	1.4M	at launch	coming soon

get a key + $25 free →docs