nvidia_stt_fa_fastconformer_hybrid_large-NVFP4

NVFP4 (W4A4) post-training quantization of nvidia/stt_fa_fastconformer_hybrid_large via NVIDIA modelopt.

Base architecture: EncDecHybridRNNTCTCBPEModel (NeMo)
Calibration: 32 Persian clips from Reza2kn/persian-asr-eval-v0 (held out from eval).
Hardware target: NVIDIA Blackwell tensor cores.

Eval — `Reza2kn/persian-asr-eval-v0` (FLEURS-fa, 200 clips)

Variant	WER ↓	CER ↓	per-clip latency	peak VRAM
NVFP4 (this repo)	33.06%	10.91%	37 ms	603 MiB

Usage

import nemo.collections.asr as nemo_asr
m = nemo_asr.models.ASRModel.restore_from("nvidia_stt_fa_fastconformer_hybrid_large-NVFP4.nemo").cuda().eval()
transcripts = m.transcribe(["clip.wav"])
print(transcripts[0])

License

Inherits the base model's license.

Downloads last month: 8

Model tree for Reza2kn/nvidia_stt_fa_fastconformer_hybrid_large-NVFP4

Base model

nvidia/stt_fa_fastconformer_hybrid_large

Finetuned

(2)

this model

nvidia_stt_fa_fastconformer_hybrid_large-NVFP4

Eval — Reza2kn/persian-asr-eval-v0 (FLEURS-fa, 200 clips)

Usage

License

Model tree for Reza2kn/nvidia_stt_fa_fastconformer_hybrid_large-NVFP4

Eval — `Reza2kn/persian-asr-eval-v0` (FLEURS-fa, 200 clips)