facebook
/

hubert-large-ls960-ft

Automatic Speech Recognition

hf-asr-leaderboard

Model card Files Files and versions

patrickvonplaten commited on Apr 5, 2022

Commit

d76c857

·

1 Parent(s): 9212305

Update README.md

Files changed (1) hide show

README.md +1 -8

README.md CHANGED Viewed

@@ -50,20 +50,13 @@ The model can be used for automatic-speech-recognition as follows:
 import torch
 from transformers import Wav2Vec2Processor, HubertForCTC
 from datasets import load_dataset
-import soundfile as sf
 processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
 model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
-def map_to_array(batch):
-    speech, _ = sf.read(batch["file"])
-    batch["speech"] = speech
-    return batch
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
-ds = ds.map(map_to_array)
-input_values = processor(ds["speech"][0], return_tensors="pt").input_values  # Batch size 1
 logits = model(input_values).logits
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.decode(predicted_ids[0])

 import torch
 from transformers import Wav2Vec2Processor, HubertForCTC
 from datasets import load_dataset
 processor = Wav2Vec2Processor.from_pretrained("facebook/hubert-large-ls960-ft")
 model = HubertForCTC.from_pretrained("facebook/hubert-large-ls960-ft")
 ds = load_dataset("patrickvonplaten/librispeech_asr_dummy", "clean", split="validation")
+input_values = processor(ds[0]["audio"]["array"], return_tensors="pt").input_values  # Batch size 1
 logits = model(input_values).logits
 predicted_ids = torch.argmax(logits, dim=-1)
 transcription = processor.decode(predicted_ids[0])