clu-ling
/

whisper-large-v2-arabic-5k-steps

Automatic Speech Recognition

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Metrics Training metrics Community

elsayedissa commited on Mar 3, 2023

Commit

f3f2922

·

1 Parent(s): ef96ccf

Update README.md

Files changed (1) hide show

README.md +6 -6

README.md CHANGED Viewed

@@ -113,7 +113,7 @@ processor = WhisperProcessor.from_pretrained("clu-ling/whisper-large-v2-arabic-5
 model = WhisperForConditionalGeneration.from_pretrained("clu-ling/whisper-large-v2-arabic-5k-steps")
 # dataset
-dataset = load_dataset("mozilla-foundation/common_voice_11_0", "ar", split="test", )#cache_dir=args.cache_dir
 dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 #for debuggings: it gets two examples
@@ -136,11 +136,11 @@ def normalize(batch):
   return batch
 def map_wer(batch):
-  model.to(args.device)
-  forced_decoder_ids = processor.get_decoder_prompt_ids(language = args.language, task = "transcribe")
   inputs = processor(batch["audio"]["array"], sampling_rate=batch["audio"]["sampling_rate"], return_tensors="pt").input_features
   with torch.no_grad():
-    generated_ids = model.generate(inputs=inputs.to(args.device), forced_decoder_ids=forced_decoder_ids)
     transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
   batch["predicted_text"] = clean_text(transcription)
   return batch
@@ -148,10 +148,10 @@ def map_wer(batch):
 # process GOLD text
 processed_dataset = dataset.map(normalize)
 # get predictions
-predicted_dataset = processed_dataset.map(map_wer)
 # word error rate
-wer = wer_metric.compute(references=predicted_dataset['gold_text'], predictions=predicted_dataset['predicted_text'])
 wer = round(100 * wer, 2)
 print("WER:", wer)
 ```

 model = WhisperForConditionalGeneration.from_pretrained("clu-ling/whisper-large-v2-arabic-5k-steps")
 # dataset
+dataset = load_dataset("mozilla-foundation/common_voice_11_0", "ar", split="test", ) #cache_dir=args.cache_dir
 dataset = dataset.cast_column("audio", Audio(sampling_rate=16000))
 #for debuggings: it gets two examples
   return batch
 def map_wer(batch):
+  model.to(device)
+  forced_decoder_ids = processor.get_decoder_prompt_ids(language = "ar", task = "transcribe")
   inputs = processor(batch["audio"]["array"], sampling_rate=batch["audio"]["sampling_rate"], return_tensors="pt").input_features
   with torch.no_grad():
+    generated_ids = model.generate(inputs=inputs.to(device), forced_decoder_ids=forced_decoder_ids)
     transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
   batch["predicted_text"] = clean_text(transcription)
   return batch
 # process GOLD text
 processed_dataset = dataset.map(normalize)
 # get predictions
+predicted = processed_dataset.map(map_wer)
 # word error rate
+wer = wer_metric.compute(references=predicted['gold_text'], predictions=predicted['predicted_text'])
 wer = round(100 * wer, 2)
 print("WER:", wer)
 ```