Spaces:

Adinarayana02
/

AI-voice-Assistance

Runtime error

Adinarayana02 commited on Aug 27, 2024

Commit

a92ca55

verified ·

1 Parent(s): 0656dbf

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import openai
 import whisper
 import gradio as gr
 import soundfile as sf
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
@@ -9,7 +10,7 @@ from datasets import load_dataset
 model = whisper.load_model("base")
 # Set OpenAI API key
-openai.api_key = os.getenv("OPENAI_API_KEY")
 # Function to translate audio to text using Whisper
 def translate_audio(audio):
@@ -38,10 +39,16 @@ def audio_response(text, output_path="speech.wav"):
     model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
     inputs = processor(text=text, return_tensors="pt")
     embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
     sf.write(output_path, speech.numpy(), samplerate=16000)
     return output_path

 import openai
 import whisper
+import torch
 import gradio as gr
 import soundfile as sf
 from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 model = whisper.load_model("base")
 # Set OpenAI API key
+openai.api_key = os.getenv("OPENAI_API_KEY")  # Make sure to replace with your actual API key if needed
 # Function to translate audio to text using Whisper
 def translate_audio(audio):
     model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
     inputs = processor(text=text, return_tensors="pt")
+    # Load xvector containing speaker's voice characteristics
     embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
+    # Generate speech
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    # Save the audio to a file
     sf.write(output_path, speech.numpy(), samplerate=16000)
     return output_path