Spaces:

Adinarayana02
/

AI-voice-Assistance

Runtime error

App Files Files Community

Adinarayana02 commited on Aug 27, 2024

Commit

bd7d7a1

verified ·

1 Parent(s): 9ece451

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -71

app.py CHANGED Viewed

@@ -1,104 +1,61 @@
-import torch
-from llama_index.core.prompts import PromptTemplate
-from transformers import AutoTokenizer
-from llama_index.core import Settings
-import os
-import time
-from llama_index.llms.text_generation_inference import TextGenerationInference
 import whisper
 import gradio as gr
-from gtts import gTTS
-from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 import soundfile as sf
 from datasets import load_dataset
-# Load Whisper model
 model = whisper.load_model("base")
-# Load Hugging Face API Token
-HF_API_TOKEN = os.getenv("HF_TOKEN")
-# Function to translate audio to text
 def translate_audio(audio):
-    # Load and process audio
     audio = whisper.load_audio(audio)
     audio = whisper.pad_or_trim(audio)
-    # Convert audio to log-Mel spectrogram
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
-    # Decode audio to text
     options = whisper.DecodingOptions(language='en', task="transcribe", temperature=0)
     result = whisper.decode(model, mel, options)
     return result.text
-# Function to convert text to speech
 def audio_response(text, output_path="speech.wav"):
-    # Load processor, model, and vocoder
     processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
     model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
-    # Process input text
     inputs = processor(text=text, return_tensors="pt")
-    # Load xvector for speaker's voice characteristics
     embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
-    # Generate speech
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
-    # Save audio file
-    sf.write(output_path, speech.numpy(), samplerate=16000)  # Adjust sample rate as necessary
     return output_path
-# Function to generate a prompt from conversation history
-def messages_to_prompt(messages):
-    default_system_prompt = "You are an AI chatbot designed to assist with user queries in a friendly and conversational manner."
-    prompt = default_system_prompt + "\n"
-    for message in messages:
-        if message.role == 'system':
-            prompt += f"{message.content}</s>\n"
-        elif message.role == 'user':
-            prompt += f"{message.content}</s>\n"
-        elif message.role == 'assistant':
-            prompt += f"{message.content}</s>\n"
-    return prompt
-# Function to process LLM response into a prompt format
-def completion_to_prompt(completion):
-    return f"<|system|>\n</s>\n<|user|>\n{completion}</s>\n<|assistant|>\n"
-# Configure LLM settings
-Settings.llm = TextGenerationInference(
-    model_url="https://api-inference.huggingface.co/models/meta-llama/Meta-Llama-3-8B-Instruct",
-    token=HF_API_TOKEN,
-    messages_to_prompt=messages_to_prompt,
-    completion_to_prompt=completion_to_prompt
-)
-# Function to generate text response from LLM
-def text_response(t):
-    time.sleep(1)  # Adjust delay as needed
-    response = Settings.llm.complete(t)
-    return response.text
-# Function to transcribe audio, generate a text response, and convert it to audio
-def transcribe_(a):
-    t1 = translate_audio(a)  # Transcribe audio to text
-    t2 = text_response(t1)   # Generate text response from LLM
-    t3 = audio_response(t2)  # Convert text response to speech
-    return (t1, t2, t3)
 # Define Gradio interface outputs
 output_1 = gr.Textbox(label="Speech to Text")
-output_2 = gr.Textbox(label="LLM Output")
-output_3 = gr.Audio(label="LLM output to audio")
 # Launch Gradio interface
 gr.Interface(

+import openai
 import whisper
 import gradio as gr
 import soundfile as sf
+from transformers import SpeechT5Processor, SpeechT5ForTextToSpeech, SpeechT5HifiGan
 from datasets import load_dataset
+# Load Whisper model for transcription
 model = whisper.load_model("base")
+# Set OpenAI API key
+openai.api_key = os.getenv("OPENAI_API_KEY")
+# Function to translate audio to text using Whisper
 def translate_audio(audio):
     audio = whisper.load_audio(audio)
     audio = whisper.pad_or_trim(audio)
     mel = whisper.log_mel_spectrogram(audio).to(model.device)
     options = whisper.DecodingOptions(language='en', task="transcribe", temperature=0)
     result = whisper.decode(model, mel, options)
     return result.text
+# Function to generate text response using GPT-4
+def text_response(prompt):
+    response = openai.ChatCompletion.create(
+        model="gpt-4",  # Replace with the GPT-4o-mini model if needed
+        messages=[
+            {"role": "system", "content": "You are a helpful assistant."},
+            {"role": "user", "content": prompt},
+        ],
+        max_tokens=150,
+    )
+    return response['choices'][0]['message']['content'].strip()
+# Function to convert text to speech using SpeechT5
 def audio_response(text, output_path="speech.wav"):
     processor = SpeechT5Processor.from_pretrained("microsoft/speecht5_tts")
     model = SpeechT5ForTextToSpeech.from_pretrained("microsoft/speecht5_tts")
     vocoder = SpeechT5HifiGan.from_pretrained("microsoft/speecht5_hifigan")
     inputs = processor(text=text, return_tensors="pt")
     embeddings_dataset = load_dataset("Matthijs/cmu-arctic-xvectors", split="validation")
     speaker_embeddings = torch.tensor(embeddings_dataset[7306]["xvector"]).unsqueeze(0)
     with torch.no_grad():
         speech = model.generate_speech(inputs["input_ids"], speaker_embeddings, vocoder=vocoder)
+    sf.write(output_path, speech.numpy(), samplerate=16000)
     return output_path
+# Function to handle full process: Transcription -> Text Generation -> Text-to-Speech
+def transcribe_(audio):
+    transcription = translate_audio(audio)  # Step 1: Convert audio to text
+    response = text_response(transcription)  # Step 2: Generate text response from GPT-4
+    tts_audio = audio_response(response)  # Step 3: Convert text response to speech
+    return transcription, response, tts_audio
 # Define Gradio interface outputs
 output_1 = gr.Textbox(label="Speech to Text")
+output_2 = gr.Textbox(label="GPT-4 Output")
+output_3 = gr.Audio(label="Text to Speech")
 # Launch Gradio interface
 gr.Interface(