Spaces:

alvarochamorro3
/

image-to-audio

Running

alvarochamorro3 commited on Nov 25, 2024

Commit

a1be294

verified ·

1 Parent(s): 1bf8b97

Update description.ttxt

Files changed (1) hide show

description.ttxt CHANGED Viewed

@@ -11,9 +11,17 @@ si bien la tecnología avanza rápidamente para el usuario promedio, también ex
 Descripción de los modelos utilizados
 ======================================
-* Gradio: nos permite crear una interfaz con la que probar nuestro código.
-* Pipeline: ésta función de la librería transformers permite al usuario conectarse con modelos ya entrenados y usarlos en el código.
-* Torch: un modelo de deep learning
-* Load_datasets: permite cargar los datasets directamente desde Hugging Face.
-* Request: permite hacer peticiones directamente a Hugging Face.

 Descripción de los modelos utilizados
 ======================================
+* Salesforce/blip-image-captioning-large: Este modelo toma una imagen como entrada y genera una descripción textual que resume su contenido. Se trata de una tarea conocida como image captioning,
+combina procesamiento de lenguaje natural (NLP) con visión computacional. Preentrenado en grandes conjuntos de datos que contienen pares de imágenes y descripciones textuales,
+la calidad de las descripciones depende de las imágenes de entrenamiento, y puede generar resultados vagos o inexactos para imágenes poco comunes.
+* microsoft/speecht5_tts: Convierte texto en un archivo de audio, sintetizando voz natural. Este modelo pertenece a la familia de tareas conocidas como text-to-speech.Su arquitectura es modular,
+lo que permite usarlo para múltiples tareas, incluyendo síntesis de voz (text-to-speech), reconocimiento de voz (speech-to-text), y conversión de habla a habla (speech-to-speech), utiliza embeddings (representaciones vectoriales)
+que definen características del habla, como el timbre, el estilo o el idioma del hablante.
+Descripcion del dataset utilizado
+==================================
+* Matthijs/cmu-arctic-xvectors: define el estilo y las características del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector específico del conjunto de datos