alvarochamorro3 commited on
Commit
a1be294
verified
1 Parent(s): 1bf8b97

Update description.ttxt

Browse files
Files changed (1) hide show
  1. description.ttxt +13 -5
description.ttxt CHANGED
@@ -11,9 +11,17 @@ si bien la tecnolog铆a avanza r谩pidamente para el usuario promedio, tambi茅n ex
11
  Descripci贸n de los modelos utilizados
12
  ======================================
13
 
14
- * Gradio: nos permite crear una interfaz con la que probar nuestro c贸digo.
15
- * Pipeline: 茅sta funci贸n de la librer铆a transformers permite al usuario conectarse con modelos ya entrenados y usarlos en el c贸digo.
16
- * Torch: un modelo de deep learning
17
- * Load_datasets: permite cargar los datasets directamente desde Hugging Face.
18
- * Request: permite hacer peticiones directamente a Hugging Face.
 
 
 
 
 
 
 
 
19
 
 
11
  Descripci贸n de los modelos utilizados
12
  ======================================
13
 
14
+ * Salesforce/blip-image-captioning-large: Este modelo toma una imagen como entrada y genera una descripci贸n textual que resume su contenido. Se trata de una tarea conocida como image captioning,
15
+ combina procesamiento de lenguaje natural (NLP) con visi贸n computacional. Preentrenado en grandes conjuntos de datos que contienen pares de im谩genes y descripciones textuales,
16
+ la calidad de las descripciones depende de las im谩genes de entrenamiento, y puede generar resultados vagos o inexactos para im谩genes poco comunes.
17
+
18
+ * microsoft/speecht5_tts: Convierte texto en un archivo de audio, sintetizando voz natural. Este modelo pertenece a la familia de tareas conocidas como text-to-speech.Su arquitectura es modular,
19
+ lo que permite usarlo para m煤ltiples tareas, incluyendo s铆ntesis de voz (text-to-speech), reconocimiento de voz (speech-to-text), y conversi贸n de habla a habla (speech-to-speech), utiliza embeddings (representaciones vectoriales)
20
+ que definen caracter铆sticas del habla, como el timbre, el estilo o el idioma del hablante.
21
+
22
+ Descripcion del dataset utilizado
23
+ ==================================
24
+
25
+ * Matthijs/cmu-arctic-xvectors: define el estilo y las caracter铆sticas del hablante que SpeechT5 utiliza para generar la voz. En este caso, se selecciona un vector espec铆fico del conjunto de datos
26
+
27