Spaces:

alvarochamorro3
/

image-to-audio

Running

alvarochamorro3 commited on Nov 18, 2024

Commit

1bf8b97

verified ·

1 Parent(s): 0b7a493

Update description.ttxt

Files changed (1) hide show

description.ttxt CHANGED Viewed

@@ -3,17 +3,17 @@ Definición del probelma, input, output e interfaz
 * Definición del problema:  la problemática planteada en el siguiente programa trata la dificultad de algunas personas para interactuar con el mundo técnológico que nos rodea,
 si bien la tecnología avanza rápidamente para el usuario promedio, también existe un segmento del público con ciertas discapacidades a la hora de acceder a la tecnología disponible.
 * Solución: Este programa trata una imágen o fotógrafía, interpréta la misma explicando los detalles más significantes y la explica en formato audio, conversionando primero de formato imágen a texto, y luego texto a audio.
 * Input: archivo en formato .jpg o .jpeg cargado por el usuario.
 * Output: archivo de audio en formato .wav con una transcripción del archivo anterior.
 * Interfaz: presenta una caja para que el usuario arrastre la imagen o la seleccione desde su propio path, con un botón de color se realiza la conversión de la que se obtiene el audio en el siguiente cuadro.
 Descripción de los modelos utilizados
 ======================================
-* Pytorch: un modelo de deep learning

 * Definición del problema:  la problemática planteada en el siguiente programa trata la dificultad de algunas personas para interactuar con el mundo técnológico que nos rodea,
 si bien la tecnología avanza rápidamente para el usuario promedio, también existe un segmento del público con ciertas discapacidades a la hora de acceder a la tecnología disponible.
 * Solución: Este programa trata una imágen o fotógrafía, interpréta la misma explicando los detalles más significantes y la explica en formato audio, conversionando primero de formato imágen a texto, y luego texto a audio.
 * Input: archivo en formato .jpg o .jpeg cargado por el usuario.
 * Output: archivo de audio en formato .wav con una transcripción del archivo anterior.
 * Interfaz: presenta una caja para que el usuario arrastre la imagen o la seleccione desde su propio path, con un botón de color se realiza la conversión de la que se obtiene el audio en el siguiente cuadro.
 Descripción de los modelos utilizados
 ======================================
+* Gradio: nos permite crear una interfaz con la que probar nuestro código.
+* Pipeline: ésta función de la librería transformers permite al usuario conectarse con modelos ya entrenados y usarlos en el código.
+* Torch: un modelo de deep learning
+* Load_datasets: permite cargar los datasets directamente desde Hugging Face.
+* Request: permite hacer peticiones directamente a Hugging Face.