Spaces:

sagaxlearn
/

TTS_API

Running

App Files Files Community

khurrameycon commited on 26 days ago

Commit

e3f5ff0

verified ·

1 Parent(s): dfdc224

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -39

app.py CHANGED Viewed

@@ -1,48 +1,31 @@
-from fastapi import FastAPI, HTTPException
 from fastapi.responses import FileResponse
 from kokoro import KPipeline
 import soundfile as sf
 import os
-import tempfile
-# Configure cache directories before initializing pipeline
-os.environ["TRANSFORMERS_CACHE"] = "/app/cache"
-os.environ["HF_HOME"] = "/app/cache"
-os.environ["XDG_CACHE_HOME"] = "/app/cache"
-app = FastAPI(title="Text-to-Speech Converter")
-# Initialize pipeline with explicit cache settings
 pipeline = KPipeline(lang_code='a')
-@app.post("/generate_audio/")
-async def generate_audio(text: str = None):
-    if not text:
-        raise HTTPException(status_code=400, detail="No text provided")
-    try:
-        # Create temporary directory
-        with tempfile.TemporaryDirectory() as tmpdir:
-            # Generate audio
-            generator = pipeline(
-                text,
-                voice='af_heart',
-                speed=1,
-                split_pattern=r'\n+'
-            )
-            # Process first audio segment only (modify as needed)
-            i, (gs, ps, audio) = next(enumerate(generator))
-            # Save to temporary file
-            output_path = f"{tmpdir}/output.wav"
-            sf.write(output_path, audio, 24000)
-            return FileResponse(
-                output_path,
-                media_type='audio/wav',
-                filename="generated_audio.wav"
-            )
-    except Exception as e:
-        raise HTTPException(status_code=500, detail=str(e))

+from fastapi import FastAPI, Response
 from fastapi.responses import FileResponse
 from kokoro import KPipeline
 import soundfile as sf
 import os
+app = FastAPI()
+# Initialize pipeline once at startup
 pipeline = KPipeline(lang_code='a')
+@app.post("/generate")
+async def generate_audio(text: str, voice: str = "af_heart", speed: float = 1.0):
+    # Generate audio
+    generator = pipeline(
+        text,
+        voice=voice,
+        speed=speed,
+        split_pattern=r'\n+'
+    )
+    # Save first segment only for demo
+    for i, (gs, ps, audio) in enumerate(generator):
+        sf.write(f"output_{i}.wav", audio, 24000)
+        return FileResponse(
+            f"output_{i}.wav",
+            media_type="audio/wav",
+            filename="output.wav"
+        )
+    return Response("No audio generated", status_code=400)