Spaces:

Yehor
/

radtts-uk-vocos-demo

Running

App Files Files Community

Yehor commited on 13 days ago

Commit

9f6a687

1 Parent(s): ba703d4

Add model info

Browse files

Files changed (2) hide show

app.py +40 -12
radtts-pp-dap-model.json → config.json +0 -0

app.py CHANGED Viewed

@@ -3,9 +3,10 @@ import sys
 import json
 import time
-from importlib.metadata import version
-from importlib.metadata import PackageNotFoundError
 from enum import Enum
 try:
     import spaces  # it's for ZeroGPU
@@ -26,7 +27,7 @@ from torch_env import device
 import gradio as gr
-# Vocos
 from vocos import Vocos
 use_zerogpu = False
@@ -70,13 +71,10 @@ download_file_from_repo(
 )
 # Init the model
-config = "radtts-pp-dap-model.json"
-radtts_path = "models/radtts-pp-dap-model/model_dap_84000_state.pt"
 params = []
 # Load the config
-with open(config) as f:
     data = f.read()
 config = json.loads(data)
@@ -86,18 +84,33 @@ data_config = config["data_config"]
 model_config = config["model_config"]
 # Load vocoder
-vocos = Vocos.from_pretrained("patriotyk/vocos-mel-hifigan-compat-44100khz").to(device)
 # Load RAD-TTS
 radtts = RADTTS(**model_config).to(device)
 radtts.enable_inverse_cache()  # cache inverse matrix for 1x1 invertible convs
-checkpoint_dict = torch.load(radtts_path, map_location="cpu")  # todo: CPU?
-radtts.load_state_dict(checkpoint_dict["state_dict"], strict=False)
 radtts.eval()
-print(f"Loaded checkpoint '{radtts_path}')")
 ignore_keys = ["training_files", "validation_files"]
 text_processor = TextProcessor(
@@ -142,6 +155,21 @@ tech_env = f"""
 - Python: {sys.version}
 - Torch device: {device}
 """.strip()
 tech_libraries = f"""

 import json
 import time
+from os.path import getsize
+from pathlib import Path
 from enum import Enum
+from importlib.metadata import version, PackageNotFoundError
 try:
     import spaces  # it's for ZeroGPU
 import gradio as gr
+# Vocoder
 from vocos import Vocos
 use_zerogpu = False
 )
 # Init the model
 params = []
 # Load the config
+with open("config.json") as f:
     data = f.read()
 config = json.loads(data)
 model_config = config["model_config"]
 # Load vocoder
+vocos_config = hf_hub_download("patriotyk/vocos-mel-hifigan-compat-44100khz", "config.yaml")
+vocos_model = hf_hub_download("patriotyk/vocos-mel-hifigan-compat-44100khz", "pytorch_model.bin")
+vocos_model_path = Path(vocos_model)
+state_dict = torch.load(vocos_model_path, map_location="cpu")
+vocos = Vocos.from_hparams(vocos_config).to(device)
+vocos.load_state_dict(state_dict, strict=True)
+vocos.eval()
 # Load RAD-TTS
 radtts = RADTTS(**model_config).to(device)
 radtts.enable_inverse_cache()  # cache inverse matrix for 1x1 invertible convs
+radtts_model_path = Path("models/radtts-pp-dap-model/model_dap_84000_state.pt")
+checkpoint_dict = torch.load(radtts_model_path, map_location="cpu")
+state_dict = checkpoint_dict["state_dict"]
+radtts.load_state_dict(state_dict, strict=False)
 radtts.eval()
+radtts_params = f'{sum(param.numel() for param in radtts.parameters()):,}'
+vocos_params = f'{sum(param.numel() for param in vocos.parameters()):,}'
+print(f"Loaded checkpoint (RAD-TTS++), number of parameters: {radtts_params}")
+print(f"Loaded checkpoint (Vocos), number of parameters: {vocos_params}")
 ignore_keys = ["training_files", "validation_files"]
 text_processor = TextProcessor(
 - Python: {sys.version}
 - Torch device: {device}
+#### Model
+##### Acoustic model
+- Name: RAD-TTS++ (DAP)
+- Parameters: {radtts_params}
+- File size: {getsize(radtts_model_path) / 1e6:.2f} MB
+##### Vocoder
+- Name: Vocos
+- Parameters: {vocos_params}
+- File size: {getsize(vocos_model_path) / 1e6:.2f} MB
 """.strip()
 tech_libraries = f"""

radtts-pp-dap-model.json → config.json RENAMED Viewed

File without changes