Spaces:

biosn2
/

test1234

Build error

App Files Files Community

biosn2 commited on Sep 7, 2025

Commit

f968496

verified ·

1 Parent(s): b9e0911

Upload app1.py with huggingface_hub

Browse files

Files changed (1) hide show

app1.py +228 -0

app1.py ADDED Viewed

	@@ -0,0 +1,228 @@

+import json
+import os
+import sys
+import threading
+import time
+import subprocess
+from huggingface_hub import snapshot_download
+import warnings
+warnings.filterwarnings("ignore", category=FutureWarning)
+warnings.filterwarnings("ignore", category=UserWarning)
+import argparse
+# ----------------- 命令行参数解析 -----------------
+parser = argparse.ArgumentParser(description="IndexTTS WebUI")
+parser.add_argument("--verbose", action="store_true", default=False, help="Enable verbose mode")  # 是否打印详细日志
+parser.add_argument("--port", type=int, default=7860, help="Port to run the web UI on")  # WebUI 端口
+parser.add_argument("--host", type=str, default="127.0.0.1", help="Host to run the web UI on")  # WebUI 主机地址
+parser.add_argument("--model_dir", type=str, default="checkpoints", help="Model checkpoints directory")  # 模型目录
+cmd_args = parser.parse_args()
+# ----------------- 设置模块搜索路径 -----------------
+current_dir = os.path.dirname(os.path.abspath(__file__))
+sys.path.append(current_dir)
+sys.path.append(os.path.join(current_dir, "indextts"))
+# ----------------- 下载模型 -----------------
+MODE = 'local'
+snapshot_download("IndexTeam/IndexTTS-1.5", local_dir="checkpoints")  # 从 Hugging Face 下载模型到本地
+# ----------------- 检查模型文件完整性 -----------------
+if not os.path.exists(cmd_args.model_dir):
+    print(f"Model directory {cmd_args.model_dir} does not exist. Please download the model first.")
+    sys.exit(1)
+for file in [
+    "bigvgan_generator.pth",
+    "bpe.model",
+    "gpt.pth",
+    "config.yaml",
+]:
+    file_path = os.path.join(cmd_args.model_dir, file)
+    if not os.path.exists(file_path):
+        print(f"Required file {file_path} does not exist. Please download it.")
+        sys.exit(1)
+# ----------------- 导入 Gradio 和其他模块 -----------------
+import gradio as gr
+import pandas as pd
+from indextts.infer import IndexTTS  # 核心 TTS 推理类
+from tools.i18n.i18n import I18nAuto  # 国际化工具
+# ----------------- 初始化 TTS 模型 -----------------
+i18n = I18nAuto(language="en")  # 设置默认中文
+tts = IndexTTS(model_dir=cmd_args.model_dir, cfg_path=os.path.join(cmd_args.model_dir, "config.yaml"))  # 加载模型
+# ----------------- 创建输出目录 -----------------
+os.makedirs("outputs/tasks", exist_ok=True)
+os.makedirs("prompts", exist_ok=True)
+# ----------------- 核心函数 -----------------
+def ensure_wav(file_path):
+    """
+    确保输入音频是 WAV 格式
+    如果不是 WAV，使用 ffmpeg 转换
+    返回 WAV 文件路径
+    """
+    if not file_path.lower().endswith(".wav"):
+        wav_path = file_path.rsplit(".", 1)[0] + ".wav"
+        subprocess.run(["ffmpeg", "-y", "-i", file_path, wav_path], check=True)
+        return wav_path
+    return file_path
+def progress_print(step, total, info=""):
+    """
+    打印生成音频的进度到终端
+    step: 当前步骤
+    total: 总步骤数
+    info: 附加信息
+    """
+    percent = int(step / total * 100)
+    print(f"\r[{percent}%] {info}", end="", flush=True)
+def gen_single(prompt, text, max_text_tokens_per_sentence=120, *args, progress=gr.Progress()):
+    """
+    单句音频生成函数
+    prompt: 参考音频路径
+    text: 目标文本
+    max_text_tokens_per_sentence: 分句最大 Token 数
+    *args: 高级生成参数（do_sample, top_p, top_k, temperature 等）
+    progress: Gradio 进度条对象
+    返回生成的音频路径
+    """
+    prompt = ensure_wav(prompt)  # 转换为 WAV
+    output_path = os.path.join("outputs", f"spk_{int(time.time())}.wav")  # 输出文件名
+    tts.gr_progress = progress
+    tts.print_progress = progress_print  # 设置进度打印函数
+    # 解包高级参数
+    do_sample, top_p, top_k, temperature, \
+        length_penalty, num_beams, repetition_penalty, max_mel_tokens = args
+    kwargs = {
+        "do_sample": bool(do_sample),                # 是否启用随机采样，True 生成多样化音频，False 贪婪生成固定结果
+                                                    # 默认值: True，范围: {True, False}
+        "top_p": float(top_p),                       # 核采样概率阈值，只从累计概率 >= top_p 的词集合中采样
+                                                    # 默认值: 0.8，范围: 0.0 ~ 1.0（越大生成越自由）
+        "top_k": int(top_k) if int(top_k) > 0 else None,  # 从概率最高的 top_k 个词中采样，None 表示不限制
+                                                        # 默认值: 30，范围: 0 ~ 100（0 表示禁用）
+        "temperature": float(temperature),           # 采样温度，控制输出随机性
+                                                    # 默认值: 1.0，范围: 0.1 ~ 2.0（低值更稳定，高值更有变化）
+        "length_penalty": float(length_penalty),     # 长度惩罚，调节生成的音频时长
+                                                    # 默认值: 0.0，范围: -2.0 ~ 2.0（正值更长，负值更短）
+        "num_beams": num_beams,                      # Beam Search 束宽，越大生成更自然，但速度更慢
+                                                    # 默认值: 3，范围: 1 ~ 10
+        "repetition_penalty": float(repetition_penalty),  # 重复惩罚，避免模型重复生成音素或词
+                                                        # 默认值: 10.0，范围: 0.1 ~ 20.0（>1减少重复）
+        "max_mel_tokens": int(max_mel_tokens),       # 最大 mel 频谱长度，控制生成音频的最大帧数
+                                                    # 默认值: 600，范围: 50 ~ cfg.gpt.max_mel_tokens（依模型配置）
+    }
+    # 调用 TTS 推理
+    output = tts.infer(prompt, text, output_path, verbose=cmd_args.verbose,
+                       max_text_tokens_per_sentence=int(max_text_tokens_per_sentence),
+                       **kwargs)
+    print("\n生成完成:", output_path)
+    return gr.update(value=output, visible=True)
+def update_prompt_audio():
+    """
+    上传参考音频时触发
+    激活生成按钮
+    """
+    return gr.update(interactive=True)
+# ----------------- Gradio WebUI 构建 -----------------
+with gr.Blocks(title="IndexTTS Demo") as demo:
+    mutex = threading.Lock()
+    gr.HTML('''
+    标题
+    ''')
+    with gr.Tab("音频生成"):
+        with gr.Row():
+            os.makedirs("prompts", exist_ok=True)
+            prompt_audio = gr.Audio(label="参考音频", key="prompt_audio",
+                                    sources=["upload","microphone"], type="filepath")
+            with gr.Column():
+                input_text_single = gr.TextArea(label="文本", key="input_text_single", placeholder="请输入目标文本", info="当前模型版本{}".format(tts.model_version or "1.0"))
+                gen_button = gr.Button("生成语音", key="gen_button", interactive=True)
+            output_audio = gr.Audio(label="生成结果", visible=True, key="output_audio")
+        # 高级参数设置
+        with gr.Accordion("高级生成参数设置", open=False):
+            # GPT2 采样参数
+            with gr.Row():
+                with gr.Column(scale=1):
+                    gr.Markdown("**GPT2 采样设置** _参数会影响音频多样性和生成速度_")
+                    with gr.Row():
+                        do_sample = gr.Checkbox(label="do_sample", value=True)
+                        temperature = gr.Slider(label="temperature", minimum=0.1, maximum=2.0, value=1.0, step=0.1)
+                    with gr.Row():
+                        top_p = gr.Slider(label="top_p", minimum=0.0, maximum=1.0, value=0.8, step=0.01)
+                        top_k = gr.Slider(label="top_k", minimum=0, maximum=100, value=30, step=1)
+                        num_beams = gr.Slider(label="num_beams", value=3, minimum=1, maximum=10, step=1)
+                    with gr.Row():
+                        repetition_penalty = gr.Number(label="repetition_penalty", precision=None, value=10.0, minimum=0.1, maximum=20.0, step=0.1)
+                        length_penalty = gr.Number(label="length_penalty", precision=None, value=0.0, minimum=-2.0, maximum=2.0, step=0.1)
+                    max_mel_tokens = gr.Slider(label="max_mel_tokens", value=600, minimum=50, maximum=tts.cfg.gpt.max_mel_tokens, step=10)
+                # 分句设置
+                with gr.Column(scale=2):
+                    gr.Markdown("**分句设置**")
+                    with gr.Row():
+                        max_text_tokens_per_sentence = gr.Slider(label="分句最大Token数", value=120, minimum=20, maximum=tts.cfg.gpt.max_text_tokens, step=2)
+                    with gr.Accordion("预览分句结果", open=True) as sentences_settings:
+                        sentences_preview = gr.Dataframe(headers=["序号", "分句内容", "Token数"], key="sentences_preview", wrap=True)
+            advanced_params = [
+                do_sample, top_p, top_k, temperature,
+                length_penalty, num_beams, repetition_penalty, max_mel_tokens,
+            ]
+    # 分句预览逻辑
+    input_text_single.change(
+        lambda text, max_tokens_per_sentence: {
+            sentences_preview: gr.update(value=[
+                [i, ''.join(s), len(s)] for i, s in enumerate(
+                    tts.tokenizer.split_sentences(tts.tokenizer.tokenize(text), int(max_tokens_per_sentence))
+                )
+            ]) if text else gr.update(value=pd.DataFrame([], columns=["序号","分句内容","Token数"]))
+        },
+        inputs=[input_text_single, max_text_tokens_per_sentence],
+        outputs=[sentences_preview]
+    )
+    max_text_tokens_per_sentence.change(
+        lambda text, max_tokens_per_sentence: {
+            sentences_preview: gr.update(value=[
+                [i, ''.join(s), len(s)] for i, s in enumerate(
+                    tts.tokenizer.split_sentences(tts.tokenizer.tokenize(text), int(max_tokens_per_sentence))
+                )
+            ]) if text else gr.update(value=pd.DataFrame([], columns=["序号","分句内容","Token数"]))
+        },
+        inputs=[input_text_single, max_text_tokens_per_sentence],
+        outputs=[sentences_preview]
+    )
+    prompt_audio.upload(update_prompt_audio, inputs=[], outputs=[gen_button])
+    # 点击生成按钮调用 gen_single
+    gen_button.click(gen_single,
+                     inputs=[prompt_audio, input_text_single, max_text_tokens_per_sentence, *advanced_params],
+                     outputs=[output_audio])
+# ----------------- 启动函数 -----------------
+def main():
+    """
+    启动 Gradio WebUI
+    """
+    demo.launch(server_name="0.0.0.0", server_port=cmd_args.port)
+if __name__ == "__main__":
+    main()