Spaces:

ginic
/

wav2ipa

Running

App Files Files Community

Added Multiple File Support

by parthbhangla - opened Jul 25, 2025

base: refs/heads/main

←

from: refs/pr/6

Discussion Files changed

+85

-4

Files changed (1) hide show

app.py +85 -4

app.py CHANGED Viewed

@@ -7,6 +7,7 @@ import librosa
 import tgt.core
 import tgt.io3
 import soundfile as sf
 from transformers import pipeline
 # Constants
@@ -167,6 +168,51 @@ def validate_textgrid_for_intervals(audio_path, textgrid_file):
         raise gr.Error(f"Invalid TextGrid or audio file:\n{str(e)}")
 def launch_demo():
     initial_model = {
         "loaded_model": pipeline(
@@ -189,7 +235,7 @@ def launch_demo():
         # Dropdown for transcription type selection
         transcription_type = gr.Dropdown(
-            choices=["Full Audio", "TextGrid Interval"],
             label="Transcription Type",
             value=None,
             interactive=True,
@@ -203,12 +249,29 @@ def launch_demo():
             full_transcribe_btn = gr.Button("Transcribe Full Audio", interactive=False, variant="primary")
             full_prediction = gr.Textbox(label="IPA Transcription", show_copy_button=True)
-            full_textgrid_tier = gr.Textbox(label="TextGrid Tier Name", value="transcription", interactive=True)
             full_textgrid_contents = gr.Textbox(label="TextGrid Contents", show_copy_button=True)
             full_download_btn = gr.DownloadButton(label=TEXTGRID_DOWNLOAD_TEXT, interactive=False, variant="primary")
             full_reset_btn = gr.Button("Reset", variant="secondary")
         # Interval transcription section
         with gr.Column(visible=False) as interval_section:
             interval_audio = gr.Audio(type="filepath", show_download_button=True, label="Upload Audio File")
@@ -225,10 +288,11 @@ def launch_demo():
         transcription_type.change(
             fn=lambda t: (
                 gr.update(visible=t == "Full Audio"),
                 gr.update(visible=t == "TextGrid Interval"),
             ),
             inputs=transcription_type,
-            outputs=[full_audio_section, interval_section],
         )
         # Enable full transcribe button after audio uploaded
@@ -260,7 +324,6 @@ def launch_demo():
             outputs=[full_download_btn],
         )
         full_reset_btn.click(
             fn=lambda: (None, "", "", "", gr.update(interactive=False)),
             outputs=[full_audio, full_prediction, full_textgrid_contents, full_download_btn],
@@ -309,6 +372,24 @@ def launch_demo():
             outputs=[interval_audio, interval_textgrid_file, tier_names, target_tier, interval_result, interval_download_btn],
         )
     demo.launch(max_file_size="100mb")
 if __name__ == "__main__":

 import tgt.core
 import tgt.io3
 import soundfile as sf
+import zipfile
 from transformers import pipeline
 # Constants
         raise gr.Error(f"Invalid TextGrid or audio file:\n{str(e)}")
+def transcribe_multiple_files(model_name, audio_files, model_state, tier_name):
+    try:
+        if not audio_files:
+            return [], None, model_state
+        if model_state["model_name"] != model_name:
+            model_state = {
+                "loaded_model": pipeline(task="automatic-speech-recognition", model=model_name),
+                "model_name": model_name,
+            }
+        table_data = []
+        tg_paths = []
+        for file in audio_files:
+            prediction = model_state["loaded_model"](file)["text"]
+            duration = librosa.get_duration(path=file)
+            annotation = tgt.core.Interval(0, duration, prediction)
+            transcription_tier = tgt.core.IntervalTier(0, duration, tier_name)
+            transcription_tier.add_annotation(annotation)
+            tg = tgt.core.TextGrid()
+            tg.add_tier(transcription_tier)
+            tg_str = tgt.io3.export_to_long_textgrid(tg)
+            tg_filename = Path(file).with_suffix(".TextGrid").name
+            tg_path = Path(TEXTGRID_DIR) / tg_filename
+            tg_path.write_text(tg_str)
+            table_data.append([Path(file).name, prediction])
+            tg_paths.append(tg_path)
+        # ZIP generation
+        zip_path = Path(tempfile.mkdtemp()) / "textgrids.zip"
+        with zipfile.ZipFile(zip_path, "w") as zipf:
+            for tg in tg_paths:
+                zipf.write(tg, arcname=tg.name)
+        return table_data, str(zip_path), model_state
+    except Exception as e:
+        raise gr.Error(f"Transcription failed: {str(e)}")
 def launch_demo():
     initial_model = {
         "loaded_model": pipeline(
         # Dropdown for transcription type selection
         transcription_type = gr.Dropdown(
+            choices=["Full Audio", "Multiple Full Audio", "TextGrid Interval"],
             label="Transcription Type",
             value=None,
             interactive=True,
             full_transcribe_btn = gr.Button("Transcribe Full Audio", interactive=False, variant="primary")
             full_prediction = gr.Textbox(label="IPA Transcription", show_copy_button=True)
+            full_textgrid_tier = gr.Textbox(label="TextGrid Tier Name", value="IPA", interactive=True)
             full_textgrid_contents = gr.Textbox(label="TextGrid Contents", show_copy_button=True)
             full_download_btn = gr.DownloadButton(label=TEXTGRID_DOWNLOAD_TEXT, interactive=False, variant="primary")
             full_reset_btn = gr.Button("Reset", variant="secondary")
+        # Multiple full audio transcription section
+        with gr.Column(visible=False) as multiple_full_audio_section:
+            multiple_full_audio = gr.File(file_types=[".wav"], label="Upload Audio File(s)", file_count="multiple")
+            multiple_full_textgrid_tier = gr.Textbox(label="TextGrid Tier Name", value="IPA")
+            multiple_full_transcribe_btn = gr.Button("Transcribe Audio Files", interactive=False, variant="primary")
+            multiple_full_table = gr.Dataframe(
+                headers=["Filename", "Transcription"],
+                interactive=False,
+                label="IPA Transcriptions",
+                datatype=["str", "str"]
+            )
+            multiple_full_zip_download_btn = gr.File(label="Download All as ZIP", interactive=False)
+            multiple_full_reset_btn = gr.Button("Reset", variant="secondary")
         # Interval transcription section
         with gr.Column(visible=False) as interval_section:
             interval_audio = gr.Audio(type="filepath", show_download_button=True, label="Upload Audio File")
         transcription_type.change(
             fn=lambda t: (
                 gr.update(visible=t == "Full Audio"),
+                gr.update(visible=t == "Multiple Full Audio"),
                 gr.update(visible=t == "TextGrid Interval"),
             ),
             inputs=transcription_type,
+            outputs=[full_audio_section, multiple_full_audio_section, interval_section],
         )
         # Enable full transcribe button after audio uploaded
             outputs=[full_download_btn],
         )
         full_reset_btn.click(
             fn=lambda: (None, "", "", "", gr.update(interactive=False)),
             outputs=[full_audio, full_prediction, full_textgrid_contents, full_download_btn],
             outputs=[interval_audio, interval_textgrid_file, tier_names, target_tier, interval_result, interval_download_btn],
         )
+        # Multiple full audio transcription logic
+        multiple_full_audio.change(
+            fn=lambda files: gr.update(interactive=bool(files)),
+            inputs=multiple_full_audio,
+            outputs=multiple_full_transcribe_btn,
+        )
+        multiple_full_transcribe_btn.click(
+            fn=transcribe_multiple_files,
+            inputs=[model_name, multiple_full_audio, model_state, multiple_full_textgrid_tier],
+            outputs=[multiple_full_table, multiple_full_zip_download_btn, model_state],
+        )
+        multiple_full_reset_btn.click(
+            fn=lambda: (None, "", [], None, gr.update(interactive=False)),
+            outputs=[multiple_full_audio, multiple_full_textgrid_tier, multiple_full_table, multiple_full_zip_download_btn, multiple_full_transcribe_btn],
+        )
     demo.launch(max_file_size="100mb")
 if __name__ == "__main__":