Upload fine-tuned Qwen3-ASR from checkpoint-14934

Browse files

Files changed (16) hide show

.gitattributes +1 -0
README.md +48 -0
added_tokens.json +64 -0
chat_template.json +1 -0
config.json +222 -0
generation_config.json +9 -0
merges.txt +0 -0
model.safetensors +3 -0
model.safetensors.index.json +715 -0
preprocessor_config.json +14 -0
rng_state.pth +3 -0
special_tokens_map.json +44 -0
tokenizer.json +3 -0
tokenizer_config.json +549 -0
trainer_state.json +1144 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,48 @@

+---
+language:
+- ar
+license: apache-2.0
+base_model: Qwen/Qwen3-ASR-1.7B
+tags:
+- automatic-speech-recognition
+- arabic
+- qwen3
+- moulasot
+- fine-tuned
+datasets:
+- atlasia/MoulSot-Full
+pipeline_tag: automatic-speech-recognition
+---
+# Qwen3-ASR-1.7B — Fine-tuned on MoulSot-Full (Arabic / Moroccan Darija)
+Fine-tuned version of [Qwen/Qwen3-ASR-1.7B](https://huggingface.co/Qwen/Qwen3-ASR-1.7B)
+on the [atlasia/MoulSot-Full](https://huggingface.co/datasets/atlasia/MoulSot-Full) dataset.
+## Usage
+```python
+from qwen_asr import Qwen3ASRModel
+model = Qwen3ASRModel.from_pretrained(
+    "01Yassine/moulsot.v0.3",
+    dtype="bfloat16",
+    device_map="cuda",
+)
+result = model.transcribe(audio="your_audio.wav", language="Arabic")
+print(result.text)
+```
+## Details
+| Property | Value |
+|---|---|
+| Base model | `Qwen/Qwen3-ASR-1.7B` |
+| Checkpoint | `output_moulasot_l40/1.7B/checkpoint-14934` |
+| Language | Arabic / Moroccan Darija |
+| Task | Automatic Speech Recognition |
+## License
+Apache 2.0 — same as the base model.

added_tokens.json ADDED Viewed

	@@ -0,0 +1,64 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<asr_text>": 151704,
+  "<blank10>": 151686,
+  "<blank11>": 151687,
+  "<blank12>": 151688,
+  "<blank13>": 151689,
+  "<blank14>": 151690,
+  "<blank15>": 151691,
+  "<blank16>": 151692,
+  "<blank17>": 151693,
+  "<blank18>": 151694,
+  "<blank19>": 151695,
+  "<blank1>": 151677,
+  "<blank20>": 151696,
+  "<blank21>": 151697,
+  "<blank22>": 151698,
+  "<blank23>": 151699,
+  "<blank24>": 151700,
+  "<blank25>": 151701,
+  "<blank26>": 151702,
+  "<blank27>": 151703,
+  "<blank2>": 151678,
+  "<blank3>": 151679,
+  "<blank4>": 151680,
+  "<blank5>": 151681,
+  "<blank6>": 151682,
+  "<blank7>": 151683,
+  "<blank8>": 151684,
+  "<blank9>": 151685,
+  "<non_speech>": 151675,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<tts_pad>": 151671,
+  "<tts_text_bos>": 151672,
+  "<tts_text_bos_single>": 151674,
+  "<tts_text_eod>": 151673,
+  "<|audio_end|>": 151670,
+  "<|audio_pad|>": 151676,
+  "<|audio_start|>": 151669,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"chat_template": "{%- set ns = namespace(system_text=\"\") -%}\n{%- for m in messages -%}\n {%- if m.role == 'system' -%}\n {%- if m.content is string -%}\n {%- set ns.system_text = ns.system_text + m.content -%}\n {%- else -%}\n {%- for c in m.content -%}\n {%- if c.type == 'text' and (c.text is defined) -%}\n {%- set ns.system_text = ns.system_text + c.text -%}\n {%- endif -%}\n {%- endfor -%}\n {%- endif -%}\n {%- endif -%}\n{%- endfor -%}\n\n{%- set ns2 = namespace(audio_tokens=\"\") -%}\n{%- for m in messages -%}\n {%- if m.content is not string -%}\n {%- for c in m.content -%}\n {%- if c.type == 'audio' or ('audio' in c) or ('audio_url' in c) -%}\n {%- set ns2.audio_tokens = ns2.audio_tokens + \"<|audio_start|><|audio_pad|><|audio_end|>\" -%}\n {%- endif -%}\n {%- endfor -%}\n {%- endif -%}\n{%- endfor -%}\n\n{{- '<|im_start|>system\\n' + (ns.system_text if ns.system_text is string else '') + '<|im_end|>\\n' -}}\n{{- '<|im_start|>user\\n' + ns2.audio_tokens + '<|im_end|>\\n' -}}\n{%- if add_generation_prompt -%}\n{{- '<|im_start|>assistant\\n' -}}\n{%- endif -%}"}

config.json ADDED Viewed

	@@ -0,0 +1,222 @@

+{
+  "architectures": [
+    "Qwen3ASRForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "model_type": "qwen3_asr",
+  "support_languages": [
+    "Chinese",
+    "English",
+    "Cantonese",
+    "Arabic",
+    "German",
+    "French",
+    "Spanish",
+    "Portuguese",
+    "Indonesian",
+    "Italian",
+    "Korean",
+    "Russian",
+    "Thai",
+    "Vietnamese",
+    "Japanese",
+    "Turkish",
+    "Hindi",
+    "Malay",
+    "Dutch",
+    "Swedish",
+    "Danish",
+    "Finnish",
+    "Polish",
+    "Czech",
+    "Filipino",
+    "Persian",
+    "Greek",
+    "Romanian",
+    "Hungarian",
+    "Macedonian"
+  ],
+  "thinker_config": {
+    "architectures": [
+      "Qwen3ASRForConditionalGeneration"
+    ],
+    "audio_config": {
+      "_name_or_path": "",
+      "activation_dropout": 0,
+      "activation_function": "gelu",
+      "add_cross_attention": false,
+      "architectures": null,
+      "attention_dropout": 0,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": null,
+      "chunk_size_feed_forward": 0,
+      "conv_chunksize": 500,
+      "cross_attention_hidden_size": null,
+      "d_model": 1024,
+      "decoder_start_token_id": null,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "downsample_hidden_size": 480,
+      "dropout": 0,
+      "dtype": null,
+      "early_stopping": false,
+      "encoder_attention_heads": 16,
+      "encoder_ffn_dim": 4096,
+      "encoder_layers": 24,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": null,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "initializer_range": 0.02,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "max_source_positions": 1500,
+      "min_length": 0,
+      "model_type": "qwen3_asr_audio_encoder",
+      "n_window": 50,
+      "n_window_infer": 800,
+      "no_repeat_ngram_size": 0,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_hidden_layers": 24,
+      "num_mel_bins": 128,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_dim": 2048,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "prefix": null,
+      "problem_type": null,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "scale_embedding": false,
+      "sep_token_id": null,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": true,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torchscript": false,
+      "typical_p": 1.0,
+      "use_bfloat16": false
+    },
+    "audio_end_token_id": 151670,
+    "audio_start_token_id": 151669,
+    "audio_token_id": 151676,
+    "dtype": "bfloat16",
+    "initializer_range": 0.02,
+    "model_type": "qwen3_asr_thinker",
+    "text_config": {
+      "_name_or_path": "",
+      "add_cross_attention": false,
+      "architectures": null,
+      "attention_bias": false,
+      "attention_dropout": 0.0,
+      "bad_words_ids": null,
+      "begin_suppress_tokens": null,
+      "bos_token_id": null,
+      "chunk_size_feed_forward": 0,
+      "cross_attention_hidden_size": null,
+      "decoder_start_token_id": null,
+      "diversity_penalty": 0.0,
+      "do_sample": false,
+      "dtype": null,
+      "early_stopping": false,
+      "encoder_no_repeat_ngram_size": 0,
+      "eos_token_id": null,
+      "exponential_decay_length_penalty": null,
+      "finetuning_task": null,
+      "forced_bos_token_id": null,
+      "forced_eos_token_id": null,
+      "head_dim": 128,
+      "hidden_act": "silu",
+      "hidden_size": 2048,
+      "id2label": {
+        "0": "LABEL_0",
+        "1": "LABEL_1"
+      },
+      "initializer_range": 0.02,
+      "intermediate_size": 6144,
+      "is_decoder": false,
+      "is_encoder_decoder": false,
+      "label2id": {
+        "LABEL_0": 0,
+        "LABEL_1": 1
+      },
+      "length_penalty": 1.0,
+      "max_length": 20,
+      "max_position_embeddings": 65536,
+      "min_length": 0,
+      "model_type": "qwen3_asr_text",
+      "no_repeat_ngram_size": 0,
+      "num_attention_heads": 16,
+      "num_beam_groups": 1,
+      "num_beams": 1,
+      "num_hidden_layers": 28,
+      "num_key_value_heads": 8,
+      "num_return_sequences": 1,
+      "output_attentions": false,
+      "output_hidden_states": false,
+      "output_scores": false,
+      "pad_token_id": null,
+      "prefix": null,
+      "problem_type": null,
+      "pruned_heads": {},
+      "remove_invalid_values": false,
+      "repetition_penalty": 1.0,
+      "return_dict": true,
+      "return_dict_in_generate": false,
+      "rms_norm_eps": 1e-06,
+      "rope_scaling": {
+        "interleaved": true,
+        "mrope_interleaved": true,
+        "mrope_section": [
+          24,
+          20,
+          20
+        ],
+        "rope_type": "default",
+        "type": "default"
+      },
+      "rope_theta": 1000000,
+      "sep_token_id": null,
+      "suppress_tokens": null,
+      "task_specific_params": null,
+      "temperature": 1.0,
+      "tf_legacy_loss": false,
+      "tie_encoder_decoder": false,
+      "tie_word_embeddings": true,
+      "tokenizer_class": null,
+      "top_k": 50,
+      "top_p": 1.0,
+      "torchscript": false,
+      "typical_p": 1.0,
+      "use_bfloat16": false,
+      "use_cache": true,
+      "vocab_size": 151936
+    },
+    "user_token_id": 872
+  },
+  "transformers_version": "4.57.6"
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "eos_token_id": [
+    151643,
+    151645
+  ],
+  "pad_token_id": 151643,
+  "transformers_version": "4.57.6"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13ff6bd50201fc8df494d2f6b2b7c559eabbdc8510f0618d78d7c0ec8949c1e0
+size 4076191640

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,715 @@

+{
+  "metadata": {
+    "format": "pt"
+  },
+  "weight_map": {
+    "thinker.audio_tower.conv2d1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv2d1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv2d2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv2d2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv2d3.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv2d3.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.conv_out.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.0.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.1.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.10.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.11.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.12.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.13.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.14.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.15.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.16.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.17.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.18.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.19.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.2.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.20.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.21.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.22.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.23.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.3.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.4.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.5.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.6.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.7.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.8.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.fc1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.fc1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.fc2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.fc2.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.final_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.final_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.k_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.out_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.out_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.q_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.v_proj.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn_layer_norm.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.layers.9.self_attn_layer_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.ln_post.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.ln_post.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.proj1.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.proj1.weight": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.proj2.bias": "model-00001-of-00002.safetensors",
+    "thinker.audio_tower.proj2.weight": "model-00001-of-00002.safetensors",
+    "thinker.lm_head.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.17.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.18.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.19.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.20.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.21.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.22.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.23.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.24.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.25.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.26.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.27.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "thinker.model.layers.5.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.5.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.6.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.7.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.8.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.layers.9.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "thinker.model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "chunk_length": 30,
+  "dither": 0.0,
+  "feature_extractor_type": "WhisperFeatureExtractor",
+  "feature_size": 128,
+  "hop_length": 160,
+  "n_fft": 400,
+  "n_samples": 480000,
+  "nb_max_frames": 3000,
+  "padding_side": "right",
+  "padding_value": 0.0,
+  "processor_class": "Qwen3ASRProcessor",
+  "return_attention_mask": true
+}

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:098b29492211804ab324a36f37466821d948280bb74fce4ba895c03f13ecd878
+size 14645

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<|audio_start|>",
+    "<|audio_end|>",
+    "<tts_pad>",
+    "<tts_text_bos>",
+    "<tts_text_bos_single>",
+    "<|audio_pad|>"
+  ],
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "image_token": "<|image_pad|>",
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>"
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd2a97b55c8f7f9c328c73ee9b9178771037e9f566dfca8e238a063d41cbac92
+size 11429377

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,549 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151669": {
+      "content": "<|audio_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151670": {
+      "content": "<|audio_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151671": {
+      "content": "<tts_pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151672": {
+      "content": "<tts_text_bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151673": {
+      "content": "<tts_text_eod>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151674": {
+      "content": "<tts_text_bos_single>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151675": {
+      "content": "<non_speech>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151676": {
+      "content": "<|audio_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151677": {
+      "content": "<blank1>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151678": {
+      "content": "<blank2>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151679": {
+      "content": "<blank3>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151680": {
+      "content": "<blank4>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151681": {
+      "content": "<blank5>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151682": {
+      "content": "<blank6>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151683": {
+      "content": "<blank7>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151684": {
+      "content": "<blank8>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151685": {
+      "content": "<blank9>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151686": {
+      "content": "<blank10>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151687": {
+      "content": "<blank11>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151688": {
+      "content": "<blank12>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151689": {
+      "content": "<blank13>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151690": {
+      "content": "<blank14>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151691": {
+      "content": "<blank15>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151692": {
+      "content": "<blank16>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151693": {
+      "content": "<blank17>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151694": {
+      "content": "<blank18>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151695": {
+      "content": "<blank19>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151696": {
+      "content": "<blank20>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151697": {
+      "content": "<blank21>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151698": {
+      "content": "<blank22>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151699": {
+      "content": "<blank23>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151700": {
+      "content": "<blank24>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151701": {
+      "content": "<blank25>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151702": {
+      "content": "<blank26>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151703": {
+      "content": "<blank27>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151704": {
+      "content": "<asr_text>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<|audio_start|>",
+    "<|audio_end|>",
+    "<tts_pad>",
+    "<tts_text_bos>",
+    "<tts_text_bos_single>",
+    "<|audio_pad|>"
+  ],
+  "audio_bos_token": "<|audio_start|>",
+  "audio_eos_token": "<|audio_end|>",
+  "audio_token": "<|audio_pad|>",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {
+    "audio_bos_token": "<|audio_start|>",
+    "audio_eos_token": "<|audio_end|>",
+    "audio_token": "<|audio_pad|>",
+    "image_token": "<|image_pad|>",
+    "video_token": "<|video_pad|>",
+    "vision_bos_token": "<|vision_start|>",
+    "vision_eos_token": "<|vision_end|>"
+  },
+  "image_token": "<|image_pad|>",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "processor_class": "Qwen3ASRProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null,
+  "video_token": "<|video_pad|>",
+  "vision_bos_token": "<|vision_start|>",
+  "vision_eos_token": "<|vision_end|>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1144 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 200,
+  "global_step": 14934,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.040176777822418644,
+      "grad_norm": 178.0,
+      "learning_rate": 7.991967871485945e-06,
+      "loss": 13.2817,
+      "step": 200
+    },
+    {
+      "epoch": 0.040176777822418644,
+      "eval_loss": 2.0163986682891846,
+      "eval_runtime": 51.4206,
+      "eval_samples_per_second": 38.156,
+      "eval_steps_per_second": 4.784,
+      "step": 200
+    },
+    {
+      "epoch": 0.08035355564483729,
+      "grad_norm": 11.5625,
+      "learning_rate": 1.602409638554217e-05,
+      "loss": 1.3221,
+      "step": 400
+    },
+    {
+      "epoch": 0.08035355564483729,
+      "eval_loss": 0.5200865864753723,
+      "eval_runtime": 40.2594,
+      "eval_samples_per_second": 48.734,
+      "eval_steps_per_second": 6.11,
+      "step": 400
+    },
+    {
+      "epoch": 0.12053033346725593,
+      "grad_norm": 10.6875,
+      "learning_rate": 2.4056224899598397e-05,
+      "loss": 0.6527,
+      "step": 600
+    },
+    {
+      "epoch": 0.12053033346725593,
+      "eval_loss": 0.4557928740978241,
+      "eval_runtime": 40.4333,
+      "eval_samples_per_second": 48.524,
+      "eval_steps_per_second": 6.084,
+      "step": 600
+    },
+    {
+      "epoch": 0.16070711128967458,
+      "grad_norm": 10.25,
+      "learning_rate": 3.208835341365462e-05,
+      "loss": 0.6243,
+      "step": 800
+    },
+    {
+      "epoch": 0.16070711128967458,
+      "eval_loss": 0.4576485753059387,
+      "eval_runtime": 40.2178,
+      "eval_samples_per_second": 48.784,
+      "eval_steps_per_second": 6.117,
+      "step": 800
+    },
+    {
+      "epoch": 0.2008838891120932,
+      "grad_norm": 9.5,
+      "learning_rate": 4.012048192771085e-05,
+      "loss": 0.6059,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2008838891120932,
+      "eval_loss": 0.46009403467178345,
+      "eval_runtime": 40.2382,
+      "eval_samples_per_second": 48.76,
+      "eval_steps_per_second": 6.114,
+      "step": 1000
+    },
+    {
+      "epoch": 0.24106066693451186,
+      "grad_norm": 8.625,
+      "learning_rate": 4.815261044176707e-05,
+      "loss": 0.6171,
+      "step": 1200
+    },
+    {
+      "epoch": 0.24106066693451186,
+      "eval_loss": 0.4689507484436035,
+      "eval_runtime": 40.3013,
+      "eval_samples_per_second": 48.683,
+      "eval_steps_per_second": 6.104,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2812374447569305,
+      "grad_norm": 9.3125,
+      "learning_rate": 4.999476691954866e-05,
+      "loss": 0.5954,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2812374447569305,
+      "eval_loss": 0.45582765340805054,
+      "eval_runtime": 40.6487,
+      "eval_samples_per_second": 48.267,
+      "eval_steps_per_second": 6.052,
+      "step": 1400
+    },
+    {
+      "epoch": 0.32141422257934915,
+      "grad_norm": 8.75,
+      "learning_rate": 4.9972352390837575e-05,
+      "loss": 0.585,
+      "step": 1600
+    },
+    {
+      "epoch": 0.32141422257934915,
+      "eval_loss": 0.42706185579299927,
+      "eval_runtime": 40.3385,
+      "eval_samples_per_second": 48.638,
+      "eval_steps_per_second": 6.098,
+      "step": 1600
+    },
+    {
+      "epoch": 0.3615910004017678,
+      "grad_norm": 8.875,
+      "learning_rate": 4.993230531719831e-05,
+      "loss": 0.5548,
+      "step": 1800
+    },
+    {
+      "epoch": 0.3615910004017678,
+      "eval_loss": 0.4254651367664337,
+      "eval_runtime": 40.2971,
+      "eval_samples_per_second": 48.688,
+      "eval_steps_per_second": 6.105,
+      "step": 1800
+    },
+    {
+      "epoch": 0.4017677782241864,
+      "grad_norm": 11.6875,
+      "learning_rate": 4.9874653975175036e-05,
+      "loss": 0.5429,
+      "step": 2000
+    },
+    {
+      "epoch": 0.4017677782241864,
+      "eval_loss": 0.4014296531677246,
+      "eval_runtime": 40.3845,
+      "eval_samples_per_second": 48.583,
+      "eval_steps_per_second": 6.091,
+      "step": 2000
+    },
+    {
+      "epoch": 0.44194455604660504,
+      "grad_norm": 5.875,
+      "learning_rate": 4.979943907138049e-05,
+      "loss": 0.5137,
+      "step": 2200
+    },
+    {
+      "epoch": 0.44194455604660504,
+      "eval_loss": 0.39921146631240845,
+      "eval_runtime": 40.1294,
+      "eval_samples_per_second": 48.892,
+      "eval_steps_per_second": 6.13,
+      "step": 2200
+    },
+    {
+      "epoch": 0.4821213338690237,
+      "grad_norm": 6.34375,
+      "learning_rate": 4.97067137137538e-05,
+      "loss": 0.5141,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4821213338690237,
+      "eval_loss": 0.3842703700065613,
+      "eval_runtime": 40.2191,
+      "eval_samples_per_second": 48.783,
+      "eval_steps_per_second": 6.116,
+      "step": 2400
+    },
+    {
+      "epoch": 0.5222981116914424,
+      "grad_norm": 11.4375,
+      "learning_rate": 4.959654337406187e-05,
+      "loss": 0.4953,
+      "step": 2600
+    },
+    {
+      "epoch": 0.5222981116914424,
+      "eval_loss": 0.37524962425231934,
+      "eval_runtime": 40.3546,
+      "eval_samples_per_second": 48.619,
+      "eval_steps_per_second": 6.096,
+      "step": 2600
+    },
+    {
+      "epoch": 0.562474889513861,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.946900584167086e-05,
+      "loss": 0.4938,
+      "step": 2800
+    },
+    {
+      "epoch": 0.562474889513861,
+      "eval_loss": 0.37083181738853455,
+      "eval_runtime": 40.0762,
+      "eval_samples_per_second": 48.957,
+      "eval_steps_per_second": 6.138,
+      "step": 2800
+    },
+    {
+      "epoch": 0.6026516673362796,
+      "grad_norm": 7.5625,
+      "learning_rate": 4.93241911686205e-05,
+      "loss": 0.4739,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6026516673362796,
+      "eval_loss": 0.3582882583141327,
+      "eval_runtime": 40.2624,
+      "eval_samples_per_second": 48.73,
+      "eval_steps_per_second": 6.11,
+      "step": 3000
+    },
+    {
+      "epoch": 0.6428284451586983,
+      "grad_norm": 7.375,
+      "learning_rate": 4.916220160603993e-05,
+      "loss": 0.4722,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6428284451586983,
+      "eval_loss": 0.3533416986465454,
+      "eval_runtime": 40.054,
+      "eval_samples_per_second": 48.984,
+      "eval_steps_per_second": 6.142,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6830052229811169,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.89831515319499e-05,
+      "loss": 0.4603,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6830052229811169,
+      "eval_loss": 0.3541873097419739,
+      "eval_runtime": 40.1148,
+      "eval_samples_per_second": 48.91,
+      "eval_steps_per_second": 6.132,
+      "step": 3400
+    },
+    {
+      "epoch": 0.7231820008035356,
+      "grad_norm": 7.40625,
+      "learning_rate": 4.878716737050246e-05,
+      "loss": 0.4417,
+      "step": 3600
+    },
+    {
+      "epoch": 0.7231820008035356,
+      "eval_loss": 0.34198856353759766,
+      "eval_runtime": 40.2884,
+      "eval_samples_per_second": 48.699,
+      "eval_steps_per_second": 6.106,
+      "step": 3600
+    },
+    {
+      "epoch": 0.7633587786259542,
+      "grad_norm": 5.625,
+      "learning_rate": 4.8574387502715055e-05,
+      "loss": 0.4464,
+      "step": 3800
+    },
+    {
+      "epoch": 0.7633587786259542,
+      "eval_loss": 0.33911019563674927,
+      "eval_runtime": 40.2619,
+      "eval_samples_per_second": 48.731,
+      "eval_steps_per_second": 6.11,
+      "step": 3800
+    },
+    {
+      "epoch": 0.8035355564483728,
+      "grad_norm": 6.4375,
+      "learning_rate": 4.8344962168762114e-05,
+      "loss": 0.4362,
+      "step": 4000
+    },
+    {
+      "epoch": 0.8035355564483728,
+      "eval_loss": 0.3308402895927429,
+      "eval_runtime": 40.2069,
+      "eval_samples_per_second": 48.798,
+      "eval_steps_per_second": 6.118,
+      "step": 4000
+    },
+    {
+      "epoch": 0.8437123342707915,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.8099053361893e-05,
+      "loss": 0.4239,
+      "step": 4200
+    },
+    {
+      "epoch": 0.8437123342707915,
+      "eval_loss": 0.332675039768219,
+      "eval_runtime": 40.2019,
+      "eval_samples_per_second": 48.804,
+      "eval_steps_per_second": 6.119,
+      "step": 4200
+    },
+    {
+      "epoch": 0.8838891120932101,
+      "grad_norm": 4.9375,
+      "learning_rate": 4.783683471405146e-05,
+      "loss": 0.4213,
+      "step": 4400
+    },
+    {
+      "epoch": 0.8838891120932101,
+      "eval_loss": 0.32235413789749146,
+      "eval_runtime": 40.1595,
+      "eval_samples_per_second": 48.855,
+      "eval_steps_per_second": 6.126,
+      "step": 4400
+    },
+    {
+      "epoch": 0.9240658899156288,
+      "grad_norm": 5.03125,
+      "learning_rate": 4.7558491373277083e-05,
+      "loss": 0.4296,
+      "step": 4600
+    },
+    {
+      "epoch": 0.9240658899156288,
+      "eval_loss": 0.31966790556907654,
+      "eval_runtime": 40.1565,
+      "eval_samples_per_second": 48.859,
+      "eval_steps_per_second": 6.126,
+      "step": 4600
+    },
+    {
+      "epoch": 0.9642426677380475,
+      "grad_norm": 5.9375,
+      "learning_rate": 4.726421987297549e-05,
+      "loss": 0.4089,
+      "step": 4800
+    },
+    {
+      "epoch": 0.9642426677380475,
+      "eval_loss": 0.3144192695617676,
+      "eval_runtime": 40.1017,
+      "eval_samples_per_second": 48.926,
+      "eval_steps_per_second": 6.134,
+      "step": 4800
+    },
+    {
+      "epoch": 1.004419445560466,
+      "grad_norm": 5.40625,
+      "learning_rate": 4.695422799314949e-05,
+      "loss": 0.393,
+      "step": 5000
+    },
+    {
+      "epoch": 1.004419445560466,
+      "eval_loss": 0.3213293254375458,
+      "eval_runtime": 40.1818,
+      "eval_samples_per_second": 48.828,
+      "eval_steps_per_second": 6.122,
+      "step": 5000
+    },
+    {
+      "epoch": 1.0445962233828847,
+      "grad_norm": 6.375,
+      "learning_rate": 4.662873461368926e-05,
+      "loss": 0.301,
+      "step": 5200
+    },
+    {
+      "epoch": 1.0445962233828847,
+      "eval_loss": 0.32283082604408264,
+      "eval_runtime": 40.071,
+      "eval_samples_per_second": 48.963,
+      "eval_steps_per_second": 6.139,
+      "step": 5200
+    },
+    {
+      "epoch": 1.0847730012053034,
+      "grad_norm": 4.78125,
+      "learning_rate": 4.6287969559824996e-05,
+      "loss": 0.2883,
+      "step": 5400
+    },
+    {
+      "epoch": 1.0847730012053034,
+      "eval_loss": 0.32108554244041443,
+      "eval_runtime": 39.916,
+      "eval_samples_per_second": 49.153,
+      "eval_steps_per_second": 6.163,
+      "step": 5400
+    },
+    {
+      "epoch": 1.1249497790277219,
+      "grad_norm": 5.125,
+      "learning_rate": 4.5932173439851355e-05,
+      "loss": 0.29,
+      "step": 5600
+    },
+    {
+      "epoch": 1.1249497790277219,
+      "eval_loss": 0.3121967613697052,
+      "eval_runtime": 39.6694,
+      "eval_samples_per_second": 49.459,
+      "eval_steps_per_second": 6.201,
+      "step": 5600
+    },
+    {
+      "epoch": 1.1651265568501405,
+      "grad_norm": 6.03125,
+      "learning_rate": 4.5561597475238094e-05,
+      "loss": 0.2808,
+      "step": 5800
+    },
+    {
+      "epoch": 1.1651265568501405,
+      "eval_loss": 0.3169782757759094,
+      "eval_runtime": 40.1646,
+      "eval_samples_per_second": 48.849,
+      "eval_steps_per_second": 6.125,
+      "step": 5800
+    },
+    {
+      "epoch": 1.2053033346725592,
+      "grad_norm": 5.4375,
+      "learning_rate": 4.517650332324692e-05,
+      "loss": 0.2836,
+      "step": 6000
+    },
+    {
+      "epoch": 1.2053033346725592,
+      "eval_loss": 0.30975210666656494,
+      "eval_runtime": 40.0547,
+      "eval_samples_per_second": 48.983,
+      "eval_steps_per_second": 6.142,
+      "step": 6000
+    },
+    {
+      "epoch": 1.245480112494978,
+      "grad_norm": 6.375,
+      "learning_rate": 4.477716289217989e-05,
+      "loss": 0.2916,
+      "step": 6200
+    },
+    {
+      "epoch": 1.245480112494978,
+      "eval_loss": 0.30826571583747864,
+      "eval_runtime": 40.0909,
+      "eval_samples_per_second": 48.939,
+      "eval_steps_per_second": 6.136,
+      "step": 6200
+    },
+    {
+      "epoch": 1.2856568903173966,
+      "grad_norm": 4.09375,
+      "learning_rate": 4.436385814938962e-05,
+      "loss": 0.2819,
+      "step": 6400
+    },
+    {
+      "epoch": 1.2856568903173966,
+      "eval_loss": 0.3041566014289856,
+      "eval_runtime": 40.1919,
+      "eval_samples_per_second": 48.816,
+      "eval_steps_per_second": 6.121,
+      "step": 6400
+    },
+    {
+      "epoch": 1.3258336681398153,
+      "grad_norm": 6.3125,
+      "learning_rate": 4.393688092218706e-05,
+      "loss": 0.284,
+      "step": 6600
+    },
+    {
+      "epoch": 1.3258336681398153,
+      "eval_loss": 0.30126050114631653,
+      "eval_runtime": 39.9508,
+      "eval_samples_per_second": 49.11,
+      "eval_steps_per_second": 6.158,
+      "step": 6600
+    },
+    {
+      "epoch": 1.3660104459622338,
+      "grad_norm": 4.1875,
+      "learning_rate": 4.349653269178727e-05,
+      "loss": 0.2807,
+      "step": 6800
+    },
+    {
+      "epoch": 1.3660104459622338,
+      "eval_loss": 0.30023491382598877,
+      "eval_runtime": 39.7798,
+      "eval_samples_per_second": 49.321,
+      "eval_steps_per_second": 6.184,
+      "step": 6800
+    },
+    {
+      "epoch": 1.4061872237846524,
+      "grad_norm": 6.125,
+      "learning_rate": 4.3043124380438804e-05,
+      "loss": 0.2775,
+      "step": 7000
+    },
+    {
+      "epoch": 1.4061872237846524,
+      "eval_loss": 0.29702138900756836,
+      "eval_runtime": 40.0167,
+      "eval_samples_per_second": 49.03,
+      "eval_steps_per_second": 6.147,
+      "step": 7000
+    },
+    {
+      "epoch": 1.4463640016070711,
+      "grad_norm": 4.40625,
+      "learning_rate": 4.257697613188684e-05,
+      "loss": 0.2743,
+      "step": 7200
+    },
+    {
+      "epoch": 1.4463640016070711,
+      "eval_loss": 0.29679545760154724,
+      "eval_runtime": 40.3896,
+      "eval_samples_per_second": 48.577,
+      "eval_steps_per_second": 6.091,
+      "step": 7200
+    },
+    {
+      "epoch": 1.4865407794294898,
+      "grad_norm": 5.90625,
+      "learning_rate": 4.209841708532529e-05,
+      "loss": 0.2772,
+      "step": 7400
+    },
+    {
+      "epoch": 1.4865407794294898,
+      "eval_loss": 0.2939276695251465,
+      "eval_runtime": 40.042,
+      "eval_samples_per_second": 48.999,
+      "eval_steps_per_second": 6.144,
+      "step": 7400
+    },
+    {
+      "epoch": 1.5267175572519083,
+      "grad_norm": 7.375,
+      "learning_rate": 4.160778514299728e-05,
+      "loss": 0.2677,
+      "step": 7600
+    },
+    {
+      "epoch": 1.5267175572519083,
+      "eval_loss": 0.29747524857521057,
+      "eval_runtime": 40.0213,
+      "eval_samples_per_second": 49.024,
+      "eval_steps_per_second": 6.147,
+      "step": 7600
+    },
+    {
+      "epoch": 1.566894335074327,
+      "grad_norm": 4.8125,
+      "learning_rate": 4.110542673160829e-05,
+      "loss": 0.2683,
+      "step": 7800
+    },
+    {
+      "epoch": 1.566894335074327,
+      "eval_loss": 0.2939266860485077,
+      "eval_runtime": 40.0323,
+      "eval_samples_per_second": 49.01,
+      "eval_steps_per_second": 6.145,
+      "step": 7800
+    },
+    {
+      "epoch": 1.6070711128967456,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.059169655772018e-05,
+      "loss": 0.2645,
+      "step": 8000
+    },
+    {
+      "epoch": 1.6070711128967456,
+      "eval_loss": 0.29068824648857117,
+      "eval_runtime": 40.0918,
+      "eval_samples_per_second": 48.938,
+      "eval_steps_per_second": 6.136,
+      "step": 8000
+    },
+    {
+      "epoch": 1.6472478907191643,
+      "grad_norm": 5.46875,
+      "learning_rate": 4.006695735729914e-05,
+      "loss": 0.2722,
+      "step": 8200
+    },
+    {
+      "epoch": 1.6472478907191643,
+      "eval_loss": 0.29028597474098206,
+      "eval_runtime": 40.324,
+      "eval_samples_per_second": 48.656,
+      "eval_steps_per_second": 6.101,
+      "step": 8200
+    },
+    {
+      "epoch": 1.687424668541583,
+      "grad_norm": 4.84375,
+      "learning_rate": 3.953157963959404e-05,
+      "loss": 0.268,
+      "step": 8400
+    },
+    {
+      "epoch": 1.687424668541583,
+      "eval_loss": 0.285940945148468,
+      "eval_runtime": 40.1268,
+      "eval_samples_per_second": 48.895,
+      "eval_steps_per_second": 6.131,
+      "step": 8400
+    },
+    {
+      "epoch": 1.7276014463640017,
+      "grad_norm": 6.59375,
+      "learning_rate": 3.8985941425526314e-05,
+      "loss": 0.2681,
+      "step": 8600
+    },
+    {
+      "epoch": 1.7276014463640017,
+      "eval_loss": 0.2845953702926636,
+      "eval_runtime": 40.1554,
+      "eval_samples_per_second": 48.86,
+      "eval_steps_per_second": 6.126,
+      "step": 8600
+    },
+    {
+      "epoch": 1.7677782241864204,
+      "grad_norm": 3.625,
+      "learning_rate": 3.843042798077592e-05,
+      "loss": 0.2607,
+      "step": 8800
+    },
+    {
+      "epoch": 1.7677782241864204,
+      "eval_loss": 0.28649890422821045,
+      "eval_runtime": 40.2527,
+      "eval_samples_per_second": 48.742,
+      "eval_steps_per_second": 6.111,
+      "step": 8800
+    },
+    {
+      "epoch": 1.8079550020088389,
+      "grad_norm": 5.84375,
+      "learning_rate": 3.786543154375193e-05,
+      "loss": 0.2641,
+      "step": 9000
+    },
+    {
+      "epoch": 1.8079550020088389,
+      "eval_loss": 0.2839067280292511,
+      "eval_runtime": 40.0206,
+      "eval_samples_per_second": 49.025,
+      "eval_steps_per_second": 6.147,
+      "step": 9000
+    },
+    {
+      "epoch": 1.8481317798312575,
+      "grad_norm": 3.890625,
+      "learning_rate": 3.729135104863981e-05,
+      "loss": 0.2611,
+      "step": 9200
+    },
+    {
+      "epoch": 1.8481317798312575,
+      "eval_loss": 0.2817397117614746,
+      "eval_runtime": 40.0332,
+      "eval_samples_per_second": 49.009,
+      "eval_steps_per_second": 6.145,
+      "step": 9200
+    },
+    {
+      "epoch": 1.8883085576536762,
+      "grad_norm": 10.5,
+      "learning_rate": 3.6708591843720904e-05,
+      "loss": 0.263,
+      "step": 9400
+    },
+    {
+      "epoch": 1.8883085576536762,
+      "eval_loss": 0.28167155385017395,
+      "eval_runtime": 40.1441,
+      "eval_samples_per_second": 48.874,
+      "eval_steps_per_second": 6.128,
+      "step": 9400
+    },
+    {
+      "epoch": 1.9284853354760947,
+      "grad_norm": 5.71875,
+      "learning_rate": 3.6117565405163e-05,
+      "loss": 0.2627,
+      "step": 9600
+    },
+    {
+      "epoch": 1.9284853354760947,
+      "eval_loss": 0.2811395525932312,
+      "eval_runtime": 40.1752,
+      "eval_samples_per_second": 48.836,
+      "eval_steps_per_second": 6.123,
+      "step": 9600
+    },
+    {
+      "epoch": 1.9686621132985134,
+      "grad_norm": 4.8125,
+      "learning_rate": 3.551868904648423e-05,
+      "loss": 0.2655,
+      "step": 9800
+    },
+    {
+      "epoch": 1.9686621132985134,
+      "eval_loss": 0.2818823754787445,
+      "eval_runtime": 40.0154,
+      "eval_samples_per_second": 49.031,
+      "eval_steps_per_second": 6.148,
+      "step": 9800
+    },
+    {
+      "epoch": 2.008838891120932,
+      "grad_norm": 4.75,
+      "learning_rate": 3.491238562389514e-05,
+      "loss": 0.2427,
+      "step": 10000
+    },
+    {
+      "epoch": 2.008838891120932,
+      "eval_loss": 0.2955799698829651,
+      "eval_runtime": 39.9851,
+      "eval_samples_per_second": 49.068,
+      "eval_steps_per_second": 6.152,
+      "step": 10000
+    },
+    {
+      "epoch": 2.0490156689433507,
+      "grad_norm": 3.984375,
+      "learning_rate": 3.429908323772732e-05,
+      "loss": 0.1537,
+      "step": 10200
+    },
+    {
+      "epoch": 2.0490156689433507,
+      "eval_loss": 0.2996705174446106,
+      "eval_runtime": 39.9497,
+      "eval_samples_per_second": 49.112,
+      "eval_steps_per_second": 6.158,
+      "step": 10200
+    },
+    {
+      "epoch": 2.0891924467657694,
+      "grad_norm": 4.28125,
+      "learning_rate": 3.3679214930159134e-05,
+      "loss": 0.1538,
+      "step": 10400
+    },
+    {
+      "epoch": 2.0891924467657694,
+      "eval_loss": 0.29936379194259644,
+      "eval_runtime": 40.1128,
+      "eval_samples_per_second": 48.912,
+      "eval_steps_per_second": 6.133,
+      "step": 10400
+    },
+    {
+      "epoch": 2.129369224588188,
+      "grad_norm": 5.15625,
+      "learning_rate": 3.305321837945223e-05,
+      "loss": 0.1495,
+      "step": 10600
+    },
+    {
+      "epoch": 2.129369224588188,
+      "eval_loss": 0.30408579111099243,
+      "eval_runtime": 39.7023,
+      "eval_samples_per_second": 49.418,
+      "eval_steps_per_second": 6.196,
+      "step": 10600
+    },
+    {
+      "epoch": 2.169546002410607,
+      "grad_norm": 2.453125,
+      "learning_rate": 3.242153559091438e-05,
+      "loss": 0.1575,
+      "step": 10800
+    },
+    {
+      "epoch": 2.169546002410607,
+      "eval_loss": 0.30324921011924744,
+      "eval_runtime": 40.2225,
+      "eval_samples_per_second": 48.779,
+      "eval_steps_per_second": 6.116,
+      "step": 10800
+    },
+    {
+      "epoch": 2.2097227802330255,
+      "grad_norm": 4.71875,
+      "learning_rate": 3.1784612584807336e-05,
+      "loss": 0.1522,
+      "step": 11000
+    },
+    {
+      "epoch": 2.2097227802330255,
+      "eval_loss": 0.30149009823799133,
+      "eval_runtime": 39.9204,
+      "eval_samples_per_second": 49.148,
+      "eval_steps_per_second": 6.162,
+      "step": 11000
+    },
+    {
+      "epoch": 2.2498995580554437,
+      "grad_norm": 4.625,
+      "learning_rate": 3.1142899081419545e-05,
+      "loss": 0.1515,
+      "step": 11200
+    },
+    {
+      "epoch": 2.2498995580554437,
+      "eval_loss": 0.30561012029647827,
+      "eval_runtime": 40.0923,
+      "eval_samples_per_second": 48.937,
+      "eval_steps_per_second": 6.136,
+      "step": 11200
+    },
+    {
+      "epoch": 2.2900763358778624,
+      "grad_norm": 4.59375,
+      "learning_rate": 3.049684818352655e-05,
+      "loss": 0.1505,
+      "step": 11400
+    },
+    {
+      "epoch": 2.2900763358778624,
+      "eval_loss": 0.2993142306804657,
+      "eval_runtime": 39.8653,
+      "eval_samples_per_second": 49.216,
+      "eval_steps_per_second": 6.171,
+      "step": 11400
+    },
+    {
+      "epoch": 2.330253113700281,
+      "grad_norm": 3.578125,
+      "learning_rate": 2.9846916056462875e-05,
+      "loss": 0.1459,
+      "step": 11600
+    },
+    {
+      "epoch": 2.330253113700281,
+      "eval_loss": 0.3043794631958008,
+      "eval_runtime": 39.9146,
+      "eval_samples_per_second": 49.155,
+      "eval_steps_per_second": 6.163,
+      "step": 11600
+    },
+    {
+      "epoch": 2.3704298915227,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.9193561606031705e-05,
+      "loss": 0.1534,
+      "step": 11800
+    },
+    {
+      "epoch": 2.3704298915227,
+      "eval_loss": 0.30010586977005005,
+      "eval_runtime": 39.8993,
+      "eval_samples_per_second": 49.174,
+      "eval_steps_per_second": 6.166,
+      "step": 11800
+    },
+    {
+      "epoch": 2.4106066693451185,
+      "grad_norm": 5.625,
+      "learning_rate": 2.8537246154479376e-05,
+      "loss": 0.1507,
+      "step": 12000
+    },
+    {
+      "epoch": 2.4106066693451185,
+      "eval_loss": 0.29873979091644287,
+      "eval_runtime": 39.98,
+      "eval_samples_per_second": 49.074,
+      "eval_steps_per_second": 6.153,
+      "step": 12000
+    },
+    {
+      "epoch": 2.450783447167537,
+      "grad_norm": 5.78125,
+      "learning_rate": 2.7878433114763743e-05,
+      "loss": 0.1524,
+      "step": 12200
+    },
+    {
+      "epoch": 2.450783447167537,
+      "eval_loss": 0.2999976873397827,
+      "eval_runtime": 40.1057,
+      "eval_samples_per_second": 48.921,
+      "eval_steps_per_second": 6.134,
+      "step": 12200
+    },
+    {
+      "epoch": 2.490960224989956,
+      "grad_norm": 5.28125,
+      "learning_rate": 2.7217587663346385e-05,
+      "loss": 0.1454,
+      "step": 12400
+    },
+    {
+      "epoch": 2.490960224989956,
+      "eval_loss": 0.30179864168167114,
+      "eval_runtime": 39.8557,
+      "eval_samples_per_second": 49.228,
+      "eval_steps_per_second": 6.172,
+      "step": 12400
+    },
+    {
+      "epoch": 2.5311370028123745,
+      "grad_norm": 5.15625,
+      "learning_rate": 2.6555176411739518e-05,
+      "loss": 0.1512,
+      "step": 12600
+    },
+    {
+      "epoch": 2.5311370028123745,
+      "eval_loss": 0.3000730872154236,
+      "eval_runtime": 40.0032,
+      "eval_samples_per_second": 49.046,
+      "eval_steps_per_second": 6.15,
+      "step": 12600
+    },
+    {
+      "epoch": 2.571313780634793,
+      "grad_norm": 5.59375,
+      "learning_rate": 2.589166707703972e-05,
+      "loss": 0.1441,
+      "step": 12800
+    },
+    {
+      "epoch": 2.571313780634793,
+      "eval_loss": 0.29769018292427063,
+      "eval_runtime": 39.946,
+      "eval_samples_per_second": 49.116,
+      "eval_steps_per_second": 6.158,
+      "step": 12800
+    },
+    {
+      "epoch": 2.611490558457212,
+      "grad_norm": 3.765625,
+      "learning_rate": 2.522752815168098e-05,
+      "loss": 0.1439,
+      "step": 13000
+    },
+    {
+      "epoch": 2.611490558457212,
+      "eval_loss": 0.29854264855384827,
+      "eval_runtime": 39.8913,
+      "eval_samples_per_second": 49.184,
+      "eval_steps_per_second": 6.167,
+      "step": 13000
+    },
+    {
+      "epoch": 2.6516673362796306,
+      "grad_norm": 3.875,
+      "learning_rate": 2.4563228572640353e-05,
+      "loss": 0.1564,
+      "step": 13200
+    },
+    {
+      "epoch": 2.6516673362796306,
+      "eval_loss": 0.29687148332595825,
+      "eval_runtime": 39.6942,
+      "eval_samples_per_second": 49.428,
+      "eval_steps_per_second": 6.197,
+      "step": 13200
+    },
+    {
+      "epoch": 2.6918441141020493,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.3899237390329673e-05,
+      "loss": 0.1495,
+      "step": 13400
+    },
+    {
+      "epoch": 2.6918441141020493,
+      "eval_loss": 0.29626649618148804,
+      "eval_runtime": 39.4226,
+      "eval_samples_per_second": 49.768,
+      "eval_steps_per_second": 6.24,
+      "step": 13400
+    },
+    {
+      "epoch": 2.7320208919244675,
+      "grad_norm": 5.53125,
+      "learning_rate": 2.323602343740718e-05,
+      "loss": 0.1565,
+      "step": 13600
+    },
+    {
+      "epoch": 2.7320208919244675,
+      "eval_loss": 0.3002982437610626,
+      "eval_runtime": 39.7242,
+      "eval_samples_per_second": 49.391,
+      "eval_steps_per_second": 6.193,
+      "step": 13600
+    },
+    {
+      "epoch": 2.772197669746886,
+      "grad_norm": 4.09375,
+      "learning_rate": 2.2574054997742913e-05,
+      "loss": 0.1438,
+      "step": 13800
+    },
+    {
+      "epoch": 2.772197669746886,
+      "eval_loss": 0.29700466990470886,
+      "eval_runtime": 39.8693,
+      "eval_samples_per_second": 49.211,
+      "eval_steps_per_second": 6.17,
+      "step": 13800
+    },
+    {
+      "epoch": 2.812374447569305,
+      "grad_norm": 7.28125,
+      "learning_rate": 2.191379947577163e-05,
+      "loss": 0.1487,
+      "step": 14000
+    },
+    {
+      "epoch": 2.812374447569305,
+      "eval_loss": 0.29598772525787354,
+      "eval_runtime": 39.4433,
+      "eval_samples_per_second": 49.742,
+      "eval_steps_per_second": 6.237,
+      "step": 14000
+    },
+    {
+      "epoch": 2.8525512253917236,
+      "grad_norm": 5.40625,
+      "learning_rate": 2.1255723066466597e-05,
+      "loss": 0.1449,
+      "step": 14200
+    },
+    {
+      "epoch": 2.8525512253917236,
+      "eval_loss": 0.29710152745246887,
+      "eval_runtime": 39.8912,
+      "eval_samples_per_second": 49.184,
+      "eval_steps_per_second": 6.167,
+      "step": 14200
+    },
+    {
+      "epoch": 2.8927280032141423,
+      "grad_norm": 3.453125,
+      "learning_rate": 2.0600290426167408e-05,
+      "loss": 0.1462,
+      "step": 14400
+    },
+    {
+      "epoch": 2.8927280032141423,
+      "eval_loss": 0.2962632179260254,
+      "eval_runtime": 39.6885,
+      "eval_samples_per_second": 49.435,
+      "eval_steps_per_second": 6.198,
+      "step": 14400
+    },
+    {
+      "epoch": 2.932904781036561,
+      "grad_norm": 3.3125,
+      "learning_rate": 1.9947964344494233e-05,
+      "loss": 0.1373,
+      "step": 14600
+    },
+    {
+      "epoch": 2.932904781036561,
+      "eval_loss": 0.2984876036643982,
+      "eval_runtime": 39.5307,
+      "eval_samples_per_second": 49.632,
+      "eval_steps_per_second": 6.223,
+      "step": 14600
+    },
+    {
+      "epoch": 2.9730815588589796,
+      "grad_norm": 4.53125,
+      "learning_rate": 1.9299205417580064e-05,
+      "loss": 0.1506,
+      "step": 14800
+    },
+    {
+      "epoch": 2.9730815588589796,
+      "eval_loss": 0.2969134449958801,
+      "eval_runtime": 39.7386,
+      "eval_samples_per_second": 49.373,
+      "eval_steps_per_second": 6.19,
+      "step": 14800
+    }
+  ],
+  "logging_steps": 200,
+  "max_steps": 24890,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 200,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.1496266530001946e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff