Add initial model and configuration files

Files changed (17) hide show

added_tokens.json +28 -0
audio_preprocess.py +99 -0
config.json +117 -0
configuration.py +135 -0
generation_config.json +7 -0
merges.txt +0 -0
message.py +29 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +897 -0
modeling_mufun.py +601 -0
special_tokens_map.json +32 -0
text_preprocess.py +243 -0
tokenizer_config.json +241 -0
vocab.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

audio_preprocess.py ADDED Viewed

	@@ -0,0 +1,99 @@

+import os
+import torch
+import warnings
+warnings.filterwarnings('ignore')
+import requests
+from io import BytesIO
+from transformers.pipelines.audio_utils import ffmpeg_read
+import mutagen
+from torchaudio import functional as taF
+import numpy as np
+feature_extractor_sampling_rate = 16000
+clip_length = 30*feature_extractor_sampling_rate
+clip_drop = feature_extractor_sampling_rate//2
+AUDIO_EXTENSIONS = ('.wav', '.mp3', '.flac', '.opus', '.ogg')
+def load_audio_single(audio_file, seg=None):
+    assert isinstance(audio_file, str), "audio_file should be a string"
+    if audio_file.endswith(AUDIO_EXTENSIONS):
+        inputs=audio_file
+        in_sampling_rate=mutagen.File(inputs).info.sample_rate
+        if inputs.startswith("http://") or inputs.startswith("https://"):
+            # We need to actually check for a real protocol, otherwise it's impossible to use a local file
+            inputs = requests.get(inputs).content
+        else:
+            with open(inputs, "rb") as f:
+                inputs = f.read()
+        if isinstance(inputs, bytes):
+            inputs = ffmpeg_read(inputs, in_sampling_rate)
+        if seg is not None:
+            inputs = inputs[int(seg[0] * in_sampling_rate):int(seg[1] * in_sampling_rate)]
+        if in_sampling_rate != feature_extractor_sampling_rate:
+            inputs = taF.resample(
+                torch.from_numpy(inputs.copy()), in_sampling_rate, feature_extractor_sampling_rate
+            ).numpy()
+        if len(inputs) <= clip_length:
+            return [inputs]
+        else:
+            audios = []
+            for i in range(0, len(inputs), clip_length):
+                chunk = inputs[i : i + clip_length]
+                chunk_index = len(chunk)
+                if chunk_index > clip_drop:
+                    audios.append(chunk)
+            return audios
+    if audio_file.endswith('.npy'):
+        return [np.load(audio_file)]
+def load_audios(audio_preprocess, audio_files, segs=None, audio_folder=None):
+    if audio_files is None:
+        return None, None
+    if isinstance(audio_files, str):
+        audio_files = [audio_files]
+    if segs:
+        if segs and isinstance(segs[0], float):
+            segs = [segs]
+    else:
+        segs = [None for _ in range(len(audio_files))]
+    if audio_folder:
+        audio_files = [os.path.join(audio_folder, afile) for afile in audio_files]
+    def get_single_audio(audio_file, seg):
+        try:
+            if seg:
+                audio = load_audio_single(audio_file, seg)
+            else:
+                audio = load_audio_single(audio_file)
+            audio = [audio_preprocess(aud) for aud in audio]
+        except Exception as e:
+            print(f"Error loading {audio_file} seg {seg}: {e}")
+            audio = None
+        return audio
+    audio_size= []
+    audio_list = []
+    for ii in range(len(audio_files)):
+        audio_file = audio_files[ii]
+        seg = segs[ii]
+        single_audio_list = get_single_audio(audio_file,seg)
+        audio_size.append(len(single_audio_list))
+        audio_list.extend(single_audio_list)
+    return audio_list, audio_size
+class AudioPreprocess:
+    def __init__(self, image_processor, data_args={}):
+        self.image_aspect_ratio = getattr(data_args, 'image_aspect_ratio', None)
+        self.image_processor = image_processor
+        # self.image_grid_pinpoints = getattr(data_args, 'image_grid_pinpoints', None)
+    def __call__(self, image):
+        assert self.image_aspect_ratio == "audio", "image_aspect_ratio should be 'audio' for audio preprocessing"
+        return self.image_processor(image, sampling_rate=feature_extractor_sampling_rate, return_tensors="pt").input_features

config.json ADDED Viewed

	@@ -0,0 +1,117 @@

+{
+  "architectures": [
+    "TinyLlavaForConditionalGeneration"
+  ],
+  "cache_dir": null,
+  "connector_type": "blp_4i_2x",
+  "hidden_size": 4096,
+  "ignore_index": -100,
+  "image_aspect_ratio": "audio",
+  "image_token_index": -200,
+  "llm_model_name_or_path": "Qwen/Qwen3-8B-Base",
+  "model_type": "tinyllava",
+  "auto_map": {
+      "AutoConfig": "configuration.TinyLlavaConfig",
+      "AutoModelForCausalLM": "modeling_mufun.TinyLlavaForConditionalGeneration"
+    },
+  "num_queries": 128,
+  "num_resampler_layers": 3,
+  "pad_token": "<|endoftext|>",
+  "resampler_hidden_size": 768,
+  "text_config": {
+    "_attn_implementation_autoset": true,
+    "_name_or_path": "Qwen/Qwen3-8B-Base",
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": 151643,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 32768,
+    "max_window_layers": 36,
+    "model_type": "qwen3",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "sliding_window": null,
+    "torch_dtype": "bfloat16",
+    "use_cache": false,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+  },
+  "tokenizer_model_max_length": 32768,
+  "tokenizer_name_or_path": "Qwen/Qwen3-8B-Base",
+  "tokenizer_padding_side": "right",
+  "tokenizer_use_fast": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.51.3",
+  "tune_type_connector": "full",
+  "tune_type_llm": "full",
+  "tune_type_vision_tower": "full",
+  "tune_vision_tower_from_layer": 0,
+  "use_cache": false,
+  "vision_config": {
+    "_name_or_path": "openai/whisper-large-v3",
+    "activation_dropout": 0.0,
+    "activation_function": "gelu",
+    "apply_spec_augment": false,
+    "architectures": [
+      "WhisperForConditionalGeneration"
+    ],
+    "attention_dropout": 0.0,
+    "begin_suppress_tokens": [
+      220,
+      50257
+    ],
+    "bos_token_id": 50257,
+    "classifier_proj_size": 256,
+    "d_model": 1280,
+    "decoder_attention_heads": 20,
+    "decoder_ffn_dim": 5120,
+    "decoder_layerdrop": 0.0,
+    "decoder_layers": 32,
+    "decoder_start_token_id": 50258,
+    "dropout": 0.0,
+    "encoder_attention_heads": 20,
+    "encoder_ffn_dim": 5120,
+    "encoder_layerdrop": 0.0,
+    "encoder_layers": 32,
+    "eos_token_id": 50257,
+    "init_std": 0.02,
+    "mask_feature_length": 10,
+    "mask_feature_min_masks": 0,
+    "mask_feature_prob": 0.0,
+    "mask_time_length": 10,
+    "mask_time_min_masks": 2,
+    "mask_time_prob": 0.05,
+    "max_length": 448,
+    "max_source_positions": 1500,
+    "max_target_positions": 448,
+    "median_filter_width": 7,
+    "model_name_or_path": "openai/whisper-large-v3",
+    "model_name_or_path2": "",
+    "model_type": "whisper",
+    "num_hidden_layers": 32,
+    "num_mel_bins": 128,
+    "scale_embedding": false,
+    "torch_dtype": "float16",
+    "use_cache": true,
+    "use_weighted_layer_sum": false,
+    "vocab_size": 51866
+  },
+  "vision_feature_layer": -2,
+  "vision_feature_select_strategy": "patch",
+  "vision_hidden_size": 1280,
+  "vision_model_name_or_path": "openai/whisper-large-v3",
+  "vision_model_name_or_path2": "",
+  "vocab_size": 151936
+}

configuration.py ADDED Viewed

	@@ -0,0 +1,135 @@

+from transformers import PretrainedConfig, LlavaConfig
+from transformers import CONFIG_MAPPING
+from transformers import AutoConfig
+# from .utils.constants import IGNORE_INDEX, IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
+IGNORE_INDEX = -100
+IMAGE_TOKEN_INDEX = -200
+DEFAULT_IMAGE_TOKEN = "<audio>"
+class TinyLlavaConfig(PretrainedConfig):
+    model_type = "tinyllava"
+    def __init__(
+        self,
+        llm_model_name_or_path = '',
+        tokenizer_name_or_path = None,
+        vision_model_name_or_path = '',
+        vision_model_name_or_path2 = '',
+        connector_type = None,
+        text_config=None,
+        hidden_size=2048,
+        vocab_size=32000,
+        ignore_index=-100,
+        image_token_index=32000,
+        pad_token = None,
+        pad_token_id = None,
+        tokenizer_padding_side = 'right',
+        tokenizer_model_max_length = 2048,
+        vision_config = None,
+        vision_hidden_size = None,
+        vision_feature_layer = -2,
+        vision_feature_select_strategy = 'patch',
+        image_aspect_ratio = 'square',
+        resampler_hidden_size = None,
+        num_queries = None,
+        num_resampler_layers = None,
+        use_cache = False,
+        cache_dir = None,
+        tokenizer_use_fast = False,
+        tune_type_llm = 'frozen',
+        tune_type_connector = 'frozen',
+        tune_type_vision_tower = 'frozen',
+        tune_vision_tower_from_layer = -1,
+        **kwargs
+    ):
+        self.llm_model_name_or_path = llm_model_name_or_path
+        self.tokenizer_name_or_path = tokenizer_name_or_path or self.llm_model_name_or_path
+        self.vision_model_name_or_path = vision_model_name_or_path
+        self.vision_model_name_or_path2 = vision_model_name_or_path2
+        self.connector_type = connector_type
+        self.tune_type_llm = tune_type_llm
+        self.tune_type_connector = tune_type_connector
+        self.tune_type_vision_tower = tune_type_vision_tower
+        self.tune_vision_tower_from_layer = tune_vision_tower_from_layer
+        self.ignore_index = IGNORE_INDEX
+        self.image_token_index = IMAGE_TOKEN_INDEX
+        self.pad_token = pad_token
+        self.pad_token_id = pad_token_id
+        self.tokenizer_padding_side = tokenizer_padding_side
+        self.tokenizer_model_max_length = tokenizer_model_max_length
+        self.vision_feature_layer = vision_feature_layer
+        self.vision_feature_select_strategy = vision_feature_select_strategy
+        self.image_aspect_ratio = image_aspect_ratio
+        self.resampler_hidden_size = resampler_hidden_size
+        self.num_queries = num_queries
+        self.num_resampler_layers = num_resampler_layers
+        self.use_cache = use_cache
+        self.cache_dir = cache_dir
+        self.tokenizer_use_fast = tokenizer_use_fast
+        self._load_text_config(text_config)
+        self._load_vision_config(vision_config)
+        super().__init__(**kwargs)
+    def load_from_config(self, config):
+        self.llm_model_name_or_path = getattr(config, 'model_name_or_path',  '')
+        self.tokenizer_name_or_path = getattr(config, 'tokenizer_name_or_path', None) or self.llm_model_name_or_path
+        self.vision_model_name_or_path = getattr(config, 'vision_tower',  '')
+        self.vision_model_name_or_path2 = getattr(config, 'vision_tower2',  '')
+        self.connector_type = getattr(config, 'connector_type',  None)
+        self.vision_feature_layer = getattr(config, 'mm_vision_select_layer',  -2)
+        self.vision_feature_select_strategy = getattr(config, 'mm_vision_select_feature',  "patch")
+        self.image_aspect_ratio = getattr(config, 'image_aspect_ratio',  "pad")
+        self.resampler_hidden_size = getattr(config, 'resampler_hidden_size',  None)
+        self.num_queries = getattr(config, 'num_queries',  None)
+        self.num_resampler_layers = getattr(config, 'num_resampler_layers',  None)
+        self.cache_dir = getattr(config, 'cache_dir', None)
+        self.tokenizer_use_fast = getattr(config, 'tokenizer_use_fast', False)
+        self.tokenizer_model_max_length = getattr(config, 'model_max_length', 2048)
+        self.tokenizer_padding_side = getattr(config, 'tokenizer_padding_side', 'right')
+        self._load_text_config()
+        self._load_vision_config()
+    def _load_text_config(self, text_config=None):
+        if self.llm_model_name_or_path is None or self.llm_model_name_or_path == '':
+            self.text_config = CONFIG_MAPPING['llama']()
+        else:
+            self.text_config = AutoConfig.from_pretrained(self.llm_model_name_or_path, trust_remote_code=True)
+            if text_config is not None:
+                self.text_config = self.text_config.from_dict(text_config)
+        self.hidden_size = getattr(self.text_config, 'hidden_size',  getattr(self.text_config, 'model_dim', None))
+        self.vocab_size = getattr(self.text_config, 'vocab_size',  None)
+    def _load_vision_config(self, vision_config=None):
+        if self.vision_model_name_or_path is None or self.vision_model_name_or_path == '':
+            self.vision_config = CONFIG_MAPPING['clip_vision_model'](
+                intermediate_size=4096,
+                hidden_size=1024,
+                patch_size=14,
+                image_size=336,
+                num_hidden_layers=24,
+                num_attention_heads=16,
+                vocab_size=32000,
+                projection_dim=768,
+            )
+        else:
+            self.vision_config = AutoConfig.from_pretrained(self.vision_model_name_or_path.split(':')[-1])
+            self.vision_config = getattr(self.vision_config, 'vision_config', self.vision_config)
+            if vision_config is not None:
+                self.vision_config = self.vision_config.from_dict(vision_config)
+        self.vision_config.model_name_or_path = self.vision_model_name_or_path.split(':')[-1]
+        self.vision_config.model_name_or_path2 = self.vision_model_name_or_path2.split(':')[-1]
+        self.vision_hidden_size = getattr(self.vision_config, 'hidden_size',  None)

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "transformers_version": "4.51.3",
+  "use_cache": false
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

message.py ADDED Viewed

	@@ -0,0 +1,29 @@

+class Message:
+    def __init__(self, msg=None):
+        self._messages = msg if msg else []
+        self._images = []
+        self.skip_next = False
+    def add_message(self, question, answer=None):
+        quension_msg_dict = {'from': 'human'}
+        quension_msg_dict['value'] = question
+        answer_msg_dict = {'from': 'gpt'}
+        answer_msg_dict['value'] = answer
+        self._messages.append(quension_msg_dict)
+        self._messages.append(answer_msg_dict)
+    def add_image(self, image, index=0):
+        self._images.append((image, index))
+    @property
+    def images(self):
+        return self._images
+    @property
+    def messages(self):
+        return self._messages
+    def copy(self):
+        return Message(self._messages)

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2ab701869bc10e99d8092d92b5ed00b430f50eb880f75f02f2e8819e7d5fde6
+size 4902259304

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:847d26dfc9307152ef2abf3af86d182b4708bf36632b9637c003edd88c122ec1
+size 4915962496

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae48064c3e2d20ec52a3717bf1cbfd196dcd7f2a12e082d7c14460f83f9a9224
+size 4983070600

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:312aba608080c39eec448d2ef20337349424a59236f16c2cd39cd34a58eb16b9
+size 3043005336

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,897 @@

+{
+  "metadata": {
+    "total_size": 17844180992
+  },
+  "weight_map": {
+    "connector._connector.linear1.bias": "model-00004-of-00004.safetensors",
+    "connector._connector.linear1.weight": "model-00004-of-00004.safetensors",
+    "connector._connector.linear2.bias": "model-00004-of-00004.safetensors",
+    "connector._connector.linear2.weight": "model-00004-of-00004.safetensors",
+    "language_model.lm_head.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_norm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.30.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.30.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.31.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.32.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.33.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.k_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.q_norm.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.34.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.35.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.k_norm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.q_norm.weight": "model-00004-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.35.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_norm.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "language_model.model.norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.conv1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.conv1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.conv2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.conv2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.embed_positions.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.0.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.1.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.10.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.11.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.12.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.13.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.14.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.15.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.16.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.17.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.18.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.19.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.2.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.20.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.21.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.22.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.23.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.24.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.25.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.26.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.27.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.28.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.29.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.3.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.30.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.31.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.4.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.5.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.6.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.7.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.8.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.fc1.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.fc1.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.fc2.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.fc2.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.final_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.final_layer_norm.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.out_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.out_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.q_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.v_proj.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn_layer_norm.bias": "model-00004-of-00004.safetensors",
+    "vision_tower._vision_tower.layers.9.self_attn_layer_norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

modeling_mufun.py ADDED Viewed

	@@ -0,0 +1,601 @@

+from typing import List, Optional, Tuple, Union
+import re
+import os
+import torch
+from torch import nn
+from transformers import PreTrainedModel
+from transformers.generation.utils import GenerationMixin
+from transformers.modeling_outputs import CausalLMOutputWithPast
+from transformers.generation.utils import GenerateOutput
+from transformers import AutoConfig, AutoModelForCausalLM, Qwen3ForCausalLM, WhisperForConditionalGeneration, StoppingCriteria, AutoProcessor
+from .audio_preprocess import AudioPreprocess, load_audios
+from .text_preprocess import TextPreprocess
+from .message import Message
+from .configuration import TinyLlavaConfig, IGNORE_INDEX, IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
+CONTROLLER_HEART_BEAT_EXPIRATION = 30
+WORKER_HEART_BEAT_INTERVAL = 15
+LOGDIR = "."
+class KeywordsStoppingCriteria(StoppingCriteria):
+    def __init__(self, keywords, tokenizer, input_ids):
+        self.keywords = keywords
+        self.keyword_ids = []
+        self.max_keyword_len = 0
+        for keyword in keywords:
+            cur_keyword_ids = tokenizer(keyword).input_ids
+            if len(cur_keyword_ids) > 1 and cur_keyword_ids[0] == tokenizer.bos_token_id:
+                cur_keyword_ids = cur_keyword_ids[1:]
+            if len(cur_keyword_ids) > self.max_keyword_len:
+                self.max_keyword_len = len(cur_keyword_ids)
+            self.keyword_ids.append(torch.tensor(cur_keyword_ids))
+        self.tokenizer = tokenizer
+        self.start_len = input_ids.shape[1]
+    def call_for_batch(self, output_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
+        offset = min(output_ids.shape[1] - self.start_len, self.max_keyword_len)
+        self.keyword_ids = [keyword_id.to(output_ids.device) for keyword_id in self.keyword_ids]
+        for keyword_id in self.keyword_ids:
+            if (output_ids[0, -keyword_id.shape[0]:] == keyword_id).all():
+                return True
+        outputs = self.tokenizer.batch_decode(output_ids[:, -offset:], skip_special_tokens=True)[0]
+        for keyword in self.keywords:
+            if keyword in outputs:
+                return True
+        return False
+    def __call__(self, output_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
+        outputs = []
+        for i in range(output_ids.shape[0]):
+            outputs.append(self.call_for_batch(output_ids[i].unsqueeze(0), scores))
+        return all(outputs)
+ACT_TYPE = {
+    'relu': nn.ReLU,
+    'gelu': nn.GELU
+}
+class CNet(nn.Module):
+    def __init__(self, config):
+        super().__init__()
+        def extract_numbers(s):
+            match = re.findall(r'(\d+)[ix]', s)
+            if len(match) == 2:
+                return tuple(map(int, match))
+            return None
+        ix, hx = extract_numbers(config.connector_type)
+        act_type = 'gelu'
+        self.act=ACT_TYPE[act_type]()
+        vdim = config.vision_hidden_size*ix
+        ldim = config.hidden_size
+        self.linear1 = nn.Linear(vdim, hx*vdim)
+        self.linear2 = nn.Linear(hx*vdim, ldim)
+    def forward(self, x):
+        x = self.act(self.linear1(x))
+        return self.linear2(x)
+class Connector(nn.Module):
+    def __init__(self, config=None):
+        super().__init__()
+        self._connector = None
+    def load_model(self, **kwargs):
+        pretrained_connector_path = kwargs.get('pretrained_connector_path', None)
+        if pretrained_connector_path is not None:
+            pretrained_connector_path = os.path.join(pretrained_connector_path, 'pytorch_model.bin')
+            connector_weights = torch.load(pretrained_connector_path, map_location='cpu')
+            def get_w(weights, keyword):
+                return {k.split(keyword + '.')[1]: v for k, v in weights.items() if keyword in k}
+            self._connector.load_state_dict(get_w(connector_weights, '_connector'))
+            print(f'Loading connector from {pretrained_connector_path}...')
+        for p in self._connector.parameters():
+            p.requires_grad = False
+    def forward(self, x):
+        return self._connector(x)
+class MLPConnector(Connector):
+    def __init__(self, config):
+        super().__init__()
+        self._connector = CNet(config)
+def get_value_from_kwargs(kwargs, name):
+    if name in kwargs:
+        return kwargs.pop(name)
+    else:
+        return None
+class AudioTower(nn.Module):
+    def __init__(self, cfg):
+        super().__init__()
+        self._vision_tower = None
+        self._image_processor = None
+        self.config = cfg
+    def load_model(self, vision_tower_name, **kwargs):
+        self._load_model(vision_tower_name, **kwargs)
+        self._vision_tower.requires_grad_(False)
+    def _load_model(self, vision_tower_name, **kwargs):
+        pretrained_vision_tower_path = get_value_from_kwargs(kwargs, 'pretrained_vision_tower_path')
+        if isinstance(self._vision_tower, PreTrainedModel): # hf model
+            if pretrained_vision_tower_path is not None:
+                vision_tower_name = pretrained_vision_tower_path
+            self._vision_tower = self._vision_tower.from_pretrained(vision_tower_name, **kwargs)
+        else: # nn.Module
+            if pretrained_vision_tower_path is not None:
+                vision_tower_weights = torch.load(os.path.join(pretrained_vision_tower_path, 'pytorch_model.bin'), map_location='cpu')
+                def get_w(weights, keyword):
+                    return {k.split(keyword + '.')[1]: v for k, v in weights.items() if keyword in k}
+                self._vision_tower.load_state_dict(vision_tower_weights)
+        print("Loading vision tower from ", vision_tower_name)
+    def forward(self, x, **kwargs):
+        image_features = self._vision_tower(x, output_hidden_states=True)
+        image_features = image_features.hidden_states[kwargs.get('vision_feature_layer', -2)]
+        if kwargs.get('vision_feature_select_strategy', 'patch') == 'patch':
+            image_features = image_features[:, 1:]
+        elif kwargs.get('vision_feature_select_strategy', 'patch') == 'cls_patch':
+            image_features = image_features
+        else:
+            raise ValueError(f"Unexpected select feature: {kwargs.get('vision_feature_select_strategy')}")
+        return image_features
+    @property
+    def vision_tower(self):
+        return self._vision_tower
+    @vision_tower.setter
+    def vision_tower(self, vision_tower):
+        self._vision_tower = vision_tower
+class WpmAudioTower(AudioTower):
+    def __init__(self, cfg):
+        super().__init__(cfg)
+        self._vision_tower = WhisperForConditionalGeneration.from_pretrained("openai/whisper-large-v3").get_encoder()
+        self._image_processor = AutoProcessor.from_pretrained("openai/whisper-large-v3")
+        self.pool_stride = 5
+        self.avg_pooler = nn.AvgPool1d(self.pool_stride, stride=self.pool_stride)
+        self.features_layers = [0, 7, 15, 32]
+    def _load_model(self, vision_tower_name, **kwargs):
+        pretrained_vision_tower_path = kwargs.pop('pretrained_vision_tower_path', None)
+        if pretrained_vision_tower_path is None:
+            print("Loading vision tower1 from ", vision_tower_name)
+        else: # nn.Module
+            if pretrained_vision_tower_path is not None:
+                vision_tower_weights = torch.load(os.path.join(pretrained_vision_tower_path, 'pytorch_model.bin'), map_location='cpu')
+                def get_w(weights, keyword):
+                    return {k.split(keyword + '.')[1]: v for k, v in weights.items() if keyword in k}
+                self._vision_tower.load_state_dict(vision_tower_weights)
+            print("Loading vision tower from ", pretrained_vision_tower_path)
+    def forward(self, x, **kwargs):
+        if len(x.shape)==4:
+            x=torch.squeeze(x, 1)
+        image_features = self._vision_tower(x, output_hidden_states=True).hidden_states
+        hidden_states = torch.cat([image_features[il] for il in self.features_layers], dim=-1)
+        hidden_states = hidden_states.permute(0, 2, 1)
+        hidden_states = self.avg_pooler(hidden_states)
+        hidden_states = hidden_states.permute(0, 2, 1)
+        return hidden_states
+class TinyLlavaPreTrainedModel(PreTrainedModel):
+    config_class = TinyLlavaConfig
+    base_model_prefix = "model"
+    supports_gradient_checkpointing = True
+    _no_split_modules = ["LlavaVisionAttention"]
+    _skip_keys_device_placement = "past_key_values"
+    _supports_flash_attn_2 = True
+    def _init_weights(self, module):
+        std = (
+            self.config.initializer_range
+            if hasattr(self.config, "initializer_range")
+            else self.config.text_config.initializer_range
+        )
+        if hasattr(module, "class_embedding"):
+            module.class_embedding.data.normal_(mean=0.0, std=std)
+        if isinstance(module, (nn.Linear, nn.Conv2d)):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.bias is not None:
+                module.bias.data.zero_()
+        elif isinstance(module, nn.Embedding):
+            module.weight.data.normal_(mean=0.0, std=std)
+            if module.padding_idx is not None:
+                module.weight.data[module.padding_idx].zero_()
+    @property
+    def _supports_sdpa(self):
+        return self.language_model._supports_sdpa
+class TinyLlavaForConditionalGeneration(TinyLlavaPreTrainedModel, GenerationMixin):
+    def __init__(self, config: TinyLlavaConfig):
+        super().__init__(config)
+        # apply_liger_kernel_to_qwen3()
+        self.language_model = Qwen3ForCausalLM(config.text_config)
+        self.vision_tower = WpmAudioTower(config.vision_config)
+        self.connector = MLPConnector(config)
+        self.post_init()
+    def get_input_embeddings(self):
+        return self.language_model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.language_model.set_input_embeddings(value)
+    def get_output_embeddings(self):
+        return self.language_model.get_output_embeddings()
+    def set_output_embeddings(self, new_embeddings):
+        self.language_model.set_output_embeddings(new_embeddings)
+    def set_decoder(self, decoder):
+        self.language_model.set_decoder(decoder)
+    def get_decoder(self):
+        return self.language_model.get_decoder()
+    def tie_weights(self):
+        return self.language_model.tie_weights()
+    def resize_token_embeddings(self, new_num_tokens: Optional[int] = None, pad_to_multiple_of=None) -> nn.Embedding:
+        model_embeds = self.language_model.resize_token_embeddings(new_num_tokens, pad_to_multiple_of)
+        # update vocab size
+        self.config.text_config.vocab_size = model_embeds.num_embeddings
+        self.config.vocab_size = model_embeds.num_embeddings
+        self.vocab_size = model_embeds.num_embeddings
+        return model_embeds
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        images: Optional[torch.FloatTensor] = None,
+        image_sizes: Optional[List[List[int]]] = None,
+        return_dict: Optional[bool] = None,
+        logits_to_keep = None
+    ) -> Union[Tuple, CausalLMOutputWithPast]:
+        use_cache = use_cache if use_cache is not None else self.config.use_cache
+        if inputs_embeds is None:
+            (
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                inputs_embeds,
+                labels
+            ) = self.prepare_inputs_labels_for_multimodal(
+                input_ids,
+                position_ids,
+                attention_mask,
+                past_key_values,
+                labels,
+                images,
+                image_sizes
+            )
+        return self.language_model.forward(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            labels=labels,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict
+        )
+    @torch.no_grad()
+    def generate(
+        self,
+        inputs: Optional[torch.Tensor] = None,
+        images: Optional[torch.Tensor] = None,
+        image_sizes: Optional[torch.Tensor] = None,
+        **kwargs,
+    ) -> Union[GenerateOutput, torch.LongTensor]:
+        position_ids = kwargs.pop("position_ids", None)
+        attention_mask = kwargs.pop("attention_mask", None)
+        if "inputs_embeds" in kwargs:
+            raise NotImplementedError("`inputs_embeds` is not supported")
+        if isinstance(images, list) and (images != []):
+                images = torch.cat(images, dim=0)
+        if images is not None:
+            (
+                inputs,
+                position_ids,
+                attention_mask,
+                _,
+                inputs_embeds,
+                _
+            ) = self.prepare_inputs_labels_for_multimodal(
+                inputs,
+                position_ids,
+                attention_mask,
+                None,
+                None,
+                images,
+                image_sizes=image_sizes
+            )
+        else:
+            inputs_embeds = self.language_model.get_input_embeddings()(inputs)
+        return self.language_model.generate(
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            inputs_embeds=inputs_embeds,
+            **kwargs
+        )
+    def encode_images(self, images):
+        kwargs = {}
+        kwargs['vision_feature_layer'] = self.config.vision_feature_layer
+        kwargs['vision_feature_select_strategy'] = self.config.vision_feature_select_strategy
+        images = images.to(device=self.device, dtype=self.dtype)
+        if images.shape[-1] != 3000:
+            splits = torch.split(images, 3000, dim=-1)
+            image_features = torch.cat([self.connector(self.vision_tower(x, **kwargs)) for x in splits], dim=-1)
+        else:
+            image_features = self.vision_tower(images, **kwargs)
+            image_features = self.connector(image_features)
+        return image_features
+    def prepare_inputs_for_generation(self, input_ids, past_key_values=None,
+                                      inputs_embeds=None, **kwargs):
+        images = kwargs.pop("images", None)
+        image_sizes = kwargs.pop("image_sizes", None)
+        inputs = self.language_model.prepare_inputs_for_generation(
+            input_ids, past_key_values=past_key_values, inputs_embeds=inputs_embeds, **kwargs
+        )
+        if images is not None:
+            inputs['images'] = images
+        if image_sizes is not None:
+            inputs['image_sizes'] = image_sizes
+        return inputs
+    def prepare_inputs_labels_for_multimodal(
+        self, input_ids, position_ids, attention_mask, past_key_values, labels,
+        images, image_sizes=None
+    ):
+        vision_tower = self.vision_tower
+        if vision_tower is None or images is None or input_ids.shape[1] == 1:
+            return input_ids, position_ids, attention_mask, past_key_values, None, labels
+        image_features = self.encode_images(images)
+        # TODO: image start / end is not implemented here to support pretraining.
+        if getattr(self.config, 'tune_mm_mlp_adapter', False):
+            raise NotImplementedError
+        # Let's just add dummy tensors if they do not exist,
+        # it is a headache to deal with None all the time.
+        # But it is not ideal, and if you have a better idea,
+        # please open an issue / submit a PR, thanks.
+        _labels = labels
+        _position_ids = position_ids
+        _attention_mask = attention_mask
+        if attention_mask is None:
+            attention_mask = torch.ones_like(input_ids, dtype=torch.bool)
+        else:
+            attention_mask = attention_mask.bool()
+        if position_ids is None:
+            position_ids = torch.arange(0, input_ids.shape[1], dtype=torch.long, device=input_ids.device)
+        if labels is None:
+            labels = torch.full_like(input_ids, IGNORE_INDEX)
+        # remove the padding using attention_mask -- FIXME
+        _input_ids = input_ids
+        input_ids = [cur_input_ids[cur_attention_mask] for cur_input_ids, cur_attention_mask in zip(input_ids, attention_mask)]
+        labels = [cur_labels[cur_attention_mask] for cur_labels, cur_attention_mask in zip(labels, attention_mask)]
+        new_input_embeds = []
+        new_labels = []
+        cur_image_idx = 0
+        for batch_idx, cur_input_ids in enumerate(input_ids):
+            num_images = (cur_input_ids == IMAGE_TOKEN_INDEX).sum()
+            cur_image_size = image_sizes[batch_idx] if image_sizes is not None else None
+            if num_images == 0:
+                # cur_image_features = image_features[cur_image_idx]
+                cur_input_embeds_1 = self.language_model.get_input_embeddings()(cur_input_ids)
+                # cur_input_embeds = torch.cat([cur_input_embeds_1, cur_image_features[0:0]], dim=0)
+                new_input_embeds.append(cur_input_embeds_1)
+                new_labels.append(labels[batch_idx])
+                # cur_image_idx += 1
+                continue
+            image_token_indices = [-1] + torch.where(cur_input_ids == IMAGE_TOKEN_INDEX)[0].tolist() + [cur_input_ids.shape[0]]
+            cur_input_ids_noim = []
+            cur_labels = labels[batch_idx]
+            cur_labels_noim = []
+            for i in range(len(image_token_indices) - 1):
+                cur_input_ids_noim.append(cur_input_ids[image_token_indices[i]+1:image_token_indices[i+1]])
+                cur_labels_noim.append(cur_labels[image_token_indices[i]+1:image_token_indices[i+1]])
+            split_sizes = [x.shape[0] for x in cur_labels_noim]
+            cur_input_embeds = self.language_model.get_input_embeddings()(torch.cat(cur_input_ids_noim))
+            cur_input_embeds_no_im = torch.split(cur_input_embeds, split_sizes, dim=0)
+            cur_new_input_embeds = []
+            cur_new_labels = []
+            for i in range(num_images + 1):
+                cur_new_input_embeds.append(cur_input_embeds_no_im[i])
+                cur_new_labels.append(cur_labels_noim[i])
+                if i < num_images:
+                    img_size = cur_image_size[i]
+                    cur_image_features = image_features[cur_image_idx:cur_image_idx + img_size]
+                    cur_image_features = [img.squeeze(0) for img in cur_image_features]
+                    cur_image_features = torch.cat(cur_image_features, dim=0)
+                    cur_image_idx += img_size
+                    cur_new_input_embeds.append(cur_image_features)
+                    cur_new_labels.append(torch.full((cur_image_features.shape[0],), IGNORE_INDEX, device=cur_labels.device, dtype=cur_labels.dtype))
+            cur_new_input_embeds = [x.to(self.device) for x in cur_new_input_embeds]
+            cur_new_input_embeds = torch.cat(cur_new_input_embeds)
+            cur_new_labels = torch.cat(cur_new_labels)
+            new_input_embeds.append(cur_new_input_embeds)
+            new_labels.append(cur_new_labels)
+        # Truncate sequences to max length as image embeddings can make the sequence longer
+        tokenizer_model_max_length = getattr(self.config, 'tokenizer_model_max_length', None)
+        if tokenizer_model_max_length is not None:
+            new_input_embeds = [x[:tokenizer_model_max_length] for x in new_input_embeds]
+            new_labels = [x[:tokenizer_model_max_length] for x in new_labels]
+        # Combine them
+        max_len = max(x.shape[0] for x in new_input_embeds)
+        # print(f"max_len: {max_len}")
+        batch_size = len(new_input_embeds)
+        new_input_embeds_padded = []
+        new_labels_padded = torch.full((batch_size, max_len), IGNORE_INDEX, dtype=new_labels[0].dtype, device=new_labels[0].device)
+        attention_mask = torch.zeros((batch_size, max_len), dtype=attention_mask.dtype, device=attention_mask.device)
+        position_ids = torch.zeros((batch_size, max_len), dtype=position_ids.dtype, device=position_ids.device)
+        for i, (cur_new_embed, cur_new_labels) in enumerate(zip(new_input_embeds, new_labels)):
+            cur_len = cur_new_embed.shape[0]
+            if getattr(self.config, 'tokenizer_padding_side', 'right') == "left":
+                new_input_embeds_padded.append(torch.cat((
+                    torch.zeros((max_len - cur_len, cur_new_embed.shape[1]), dtype=cur_new_embed.dtype, device=cur_new_embed.device),
+                    cur_new_embed
+                ), dim=0))
+                if cur_len > 0:
+                    new_labels_padded[i, -cur_len:] = cur_new_labels
+                    attention_mask[i, -cur_len:] = True
+                    position_ids[i, -cur_len:] = torch.arange(0, cur_len, dtype=position_ids.dtype, device=position_ids.device)
+            else:
+                new_input_embeds_padded.append(torch.cat((
+                    cur_new_embed,
+                    torch.zeros((max_len - cur_len, cur_new_embed.shape[1]), dtype=cur_new_embed.dtype, device=cur_new_embed.device)
+                ), dim=0))
+                if cur_len > 0:
+                    new_labels_padded[i, :cur_len] = cur_new_labels
+                    attention_mask[i, :cur_len] = True
+                    position_ids[i, :cur_len] = torch.arange(0, cur_len, dtype=position_ids.dtype, device=position_ids.device)
+        new_input_embeds = torch.stack(new_input_embeds_padded, dim=0)
+        if _labels is None:
+            new_labels = None
+        else:
+            new_labels = new_labels_padded
+        if _attention_mask is None:
+            attention_mask = None
+        else:
+            attention_mask = attention_mask.to(dtype=_attention_mask.dtype)
+        if _position_ids is None:
+            position_ids = None
+        return None, position_ids, attention_mask, past_key_values, new_input_embeds, new_labels
+    def load_llm(self, **kwargs):
+        language_model_name = get_value_from_kwargs(kwargs, 'model_name_or_path')
+        pretrained_llm_path = get_value_from_kwargs(kwargs, 'pretrained_llm_path')
+        if pretrained_llm_path is not None:
+            language_model_name = pretrained_llm_path
+        if language_model_name is not None:
+            self.language_model = self.language_model.from_pretrained(
+                language_model_name, **kwargs
+            )
+        print('loading language model from ', language_model_name)
+        self.language_model.requires_grad_(False)
+        self.config.text_config.torch_dtype = kwargs.get('torch_dtype', None)
+        self.config.pad_token = getattr(self.tokenizer, 'pad_token', None)
+        self.config.pad_token_id = getattr(self.tokenizer, 'pad_token_id', None)
+        #self.config.tokenizer_padding_side = getattr(self.tokenizer, 'padding_side', None)
+        #self.config.tokenizer_model_max_length =  getattr(self.tokenizer, 'model_max_length', None)
+    def load_vision_tower(self, **kwargs):
+        vision_tower_name = get_value_from_kwargs(kwargs, 'model_name_or_path')
+        self.vision_tower.load_model(vision_tower_name, **kwargs)
+    def load_connector(self, **kwargs):
+        self.connector.load_model(**kwargs)
+    def chat(
+        self,
+        tokenizer,
+        prompt,
+        audio_files,
+        segs = None,
+        max_new_tokens = 512,
+        temperature= 0.5,
+        top_k = 50,
+        top_p = 1.0,
+    ):
+        text_processor =TextPreprocess(tokenizer, 'qwen2_instruct')
+        audio_processor = AudioPreprocess(self.vision_tower._image_processor, self.config)
+        msg = Message()
+        audio_tensor, audio_size = load_audios(audio_processor, audio_files, segs)
+        if (audio_tensor) and ('<audio>' not in prompt):
+            prompt = '<audio>\n' + prompt
+        msg.add_message(prompt)
+        result = text_processor(msg.messages, mode='eval')
+        input_ids = result['input_ids'].unsqueeze(0).to(self.device)
+        stop_str = text_processor.template.separator.apply()[1]
+        keywords = [stop_str]
+        stopping_criteria = KeywordsStoppingCriteria(keywords, tokenizer, input_ids)
+        with torch.inference_mode():
+            output_ids = self.generate(
+                input_ids,
+                images=audio_tensor,
+                do_sample=True if temperature > 0 else False,
+                temperature=temperature,
+                top_k=top_k,
+                top_p=top_p,
+                max_new_tokens=max_new_tokens,
+                use_cache=True,
+                pad_token_id = tokenizer.eos_token_id,
+                image_sizes=[audio_size] if audio_tensor is not None else None,
+                stopping_criteria=[stopping_criteria]
+            )
+        gen_text = tokenizer.decode(output_ids[0])
+        if gen_text.endswith(stop_str):
+            gen_text = gen_text[:-len(stop_str)]
+        return gen_text
+AutoConfig.register("tinyllava", TinyLlavaConfig)
+AutoModelForCausalLM.register(TinyLlavaConfig, TinyLlavaForConditionalGeneration)

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": "<|endoftext|>"
+}

text_preprocess.py ADDED Viewed

	@@ -0,0 +1,243 @@

+from dataclasses import dataclass, field
+from typing import TYPE_CHECKING, Dict, List, Optional, Sequence, Tuple, Union
+import copy
+from typing import Any
+# IGNORE_INDEX = -100
+# IMAGE_TOKEN_INDEX = -200
+# DEFAULT_IMAGE_TOKEN = "<audio>"
+from .configuration import IGNORE_INDEX, IMAGE_TOKEN_INDEX, DEFAULT_IMAGE_TOKEN
+from transformers import PreTrainedTokenizer
+import torch
+from abc import ABC, abstractmethod
+# from dataclasses import dataclass
+# from typing import  Dict, Union, List
+SLOT = Union[str, List[str], Dict[str, str]]
+@dataclass
+class Formatter(ABC):
+    slot: SLOT = ""
+    @abstractmethod
+    def apply(self, **kwargs) -> SLOT: ...
+@dataclass
+class EmptyFormatter(Formatter):
+    def apply(self, **kwargs) -> SLOT:
+        return self.slot
+@dataclass
+class StringFormatter(Formatter):
+    def apply(self, **kwargs) -> SLOT:
+        msg = ""
+        for name, value in kwargs.items():
+            if value is None:
+                msg = self.slot.split(':')[0] + ":"
+                return msg
+            if not isinstance(value, str):
+                raise RuntimeError("Expected a string, got {}".format(value))
+            msg = self.slot.replace("{{" + name + "}}", value, 1)
+        return msg
+@dataclass
+class Template:
+    format_image_token: "Formatter"
+    format_user: "Formatter"
+    format_assistant: "Formatter"
+    system: "Formatter"
+    separator: "Formatter"
+    def encode(self, messages, tokenizer, mode='train'):
+        """
+        1. get list form messages(conversations:[{from:human, value:message}, {from:gpt, value:message}])
+            ===>  human_list, value_list
+        2. prompt two list
+        3. tokenize prompt
+        4. make target
+        """
+        question_list, answer_list = self.get_list_from_message(messages)
+        if mode == 'rl':
+            gt = answer_list[-1]
+            answer_list[-1] = ''  # last answer is empty in RL mode
+        prompt = self.prompt(question_list, answer_list)
+        if mode == 'rl' and prompt.endswith(self.separator.apply()[1]):
+            prompt = prompt[:-len(self.separator.apply()[1])]
+        input_ids = self.tokenizer_image_token(prompt, tokenizer, return_tensors='pt')
+        if mode == 'train':
+            labels = self.make_labels(input_ids, prompt, tokenizer)
+            return dict(
+                input_ids=input_ids,
+                labels=labels
+            )
+        elif mode == 'rl':
+            return dict(
+                input_ids=input_ids,
+                prompt=prompt,
+                gt=gt
+            )
+        else:
+            return dict(input_ids=input_ids, prompt=prompt)
+    def get_list_from_message(self, messages):
+        return self._get_list_from_message(messages)
+    def _get_list_from_message(self, messages):
+        """
+        messages  ====>  [{from:human, value:message}, {from:gpt, value:message}]
+        """
+        question_list = []
+        answer_list = []
+        first_is_not_question = 0
+        for i, message in enumerate(messages):
+            if i == 0 and message['from'] != 'human':
+                first_is_not_question = 1
+                continue
+            if i % 2 == first_is_not_question:
+                question_list.append(message['value'])
+            else:
+                answer_list.append(message['value'])
+        assert len(question_list) == len(answer_list) , \
+            f"qa is not match : length_q:{len(question_list)} vs length_a:{len(answer_list)}"
+        return question_list, answer_list
+    def prompt(
+        self,
+        question_list, answer_list
+    ):
+        if type(question_list) is str:
+            question_list = [question_list]
+        if type(answer_list) is str:
+            answer_list = [answer_list]
+        msg = self._prompt(question_list, answer_list)
+        return msg
+    def _prompt(
+        self,
+        question_list, answer_list,
+    ):
+        msg = ""
+        for i, (question, answer) in enumerate(zip(question_list, answer_list)):
+            if i == 0:
+                msg += self.system.apply()
+            # if DEFAULT_IMAGE_TOKEN in question:
+            #     question = question.replace(DEFAULT_IMAGE_TOKEN, '').strip()
+            #     question = self.format_image_token.apply(content=question).strip()
+            msg += self.format_user.apply(content=question)
+            msg += self.format_assistant.apply(content=answer)
+        return msg
+    def make_labels(self, input_ids, prompt, tokenizer):
+        labels = copy.deepcopy(input_ids)
+        sep, eos_token = self.separator.apply()
+        total_len = int(labels.ne(tokenizer.pad_token_id).sum())
+        if tokenizer.pad_token_id == tokenizer.eos_token_id:
+            total_len += prompt.count(eos_token)
+        rounds = prompt.split(eos_token)
+        eos_token_length = len(tokenizer.encode(eos_token))
+        labels, cur_len = self._make_masks(labels, tokenizer, sep, eos_token_length, rounds)
+        if cur_len < tokenizer.model_max_length:
+            # import time
+            if (cur_len != total_len) and ( (cur_len+1) != total_len):
+                print(
+                    f"WARNING: tokenization mismatch: {cur_len} vs. {total_len}."
+                    f" (ignored)"
+                )
+                print("number of rounds: ", len(rounds) - 1)
+                print("rounds: ", rounds[:-1])
+                print("prompt: ", prompt)
+                print(labels)
+                print(input_ids)
+                # time.sleep(5)
+                # labels[:] = IGNORE_INDEX
+        return labels
+    def _make_masks(self, labels, tokenizer, sep, eos_token_length, rounds):
+        cur_len = 0
+        for rou in rounds:
+            if rou == "":
+                break
+            parts = rou.split(sep)
+            if len(parts) != 2:
+                break
+            parts[0] += sep
+            round_len = len(self.tokenizer_image_token(rou, tokenizer)) + eos_token_length
+            instruction_len = len(self.tokenizer_image_token(parts[0], tokenizer)) - 1
+            labels[cur_len : cur_len + instruction_len] = IGNORE_INDEX
+            cur_len += round_len
+        labels[cur_len:] = IGNORE_INDEX
+        return labels, cur_len
+    @classmethod
+    def tokenizer_image_token(cls, prompt, tokenizer, image_token_index=IMAGE_TOKEN_INDEX, return_tensors=None):
+        def _insert_separator(X, sep):
+            return [ele for sublist in zip(X, [sep]*len(X)) for ele in sublist][:-1]
+        prompt_chunks = [tokenizer(chunk).input_ids for chunk in prompt.split('<audio>')]
+        input_ids = []
+        offset = 0
+        if len(prompt_chunks) > 0 and len(prompt_chunks[0]) > 0 and prompt_chunks[0][0] == tokenizer.bos_token_id:
+            offset = 1
+            input_ids.append(prompt_chunks[0][0])
+        for x in _insert_separator(prompt_chunks, [image_token_index] * (offset + 1)):
+            input_ids.extend(x[offset:])
+        if return_tensors is not None:
+            if return_tensors == 'pt':
+                return torch.tensor(input_ids, dtype=torch.long)
+            raise ValueError(f'Unsupported tensor type: {return_tensors}')
+        return input_ids
+TEMPlATE_FACTORY: Dict[str, Template] = {}
+def TemplateFactory(version):
+    template = TEMPlATE_FACTORY.get(version, None)
+    assert template, f"{version} is not implmentation"
+    return template
+def register_template(name):
+    def register_template_cls(cls):
+        if name in TEMPlATE_FACTORY:
+            return TEMPlATE_FACTORY[name]
+        TEMPlATE_FACTORY[name] = cls
+        return cls
+    return register_template_cls
+system = "A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions."
+@register_template('qwen2_instruct')
+@dataclass
+class Qwen2InstructTemplate(Template):
+    format_image_token: "Formatter" = field(default_factory=lambda: StringFormatter(slot="<audio>\n{{content}}"))
+    format_user: "Formatter" = field(default_factory=lambda: StringFormatter(slot="USER" + ": " + "{{content}}" + " "))
+    format_assistant: "Formatter" = field(default_factory=lambda: StringFormatter(slot="ASSISTANT" + ": " + "{{content}}" + "<|im_end|>"))
+    system: "Formatter" = field(default_factory=lambda: EmptyFormatter(slot=system+" "))
+    separator: "Formatter" = field(default_factory=lambda: EmptyFormatter(slot=[' ASSISTANT: ', '<|im_end|>']))
+class TextPreprocess:
+    def __init__(self, tokenizer, version):
+        self.tokenizer = tokenizer
+        self.template = TemplateFactory(version)()
+    def __call__(self, messages, mode='eval'):
+        return self.template.encode(messages, self.tokenizer, mode)

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,241 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0].role == 'system' %}\n        {{- messages[0].content + '\\n\\n' }}\n    {%- endif %}\n    {{- \"# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0].role == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0].content + '<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}\n{%- for message in messages[::-1] %}\n    {%- set index = (messages|length - 1) - loop.index0 %}\n    {%- if ns.multi_step_tool and message.role == \"user\" and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}\n        {%- set ns.multi_step_tool = false %}\n        {%- set ns.last_query_index = index %}\n    {%- endif %}\n{%- endfor %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {%- set content = message.content %}\n        {%- set reasoning_content = '' %}\n        {%- if message.reasoning_content is defined and message.reasoning_content is not none %}\n            {%- set reasoning_content = message.reasoning_content %}\n        {%- else %}\n            {%- if '</think>' in message.content %}\n                {%- set content = message.content.split('</think>')[-1].lstrip('\\n') %}\n                {%- set reasoning_content = message.content.split('</think>')[0].rstrip('\\n').split('<think>')[-1].lstrip('\\n') %}\n            {%- endif %}\n        {%- endif %}\n        {%- if loop.index0 > ns.last_query_index %}\n            {%- if loop.last or (not loop.last and reasoning_content) %}\n                {{- '<|im_start|>' + message.role + '\\n<think>\\n' + reasoning_content.strip('\\n') + '\\n</think>\\n\\n' + content.lstrip('\\n') }}\n            {%- else %}\n                {{- '<|im_start|>' + message.role + '\\n' + content }}\n            {%- endif %}\n        {%- else %}\n            {{- '<|im_start|>' + message.role + '\\n' + content }}\n        {%- endif %}\n        {%- if message.tool_calls %}\n            {%- for tool_call in message.tool_calls %}\n                {%- if (loop.first and content) or (not loop.first) %}\n                    {{- '\\n' }}\n                {%- endif %}\n                {%- if tool_call.function %}\n                    {%- set tool_call = tool_call.function %}\n                {%- endif %}\n                {{- '<tool_call>\\n{\"name\": \"' }}\n                {{- tool_call.name }}\n                {{- '\", \"arguments\": ' }}\n                {%- if tool_call.arguments is string %}\n                    {{- tool_call.arguments }}\n                {%- else %}\n                    {{- tool_call.arguments | tojson }}\n                {%- endif %}\n                {{- '}\\n</tool_call>' }}\n            {%- endfor %}\n        {%- endif %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if loop.first or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n    {%- if enable_thinking is defined and enable_thinking is false %}\n        {{- '<think>\\n\\n</think>\\n\\n' }}\n    {%- endif %}\n{%- endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff