qianguo sun commited on Jul 10

Commit

102bb9f

0 Parent(s):

update

Files changed (28) hide show

.gitattributes +37 -0
README.md +243 -0
codec_config.json +209 -0
config.json +30 -0
g_00204000 +3 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00016.safetensors +3 -0
model-00002-of-00016.safetensors +3 -0
model-00003-of-00016.safetensors +3 -0
model-00004-of-00016.safetensors +3 -0
model-00005-of-00016.safetensors +3 -0
model-00006-of-00016.safetensors +3 -0
model-00007-of-00016.safetensors +3 -0
model-00008-of-00016.safetensors +3 -0
model-00009-of-00016.safetensors +3 -0
model-00010-of-00016.safetensors +3 -0
model-00011-of-00016.safetensors +3 -0
model-00012-of-00016.safetensors +3 -0
model-00013-of-00016.safetensors +3 -0
model-00014-of-00016.safetensors +3 -0
model-00015-of-00016.safetensors +3 -0
model-00016-of-00016.safetensors +3 -0
model.safetensors.index.json +346 -0
pytorch_model.bin.index.json +346 -0
tokenizer.json +3 -0
tokenizer_config.json +0 -0
vocab.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,37 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text
+g_00204000 filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,243 @@

+---
+{}
+---
+## UniTTS
+### Overview
+we introduce UniTTS and [DistilCodec](https://github.com/IDEA-Emdoor-Lab/DistilCodec) . DistilCodec is a single-codebook audio codec, which has 32768 codes, and the utilization of the codebook achieves nearly 100\%. UniTTS leverages DistilCodec for audio discretization, while its backbone network adopts Qwen2.5-7B to model relationships between audio tokens.
+Our main contributions are summarized as follows:
+  - DistilCodec: We propose a training methodology that enables the distillation of multi-codebook Neural Audio Codecs(NAC) into single-codebook NAC. Through this approach, we have developed DistilCodec - a single-codebook NAC containing 32,768 codes that achieves 100\% utilization with balanced code distribution. Notably, DistilCodec employs universal audio data for training rather than being restricted to speech-specific datasets.
+  - UniTTS: We present UniTTS, a novel TTS system trained on QWen2.5-7B and DistilCodec. Leveraging DistilCodec's comprehensive audio modeling capabilities, UniTTS achieves end-to-end speech synthesis with full-spectrum audio input/output. The system demonstrates enhanced naturalness in emotional expressiveness compared to conventional TTS systems, particularly in capturing subtle prosodic variations and affective nuances during audio generation.
+  - Novel Audio Language Model Paradigm: We establish a dual-phase Audio Language Model (ALM) training framework, which comprises (i) Audio Perceptual Modeling (DistilCodec) focusing purely on acoustic discretization, and (ii) Audio Cognitive Modeling (UniTTS) implemented via pretraining (incorporating universal audio autoregressive tasks), supervised fine-tuning (evaluating text-audio interleaved prompts' impact), and alignment (employing direct preference optimization for speech refinement) - enabled by UniTTS's complete end-to-end integration within the LLM.
+## Training data distribution and application scope
+The model architecture was augmented with cross-lingual text-speech paired datasets (English and Chinese) alongside text-associated instruction corpora during pretraining. Subsequent SFT and alignment phases systematically incorporated three datasets: text instructions dataset, long-CoT dataset, and Chinese TTS dataset. Consequently, the model demonstrates robust capabilities in text-based conversational, long-CoT conversational, and Chinese TTS.
+The distribution of the pretraining training data is as follows:
+| Data Type                  | Data Size (B) |
+|----------------------------|---------------|
+| Text Data                  | 140           |
+| Text-Audio Alignment Data  | 82            |
+| Audio Data                 | 100           |
+| **Total**                  | **322**       |
+The distribution of the sft training data is as follows:
+| Data Type                  | Number of Samples |
+|----------------------------|-------------------|
+| Text Data                  | 181K              |
+| Long-cot Dataset           | 55K               |
+| Chinese Text-Audio Alignment Data  | 401K              |
+| Total                      | 637K              |
+The distribution of the lpo training data is as follows:
+| Data Type                  | Number of Samples |
+|----------------------------|-------------------|
+| General SFT Data           | 100K              |
+| Long-cot Dataset           | 45K               |
+| Chinese Text-Audio Alignment Data  | 300K              |
+| Total                      | 445K              |
+The proposed model supports the following capabilities
+|     Application Type       | Support Status    |
+|----------------------------|-------------------|
+| Text conversation          | Supported           |
+| Long-cot conversation      | Supported           |
+| Chinese TTS                | Supported           |
+## Install
+**Clone and Install**
+- Clone the repo
+``` sh
+git clone [email protected]:IDEA-Emdoor-Lab/UniTTS.git
+git clone [email protected]:IDEA-Emdoor-Lab/DistilCodec.git
+cd UniTTS
+```
+- Installation environment
+``` sh
+conda create -n unitts -y python=3.10
+conda activate unitts
+pip install -r requirements.txt
+```
+**Model Download**
+Download via git clone:
+```sh
+mkdir -p pretrained_models
+# Make sure you have git-lfs installed (https://git-lfs.com)
+git lfs install
+# clone UniTTS model
+git clone [email protected]:IDEA-Emdoor/UniTTS-mixed-v0.1
+```
+## Inference Usage
+### TTS Inference Usage
+```
+#### Step 1:  Init model
+from cli.tokenizer import QWenTokenizer
+from cli.tts_tool import enocde_audio, tts_prompt_ref_text
+import soundfile as sf
+import librosa
+from vllm import LLM, SamplingParams
+import sys
+sys.path.append('../DistilCodec/') # set DistilCodec code path
+from distil_codec import DistilCodec # type: ignore
+#init model
+model_name="IDEA-Emdoor/UniTTS-mixed-v0.1"
+model_config="IDEA-Emdoor/UniTTS-mixed-v0.1/codec_config.json"
+ckpt_config="IDEA-Emdoor/UniTTS-mixed-v0.1"
+ref_audio_path='cli/ref.mp3'
+ref_text='求求你，再给我一次机会，我保证不会让你失望……'
+infer_text='天啊！这竟然是真的？我简直不敢相信！'
+llm = LLM(model=model_name, dtype='auto', gpu_memory_utilization=0.8, seed=0)
+codec = DistilCodec.from_pretrained(
+    config_path=model_config,
+    model_path=ckpt_config,
+    use_generator=True,
+    is_debug=False,
+    local_rank=0).eval()
+tokenizer: QWenTokenizer = QWenTokenizer(model_name)
+stop_tokens = ["<|endoftext|>", "<|endofaudio|>", "<|im_end|>"]
+stop_ids = tokenizer.tokenizer.convert_tokens_to_ids(stop_tokens)
+#### Step 2: format prompt
+ref_audio_text = enocde_audio(codec, tokenizer, ref_audio_path)
+ref_audio_text = f'<|inter_audio_begin|>{ref_audio_text}<|inter_audio_end|>'
+prompt = tts_prompt_ref_text.format(content=infer_text, example_voice=ref_audio_text, example_text=ref_text)
+#### Step 3: inference speech token
+sampling_params = SamplingParams(temperature=0.9, top_p=0.9, stop_token_ids=stop_ids, max_tokens=6000)
+output = llm.generate([prompt], sampling_params)
+#### step 4: decode speech token
+output_dir='./' # save path
+tokens = tokenizer.tokenizer.encode(output[0].outputs[0].text)[1: -2]
+utt = 'infer'
+y_gen = codec.decode_from_codes(
+    tokens,
+    minus_token_offset=True # if the 'plus_llm_offset' of method demo_for_generate_audio_codes is set to True, then minus_token_offset must be True.
+)
+codec.save_wav(
+    audio_gen_batch=y_gen,
+    nhop_lengths=[y_gen.shape[-1]],
+    save_path=output_dir,
+    name_tag=utt
+)
+```
+### Long-cot Inference Usage
+```
+#### Step 1:  Init model
+from cli.tokenizer import QWenTokenizer
+from cli.tts_tool import enocde_audio, long_cot_prompt_template
+from vllm import LLM, SamplingParams
+#init model
+model_name="IDEA-Emdoor/UniTTS-mixed-v0.1"
+infer_text="给我写一首春天的作文"
+llm = LLM(model=model_name, dtype='auto', gpu_memory_utilization=0.8, seed=0)
+tokenizer: QWenTokenizer = QWenTokenizer(model_name)
+stop_tokens = ["<|endoftext|>", "<|endofaudio|>", "<|im_end|>"]
+stop_ids = tokenizer.tokenizer.convert_tokens_to_ids(stop_tokens)
+#### Step 2: format prompt
+prompt = long_cot_prompt_template.format(question=infer_text)
+#### Step 3: inference speech token
+sampling_params = SamplingParams(temperature=0.8, top_p=0.8, stop_token_ids=stop_ids, max_tokens=6000)
+output = llm.generate([prompt], sampling_params)
+print(output[0].outputs[0].text)
+```
+### Text conversation Inference Usage
+```
+#### Step 1:  Init model
+from cli.tokenizer import QWenTokenizer
+from cli.tts_tool import enocde_audio, text_conversation_prompt_template
+from vllm import LLM, SamplingParams
+#init model
+model_name="IDEA-Emdoor/UniTTS-mixed-v0.1"
+infer_text="天空为什么是蓝色的？"
+llm = LLM(model=model_name, dtype='auto', gpu_memory_utilization=0.8, seed=0)
+tokenizer: QWenTokenizer = QWenTokenizer(model_name)
+stop_tokens = ["<|endoftext|>", "<|endofaudio|>", "<|im_end|>"]
+stop_ids = tokenizer.tokenizer.convert_tokens_to_ids(stop_tokens)
+#### Step 2: format prompt
+prompt = text_conversation_prompt_template.format(question=infer_text)
+#### Step 3: inference speech token
+sampling_params = SamplingParams(temperature=0.75, top_p=0.75, stop_token_ids=stop_ids, max_tokens=6000)
+output = llm.generate([prompt], sampling_params)
+print(output[0].outputs[0].text)
+```
+## Citation
+```
+@misc{wang2025unittsendtoendttsdecoupling,
+      title={UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information},
+      author={Rui Wang and Qianguo Sun and Tianrong Chen and Zhiyun Zeng and Junlong Wu and Jiaxing Zhang},
+      year={2025},
+      eprint={2505.17426},
+      archivePrefix={arXiv},
+      primaryClass={cs.SD},
+      url={https://arxiv.org/abs/2505.17426},
+}
+```
+## Disclaimer
+Our model provides zero-shot voice cloning only for academic research purposes. We encourage the community to uphold safety and ethical principles in AI research and applications.
+Important Notes:
+- Compliance with the model's open-source license is mandatory.
+- Unauthorized voice replication applications are strictly prohibited.
+- Developers bear no responsibility for any misuse of this model.
+## License
+<a href="https://arxiv.org/abs/2505.17426">UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information</a> © 2025 by <a href="https://creativecommons.org">Rui Wang, Qianguo Sun, Tianrong Chen, Zhiyun Zeng, Junlong Wu, Jiaxing Zhang</a> is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0/">CC BY-NC-ND 4.0</a><img src="https://mirrors.creativecommons.org/presskit/icons/cc.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/by.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/nc.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;"><img src="https://mirrors.creativecommons.org/presskit/icons/nd.svg" style="max-width: 1em;max-height:1em;margin-left: .2em;">

codec_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+    "summary": {
+        "quantizer_dim": 3584,
+        "codebook_per_group_per_residual": 3584,
+        "group": 1,
+        "residual": 1,
+        "original_residual_dim": 1024,
+        "codebook_upsample": 3.5,
+        "codebook_dim": 3584
+    },
+    "base_model": "QWen2.5-7B-Pretrain",
+    "token_id_offset": 152064,
+    "spec_transform": {
+        "sampling_rate": 24000,
+        "segment_size": 72000,
+        "num_mels": 128,
+        "n_fft": 1024,
+        "hop_size": 256,
+        "win_size": 1024,
+        "fmin": 0,
+        "fmax": 12000,
+        "fmax_loss": null
+    },
+    "encoder": {
+        "input_channels": 128,
+        "depths": [
+            3,
+            3,
+            9,
+            3
+        ],
+        "dims": [
+            256,
+            512,
+            768,
+            1024
+        ],
+        "drop_path_rate": 0.2,
+        "kernel_size": 7
+    },
+    "decoder": {
+        "hop_length": 256,
+        "upsample_rates": [
+            8,
+            4,
+            2,
+            2,
+            2
+        ],
+        "upsample_kernel_sizes": [
+            16,
+            12,
+            4,
+            4,
+            4
+        ],
+        "resblock_kernel_sizes": [
+            3,
+            7,
+            11
+        ],
+        "resblock_dilation_sizes": [
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ],
+            [
+                1,
+                3,
+                5
+            ]
+        ],
+        "num_mels": 1024,
+        "upsample_initial_channel": 1024,
+        "use_template": false,
+        "pre_conv_kernel_size": 13,
+        "post_conv_kernel_size": 13
+    },
+    "quantizer": {
+        "quantizer_type": "grvq",
+        "input_dim": 1024,
+        "n_groups": 1,
+        "n_codebooks": 1,
+        "codebook_size": 32768,
+        "codebook_dim": 3584,
+        "levels": [
+            8,
+            5,
+            5,
+            5
+        ],
+        "downsample_factor": [
+            1
+        ],
+        "ema_decay": 0.8,
+        "codebook_diversity_loss_weight": 1.0,
+        "codebook_diversity_temperature": 100.0
+    },
+    "teacher_quantizer": {
+        "quantizer_type": "grvq",
+        "input_dim": 1024,
+        "n_groups": 2,
+        "n_codebooks": 1,
+        "codebook_size": 32768,
+        "codebook_dim": 3584,
+        "levels": [
+            8,
+            5,
+            5,
+            5
+        ],
+        "downsample_factor": [
+            2
+        ],
+        "ema_decay": 0.8,
+        "codebook_diversity_loss_weight": 1.0,
+        "codebook_diversity_temperature": 100.0
+    },
+    "descriminators": {
+        "MultiPeriodDiscriminator": {
+            "periods": [
+                5,
+                8,
+                13,
+                19,
+                30
+            ],
+            "kernal_size": 5,
+            "stride": 3
+        },
+        "MultiScaleDiscriminator": {
+            "avg_poolings": {
+                "kernal_sizes": [
+                    6,
+                    6
+                ],
+                "stridess": [
+                    3,
+                    3
+                ],
+                "paddings": [
+                    3,
+                    3
+                ]
+            },
+            "DiscriminatorS": {
+                "kernal_sizes": [
+                    21,
+                    61,
+                    61,
+                    61,
+                    61,
+                    61,
+                    7
+                ],
+                "strides": [
+                    1,
+                    3,
+                    3,
+                    6,
+                    6,
+                    1,
+                    1
+                ],
+                "paddings": [
+                    10,
+                    30,
+                    30,
+                    30,
+                    30,
+                    30,
+                    3
+                ]
+            }
+        },
+        "MultiScaleSTFTDiscriminator": {
+            "n_ffts": [
+                1024,
+                2048,
+                512,
+                256,
+                128
+            ],
+            "hop_lengths": [
+                256,
+                512,
+                128,
+                64,
+                32
+            ],
+            "win_lengths": [
+                1024,
+                2048,
+                512,
+                256,
+                128
+            ],
+            "filters": 32,
+            "in_channels": 1,
+            "out_channels": 1
+        }
+    }
+}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/cognitive_comp/ccnl_common_data/wangrui/alm_sft_training/20250410/train/checkpoint/xpo-mcore-qwen2.5-7B-lr-8e-7-minlr-5e-7-bs-6-gbs-120-seqlen-4096-pr-bf16-tp-2-pp-4-cp-1-ac-false-do-true-sp-true-ti-18000-wi-66/iter_00020500_hf",
+  "architectures": [
+    "Qwen2Model"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 8192,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "use_cache": true,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 184840
+}

g_00204000 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:097fcfee379183ce7d02a610bb1a8eba080d7ea4972c104f608e5c561940d44f
+size 1625057395

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "transformers_version": "4.46.3"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd6a3131b068db092f33df8a85ff132b074272e3b80a1eb70a72a8a66e2b3b5f
+size 2649866376

model-00002-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ce3bb32bc2c6bdee06ed879df19537ae855a81f436fd87c00cfde6d5fd9a3c1
+size 1981924776

model-00003-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcb0bafca04c2c2bcbecd6086fa9b6c0ec3319610e1f8e10da7de2032d0676ea
+size 1864465064

model-00004-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:876397c2d0d7241776c25cdc747c233b041559b3a80202ddeb0d8c11c5969a20
+size 1864465064

model-00005-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a88f7f74224d730593ac65ad35d2939ac8374f9c3c3ff7620de49f877b8352af
+size 1864465064

model-00006-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ea87aa68c358bfe729d02d56520cf52c71409294a772eb8ab6e7c67168dde60f
+size 1864465048

model-00007-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eda6d74cb0830a1a5f2dff89fd5ea1fa625d05a62bb4962dde8b99bc985d1a24
+size 1864465088

model-00008-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4b6f7ed16611d1db372087fc4df20500a9694db8d4768eb21fb20f4b4b61bf5
+size 1864465088

model-00009-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:192d5320e2cd7f490d57b73c67e49f58a266bd4e6f0bed325a236e1cde55a069
+size 1864465088

model-00010-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b8661439722241cd0dfa2c64c74c44f63a400edc55e6eb7fe4b66bdedfc66e48
+size 1864465088

model-00011-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a389f6ccc791b5109e68506e58403c626a2286821a607902f4e5e2f512f359f4
+size 1864465088

model-00012-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfac48d7d98a8cf3151155ea98df1342b36fecbbf7daf9117a92bfe55eef9e13
+size 1864465088

model-00013-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bd6d6dfa8697e7faa6ad9d61ae5af6da6be75dbb947aef015125bb2c77c7232a
+size 1864465088

model-00014-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fde867d7cd6b080ed431854c96c2f0bf1fb52dbea7a7f26f509d256cbdbd52d
+size 1864465088

model-00015-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f9de00d1d0c4de487a9dee1ad5dcd4c5abec6fdc5079ee2a5633e450be42f427
+size 2649866368

model-00016-of-00016.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:730dc6f35bc065723b196e5bda034943db4fdb2d1bcee8fa55101277062ef0a5
+size 1747019776

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 31402219520
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00015-of-00016.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00016.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00007-of-00016.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00007-of-00016.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00008-of-00016.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00008-of-00016.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00009-of-00016.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00009-of-00016.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00010-of-00016.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00010-of-00016.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00002-of-00016.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00002-of-00016.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00011-of-00016.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00011-of-00016.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00012-of-00016.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00012-of-00016.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00013-of-00016.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00013-of-00016.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00016-of-00016.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00016-of-00016.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00014-of-00016.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00014-of-00016.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00016-of-00016.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00016-of-00016.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00003-of-00016.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00003-of-00016.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00004-of-00016.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00004-of-00016.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00005-of-00016.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00005-of-00016.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00006-of-00016.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00006-of-00016.safetensors",
+    "model.norm.weight": "model-00016-of-00016.safetensors"
+  }
+}

pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15701109760
+  },
+  "weight_map": {
+    "lm_head.weight": "pytorch_model-00004-of-00004.bin",
+    "model.embed_tokens.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.0.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.1.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.10.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.10.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.11.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.12.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.13.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.14.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.15.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.16.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.17.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.18.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.18.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.18.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.18.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.18.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.19.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.19.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.2.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.2.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.20.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.20.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.21.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.22.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.23.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.24.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.25.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.26.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.input_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.down_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.gate_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.mlp.up_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.post_attention_layernorm.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.k_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.k_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.o_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.q_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.q_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.v_proj.bias": "pytorch_model-00003-of-00004.bin",
+    "model.layers.27.self_attn.v_proj.weight": "pytorch_model-00003-of-00004.bin",
+    "model.layers.3.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.3.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.4.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.5.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.input_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.down_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.post_attention_layernorm.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.6.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.7.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.7.mlp.gate_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.mlp.up_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.7.self_attn.k_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.k_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.o_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.q_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.q_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.v_proj.bias": "pytorch_model-00001-of-00004.bin",
+    "model.layers.7.self_attn.v_proj.weight": "pytorch_model-00001-of-00004.bin",
+    "model.layers.8.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.8.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.input_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.mlp.down_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.mlp.gate_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.mlp.up_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.post_attention_layernorm.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.k_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.k_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.o_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.q_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.q_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.v_proj.bias": "pytorch_model-00002-of-00004.bin",
+    "model.layers.9.self_attn.v_proj.weight": "pytorch_model-00002-of-00004.bin",
+    "model.norm.weight": "pytorch_model-00003-of-00004.bin"
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acabcaa15a4db2a61dcd09647ef99bdf3f9c2e11410648cad5392bf4b2fbcebe
+size 17790582

tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff