REILX
/

llava-Qwen2-7B-Instruct-Chinese-CLIP

@@ -12,9 +12,9 @@ tags:
 ---
 完整模型过几日上传。
-### 模型 llava-Qwen2-7B-Instruct-CLIP-ZH 增强中文文字识别能力和表情包内涵识别能力，达到gpt4o、claude-3.5-sonnet的能力！！！！！
 1. 模型结构：</br>
-llava-Qwen2-7B-Instruct-CLIP-ZH = Qwen/Qwen2-7B-Instruct + multi_modal_projector + openai/clip-vit-large-patch14-336</br>
 2. 微调模块
 - vision_tower和language_model的q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj部分进行lora训练</br>
@@ -33,14 +33,18 @@ llava-Qwen2-7B-Instruct-CLIP-ZH = Qwen/Qwen2-7B-Instruct + multi_modal_projector
 图片数据总量1.8G，约10835张中文表情包图片。文字总量42Mb，约24332个图像文本对描述信息。
 5. 效果展示</br>
-以下测试结果显示模型能识别图像中的文字信息，且能正确识别表情包想要表达的内涵。对比REILX/llava-1.5-7b-hf-meme-lora模型中也测试了原始llava-1.5-7b-hf模型的输出，模型无法正确识别图像中的文本信息。
-![](./images/llava-qwen2-lora-01.JPG)
-![](./images/llava-qwen2-lora-02.JPG)
-![](./images/llava-qwen2-lora-03.JPG)
 以下三张图为gpt4o的识别效果</br>
-![](./images/gpt4o-01.JPG)
-![](./images/gpt4o-02.JPG)
-![](./images/gpt4o-03.JPG)
 6. 代码</br>
 合并模型代码，合并模型之后将add_tokens.json,merge.txt,preprocessor_config.json,specital_token_map.json,tokenizer.json,vocab.json文件复制到"/保存的完整模型路径"。

 ---
 完整模型过几日上传。
+### 模型 llava-Qwen2-7B-Instruct-Chinese-CLIP 增强中文文字识别能力和表情包内涵识别能力，达到gpt4o、claude-3.5-sonnet的能力！！！！！
 1. 模型结构：</br>
+llava-Qwen2-7B-Instruct-Chinese-CLIP = Qwen/Qwen2-7B-Instruct + multi_modal_projector + OFA-Sys/chinese-clip-vit-large-patch14-336px</br>
 2. 微调模块
 - vision_tower和language_model的q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj部分进行lora训练</br>
 图片数据总量1.8G，约10835张中文表情包图片。文字总量42Mb，约24332个图像文本对描述信息。
 5. 效果展示</br>
+以下测试结果显示模型能识别图像中的文字信息，且能正确识别表情包想要表达的内涵。对比REILX/llava-1.5-7b-hf-meme-lora模型中也测试了原始llava-1.5-7b-hf模型的输出，模型无法正确识别图像中的文本信息。</br>
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-01.PNG" width="600" height="200">
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-02.PNG" width="600" height="200">
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-03.PNG" width="600" height="200">
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-04.PNG" width="600" height="200">
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-05.PNG" width="600" height="200">
+<img src="./images/llava-qwen-2-7b-OFA-Syschinese-clip-memechinesebqb_merged_0708_fp16/llava-qwen2-7b-OFA-Syschinese-clip-fp16-06.PNG" width="600" height="200">
+</br>
 以下三张图为gpt4o的识别效果</br>
+<img src="./images/gpt4o-01.JPG" width="600" height="400">
+<img src="./images/gpt4o-02.JPG" width="600" height="400">
+<img src="./images/gpt4o-03.JPG" width="600" height="400">
 6. 代码</br>
 合并模型代码，合并模型之后将add_tokens.json,merge.txt,preprocessor_config.json,specital_token_map.json,tokenizer.json,vocab.json文件复制到"/保存的完整模型路径"。