Omarrran
/

Hnm_Llama3_2_Vision_lora_model

text-generation-inference

4-bit precision

Model card Files Files and versions

Hnm_Llama3_2_Vision_lora_model / README.md

Omarrran's picture

Update README.md

4b15d75 verified 7 months ago

|

history blame contribute delete

3.5 kB

	---
	base_model: unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit
	tags:
	- text-generation-inference
	- transformers
	- unsloth
	- mllama
	license: apache-2.0
	language:
	- en
	datasets:
	- unsloth/Radiology_mini
	library_name: transformers
	---

	# Uploaded finetuned model

	- Developed by: Haq Nawaz Malik
	- License: apache-2.0
	- Finetuned from model : unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit

	# Documentation: Hnm_Llama3.2_(11B)-Vision_lora_model

	## Overview
	The Hnm_Llama3.2_(11B)-Vision_lora_model is a fine-tuned version of Llama 3.2 (11B) Vision with LoRA-based parameter-efficient fine-tuning (PEFT). It specializes in vision-language tasks, particularly for medical image captioning and understanding.

	This model was fine-tuned on a Tesla T4 (Google Colab) using Unsloth, a framework designed for efficient fine-tuning of large models.

	---

	## Features
	- Fine-tuned on Radiology Images: Trained using the Radiology_mini dataset.
	- Supports Image Captioning: Can describe medical images.
	- 4-bit Quantization (QLoRA): Memory efficient, runs on consumer GPUs.
	- LoRA-based PEFT: Trains only 1% of parameters, significantly reducing computational cost.
	- Multi-modal Capabilities: Works with both text and image inputs.
	- Supports both Vision and Language fine-tuning.

	---

	## Model Details
	- Base Model: `unsloth/Llama-3.2-11B-Vision-Instruct`
	- Fine-tuning Method: LoRA + 4-bit Quantization (QLoRA)
	- Dataset: `unsloth/Radiology_mini`
	- Framework: Unsloth + Hugging Face Transformers
	- Training Environment: Google Colab (Tesla T4 GPU)

	---



	### 2. Load the Model
	```python
	from unsloth import FastVisionModel

	model, tokenizer = FastVisionModel.from_pretrained(
	"Hnm_Llama3.2_(11B)-Vision_lora_model",
	load_in_4bit=True # Set to False for full precision
	)
	```

	---

	## Usage
	### 1. Image Captioning Example
	```python
	import torch
	from transformers import TextStreamer

	FastVisionModel.for_inference(model) # Enable inference mode

	# Load an image from dataset
	dataset = load_dataset("unsloth/Radiology_mini", split="train")
	image = dataset[0]["image"]
	instruction = "Describe this medical image accurately."

	messages = [
	{"role": "user", "content": [
	{"type": "image"},
	{"type": "text", "text": instruction}
	]}
	]

	input_text = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
	inputs = tokenizer(
	image,
	input_text,
	add_special_tokens=False,
	return_tensors="pt"
	).to("cuda")

	text_streamer = TextStreamer(tokenizer, skip_prompt=True)
	_ = model.generate(**inputs, streamer=text_streamer, max_new_tokens=128,
	use_cache=True, temperature=1.5, min_p=0.1)
	```



	## Notes
	- This model is optimized for vision-language tasks in the medical field but can be adapted for other applications.
	- Uses LoRA adapters, meaning you can fine-tune it efficiently with very few GPU resources.
	- Supports Hugging Face Model Hub for deployment and sharing.

	---

	## Citation
	If you use this model, please cite:
	```
	@misc{Hnm_Llama3.2_11B_Vision,
	author = {Haq Nawaz Malik},
	title = {Fine-tuned Llama 3.2 (11B) Vision Model},
	year = {2025},
	url = {https://huggingface.co/Omarrran/Hnm_Llama3_2_Vision_lora_model}
	}
	```

	---

	## Contact
	For any questions or support, reach out via:
	- GitHub: [view](https://github.com/Haq-Nawaz-Malik)
	- Hugging Face: [view](https://huggingface.co/Omarrran)