ibm-granite
/

granite-vision-3.1-2b-preview

Image-Text-to-Text

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

dhirajjoshi116 commited on 3 days ago

Commit

3908965

·

verified ·

1 Parent(s): cf8cb83

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -167,7 +167,7 @@ The architecture of granite-vision-3.1-2b-preview consists of the following comp
 (3) Large language model: granite-3.1-2b-instruct with 128k context length (https://huggingface.co/ibm-granite/granite-3.1-2b-instruct).
-We built upon LlaVA (https://llava-vl.github.io) to train our model. We use multi-layer encoder features and a denser grid resolution in AnyRes to enhance the model's ability to understand nuanced visual content, which is essential for accurately interpreting document images.
 **Training Data:**

 (3) Large language model: granite-3.1-2b-instruct with 128k context length (https://huggingface.co/ibm-granite/granite-3.1-2b-instruct).
+We built upon LLaVA (https://llava-vl.github.io) to train our model. We use multi-layer encoder features and a denser grid resolution in AnyRes to enhance the model's ability to understand nuanced visual content, which is essential for accurately interpreting document images.
 **Training Data:**