Edit Models filters

Multimodal

Audio-Text-to-Text

Image-Text-to-Text

Visual Question Answering

Document Question Answering

Video-Text-to-Text

Visual Document Retrieval

Computer Vision

Depth Estimation

Image Classification

Object Detection

Image Segmentation

Unconditional Image Generation

Video Classification

Zero-Shot Image Classification

Mask Generation

Zero-Shot Object Detection

Image Feature Extraction

Keypoint Detection

Natural Language Processing

Text Classification

Token Classification

Table Question Answering

Question Answering

Zero-Shot Classification

Feature Extraction

Text Generation

Sentence Similarity

Audio

Automatic Speech Recognition

Audio Classification

Voice Activity Detection

Tabular

Tabular Classification

Tabular Regression

Time Series Forecasting

Reinforcement Learning

Reinforcement Learning

Other

Graph Machine Learning

Models

528

Full-text search

Active filters: visual-question-answering

kimdesok/vilt_finetuned_100

Visual Question Answering • 0.1B • Updated Apr 2, 2024

davicn7/hvar_vaq_model

Visual Question Answering • 0.4B • Updated Mar 27, 2024

qwikQ8/vilt_finetuned_200

Visual Question Answering • 0.1B • Updated Apr 16, 2024

Ornelas/vilt_finetuned_fashion

Visual Question Answering • 0.1B • Updated Apr 1, 2024

Ornelas/blip_finetuned_fashion

Visual Question Answering • 0.4B • Updated Apr 1, 2024 • 7

kunal18/Vilt_Model

Visual Question Answering • 0.1B • Updated Apr 1, 2024

bgyoo/vilt_finetuned_200

Visual Question Answering • Updated Apr 3, 2024 • 2

MohamedTahir/ViLTVQA

Visual Question Answering • 0.1B • Updated Apr 4, 2024 • 1

farishehzad/vilt_finetuned_200

Visual Question Answering • 0.1B • Updated Apr 7, 2024 • 3

internlm/internlm-xcomposer2-4khd-7b

Visual Question Answering • Updated Apr 18, 2024 • 755 • 73

farishehzad/vilt_finetuned

Visual Question Answering • 0.1B • Updated Apr 8, 2024

jmonas/ViLT-33M-vqa

Visual Question Answering • 33.9M • Updated Apr 8, 2024

jmonas/ViLT-12M-vqa

Visual Question Answering • 12.6M • Updated Apr 8, 2024

jmonas/ViLT-11M-vqa

Visual Question Answering • 11.5M • Updated Apr 8, 2024 • 1

jmonas/ViLT-5M-vqa

Visual Question Answering • 5.58M • Updated Apr 8, 2024

farishehzad/checkpoint_vilt

Visual Question Answering • 0.1B • Updated Apr 8, 2024

farishehzad/vilt_finetuned_1

Visual Question Answering • 0.1B • Updated Apr 8, 2024 • 1

farishehzad/vilt_finetuned_2

Visual Question Answering • 0.1B • Updated Apr 8, 2024 • 2

internlm/internlm-xcomposer2-vl-1_8b

Visual Question Answering • Updated Apr 9, 2024 • 105 • 18

openbmb/MiniCPM-V-2

Visual Question Answering • 3B • Updated Jan 15 • 16k • 481

yanka9/vilt_finetuned_deepfashionVQA_v2

Visual Question Answering • 0.1B • Updated Feb 16 • 22 • 6

thdangtr/blip_recipe1m_first

Visual Question Answering • 0.4B • Updated Apr 13, 2024 • 1

thdangtr/blip_recipe1m_v1

Visual Question Answering • 0.4B • Updated Apr 13, 2024

thdangtr/blip_recipe1m_instructions_v1_test

Visual Question Answering • 0.4B • Updated Apr 14, 2024

thdangtr/blip_recipe1m_ingredients_v1

Visual Question Answering • 0.4B • Updated Apr 14, 2024 • 2

thdangtr/blip_recipe1m_instructions_v1

Visual Question Answering • 0.4B • Updated Apr 14, 2024

sid819/Llava-Phi2

Visual Question Answering • 3B • Updated Apr 15, 2024

thdangtr/blip_recipe1m_ingredients_v2

Visual Question Answering • 0.4B • Updated Apr 15, 2024 • 2

thdangtr/blip_recipe1m_instructions_v2

Visual Question Answering • 0.4B • Updated Apr 15, 2024 • 4

nagayama0706/multimodal_model

Visual Question Answering • 7B • Updated Apr 16, 2024