1 9 6

Zhenxing Mi

Mifucius

AI & ML interests

None yet

Recent Activity

upvoted a paper 3 days ago

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

upvoted a paper 3 days ago

Dynamic Concepts Personalization from Single Videos

upvoted a paper 4 days ago

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

View all activity

Organizations

None yet

Mifucius's activity

upvoted 2 papers 3 days ago

SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Paper • 2502.14786 • Published 3 days ago • 103

Dynamic Concepts Personalization from Single Videos

Paper • 2502.14844 • Published 3 days ago • 13

upvoted 2 papers 4 days ago

RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Paper • 2502.13144 • Published 5 days ago • 35

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published 4 days ago • 136

commented a paper 6 days ago

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 12 days ago • 27 •

authored a paper 6 days ago

LeC$^2$O-NeRF: Learning Continuous and Compact Large-Scale Occupancy for Urban Scenes

Paper • 2411.11374 • Published Nov 18, 2024

commented a paper 6 days ago

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 12 days ago • 27 •

authored a paper 6 days ago

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 12 days ago • 27

upvoted a paper 6 days ago

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 12 days ago • 27

upvoted a paper 2 months ago

BrushEdit: All-In-One Image Inpainting and Editing

Paper • 2412.10316 • Published Dec 13, 2024 • 33

liked 2 models 4 months ago

genmo/mochi-1-preview

Text-to-Video • Updated Dec 18, 2024 • 26.9k • • 1.18k

meta-llama/Llama-3.2-11B-Vision-Instruct

Image-Text-to-Text • Updated Dec 4, 2024 • 1.11M • • 1.34k

upvoted 3 papers 5 months ago

MM-Ego: Towards Building Egocentric Multimodal LLMs

Paper • 2410.07177 • Published Oct 9, 2024 • 22

Personalized Visual Instruction Tuning

Paper • 2410.07113 • Published Oct 9, 2024 • 70

3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection

Paper • 2410.01647 • Published Oct 2, 2024 • 28

liked a dataset 5 months ago

p1atdev/niji-v5

Viewer • Updated Jul 9, 2023 • 3k • 154 • 28

liked 3 models 6 months ago