Liu Songhua's picture

3 23 1

Liu Songhua PRO

Huage001

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 4 days ago

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

upvoted a paper 4 days ago

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

upvoted a paper 4 days ago

Magma: A Foundation Model for Multimodal AI Agents

View all activity

Organizations

None yet

Huage001's activity

upvoted 5 papers 4 days ago

Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention

Paper • 2502.11089 • Published 8 days ago • 133

I Think, Therefore I Diffuse: Enabling Multimodal In-Context Reasoning in Diffusion Models

Paper • 2502.10458 • Published 12 days ago • 27

Magma: A Foundation Model for Multimodal AI Agents

Paper • 2502.13130 • Published 5 days ago • 41

Small Models Struggle to Learn from Strong Reasoners

Paper • 2502.12143 • Published 6 days ago • 25

Qwen2.5-VL Technical Report

Paper • 2502.13923 • Published 4 days ago • 136

authored a paper 5 days ago

CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Paper • 2412.16112 • Published Dec 20, 2024 • 22

authored a paper 6 days ago

Rethinking Large-scale Dataset Compression: Shifting Focus From Labels to Images

Paper • 2502.06434 • Published 13 days ago • 1

upvoted 2 papers 7 days ago

Large Language Diffusion Models

Paper • 2502.09992 • Published 10 days ago • 75

MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency

Paper • 2502.09621 • Published 10 days ago • 26

upvoted 2 papers 12 days ago

FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation

Paper • 2502.05179 • Published 16 days ago • 22

Goku: Flow Based Video Generative Foundation Models

Paper • 2502.04896 • Published 16 days ago • 88

upvoted 6 papers about 2 months ago

TransPixar: Advancing Text-to-Video Generation with Transparency

Paper • 2501.03006 • Published Jan 6 • 23

STAR: Spatial-Temporal Augmentation with Text-to-Video Models for Real-World Video Super-Resolution

Paper • 2501.02976 • Published Jan 6 • 54

LTX-Video: Realtime Video Latent Diffusion

Paper • 2501.00103 • Published Dec 30, 2024 • 42

VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control

Paper • 2501.01427 • Published Jan 2 • 51

1.58-bit FLUX

Paper • 2412.18653 • Published Dec 24, 2024 • 78

Edicho: Consistent Image Editing in the Wild

Paper • 2412.21079 • Published Dec 30, 2024 • 23

commented a paper 2 months ago

CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Paper • 2412.16112 • Published Dec 20, 2024 • 22 •

upvoted a paper 2 months ago

CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Paper • 2412.16112 • Published Dec 20, 2024 • 22

commented a paper 2 months ago

CLEAR: Conv-Like Linearization Revs Pre-Trained Diffusion Transformers Up

Paper • 2412.16112 • Published Dec 20, 2024 • 22 •