new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

by AK and the research community

Dec 11

Submitted by

yyf86

STIV: Scalable Text and Image Conditioned Video Generation

·
17 authors

Submitted by

CSJianYang

Evaluating and Aligning CodeLLMs on Human Preference

·
10 authors

Submitted by

LXT

DiffSensei: Bridging Multi-Modal LLMs and Diffusion Models for Customized Manga Generation

·
6 authors

Submitted by

JamesHujy

ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer

·
9 authors

Submitted by

kasraarabi

Hidden in the Noise: Two-Stage Robust Watermarking for Images

·
5 authors

Submitted by

xichenhku

UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

·
13 authors

Submitted by

wanderkid

OmniDocBench: Benchmarking Diverse PDF Document Parsing with Comprehensive Annotations

·
20 authors

Submitted by

habibian

Mobile Video Diffusion

·
5 authors

Submitted by

myownskyW7

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

·
9 authors

Submitted by

habibian

MoViE: Mobile Diffusion for Video Editing

·
6 authors

Submitted by

lemonaddie

3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation

·
10 authors

Submitted by

akhaliq

Granite Guardian

·
22 authors

Submitted by

adamdad

Video Motion Transfer with Diffusion Transformers

·
5 authors

Submitted by

shuaishuaicdp

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models

·
7 authors

Submitted by

pvalois

Frame Representation Hypothesis: Multi-Token LLM Interpretability and Concept-Guided Text Generation

·
4 authors

Submitted by

LXT

EMOv2: Pushing 5M Vision Model Frontier

·
9 authors

Submitted by

donaldssh

LoRA.rar: Learning to Merge LoRAs via Hypernetworks for Subject-Style Conditioned Image Generation

·
5 authors

Submitted by

akhaliq

Fully Open Source Moxin-7B Technical Report

·
16 authors

Submitted by

chunwei0224

ILLUME: Illuminating Your LLMs to See, Draw, and Self-Enhance

·
8 authors

Submitted by

renqiux0302

Chimera: Improving Generalist Model with Domain-Specific Experts

·
14 authors

Submitted by

wzhouxiff

ObjCtrl-2.5D: Training-free Object Control with Camera Poses

·
4 authors

Submitted by

aggr8

GraPE: A Generate-Plan-Edit Framework for Compositional T2I Synthesis

·
6 authors

Submitted by

romsto

HARP: Hesitation-Aware Reframing in Transformer Inference Pass

·
2 authors

Submitted by

alemiaschi

Contextualized Counterspeech: Strategies for Adaptation, Personalization, and Evaluation

·
6 authors

Submitted by

thomasrantian

Maximizing Alignment with Minimal Feedback: Efficiently Learning Rewards for Visuomotor Robot Policy Alignment

·
6 authors

Submitted by

gpx333

A New Federated Learning Framework Against Gradient Inversion Attacks

·
7 authors