Collections

6

Training Software Engineering Agents and Verifiers with SWE-Gym

Paper • 2412.21139 • Published Dec 30, 2024 • 22
Evaluating Language Models as Synthetic Data Generators

Paper • 2412.03679 • Published Dec 4, 2024 • 48
Self-Rewarding Language Models

Paper • 2401.10020 • Published Jan 18, 2024 • 146
Self-Discover: Large Language Models Self-Compose Reasoning Structures

Paper • 2402.03620 • Published Feb 6, 2024 • 115

30

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Paper • 2310.04406 • Published Oct 6, 2023 • 8
Chain-of-Thought Reasoning Without Prompting

Paper • 2402.10200 • Published Feb 15, 2024 • 105
ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

Paper • 2402.09320 • Published Feb 14, 2024 • 6
Self-Discover: Large Language Models Self-Compose Reasoning Structures

Paper • 2402.03620 • Published Feb 6, 2024 • 115

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Paper • 2404.03715 • Published Apr 4, 2024 • 61

Training Software Engineering Agents and Verifiers with SWE-Gym

Evaluating Language Models as Synthetic Data Generators

Self-Rewarding Language Models

Self-Discover: Large Language Models Self-Compose Reasoning Structures

Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

Chain-of-Thought Reasoning Without Prompting

ICDPO: Effectively Borrowing Alignment Capability of Others via In-context Direct Preference Optimization

Self-Discover: Large Language Models Self-Compose Reasoning Structures

LoRA+: Efficient Low Rank Adaptation of Large Models

The FinBen: An Holistic Financial Benchmark for Large Language Models

TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization

TrustLLM: Trustworthiness in Large Language Models

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Scaling Synthetic Data Creation with 1,000,000,000 Personas

argilla/magpie-ultra-v1.0

simplescaling/s1K-1.1

RLHF Workflow: From Reward Modeling to Online RLHF

Understanding and Diagnosing Deep Reinforcement Learning

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning

Best Practices and Lessons Learned on Synthetic Data for Language Models

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing

Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models

mDPO: Conditional Preference Optimization for Multimodal Large Language Models

Pandora: Towards General World Model with Natural Language Actions and Video States

WPO: Enhancing RLHF with Weighted Preference Optimization

In-Context Editing: Learning Knowledge from Self-Induced Distributions

Rho-1: Not All Tokens Are What You Need

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time

Instruction-tuned Language Models are Better Knowledge Learners

DoRA: Weight-Decomposed Low-Rank Adaptation

RoFormer: Enhanced Transformer with Rotary Position Embedding

Attention Is All You Need

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences

Zero-Shot Tokenizer Transfer

Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences