Edit Models filters

Tasks

Text Generation

Image-Text-to-Text

Parameters

Libraries

Transformers.js

Apps

Inference Providers

Models

1,128

Full-text search

Active filters: reinforcement-learning, transformers

KayabaEngine/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 1, 2023 • 1

YCHuang2112/ppo-CartPole-v1

Reinforcement Learning • Updated Jun 1, 2023 • 1

TokyoNights/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 1, 2023 • 1

rajpabari/gflownets-rlhf

Reinforcement Learning • Updated Jun 6, 2023

mariosirt/EleutherAI-gpt-neo-125m-detoxified

Reinforcement Learning • Updated Jun 6, 2023 • 1

mariosirt/EleutherAI-gpt-neo-125m-detoxified-perspective

Reinforcement Learning • Updated Jun 11, 2023 • 2

mariosirt/gpt2-detoxified

Reinforcement Learning • Updated Jun 11, 2023 • 13

Mtc2/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 9, 2023 • 1

echrisantus/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 24, 2023 • 3

kchen621/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 25, 2023 • 1

S3S3/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 2, 2023 • 3

chaowu/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 30, 2023 • 1

renyulin/gptneo125m-detoxify-ppo-0.05

Reinforcement Learning • Updated Jun 26, 2023 • 1

aronmal/ppo-lunarlander-v2

Reinforcement Learning • Updated Aug 29, 2023 • 3

renyulin/llama-7b-es-ppo-adpater

Reinforcement Learning • Updated Jul 3, 2023

renyulin/gpt-neo-1.3b-es-rlhf-step2500-peft

Reinforcement Learning • Updated Jul 3, 2023

YojitShinde/PPO-LunarLander-v2

Reinforcement Learning • Updated Jul 26, 2023 • 1

Evan-Lin/Bart-RL-little

Reinforcement Learning • Updated Jul 6, 2023 • 13

linlinlin/ppo_model

Reinforcement Learning • Updated Jul 7, 2023

Evan-Lin/Bart-RL-little-entailment

Reinforcement Learning • Updated Jul 7, 2023 • 13

tbooy/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 27, 2023 • 2

Evan-Lin/Bart-RL-many-entailment-attractive-keywordmax

Reinforcement Learning • Updated Jul 13, 2023 • 12

nlp-lab-2023-seq2seq/R-best-fine-tuned-bart-base-full-ft-reward_short_sentences_and_words-2023-07-13T06-49-08

Reinforcement Learning • Updated Aug 20, 2023 • 15 • 1

dhinman/ppo-LunarLander-v2

Reinforcement Learning • Updated Sep 9, 2023 • 1

Evan-Lin/Bart-RL-many-entailment-attractive-epoch1

Reinforcement Learning • Updated Jul 14, 2023 • 14

amirabdullah19852020/pythia_70m_ppo_imdb_sentiment

Reinforcement Learning • Updated Jul 15, 2023 • 13

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward1

Reinforcement Learning • Updated Jul 15, 2023 • 12

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward2

Reinforcement Learning • Updated Jul 15, 2023 • 13

amirabdullah19852020/pythia_70m_ppo_imdb_sentiment_v2

Reinforcement Learning • Updated Jul 15, 2023 • 13

Evan-Lin/Bart-RL-many-keywordmax-entailment-attractive-reward5

Reinforcement Learning • Updated Jul 16, 2023 • 13