Edit Models filters

Inference Providers

Nebius AI Studio

HF Inference API

Misc

Inference Endpoints

AutoTrain Compatible

text-generation-inference

8-bit precision

Misc with no match

4-bit precision

text-embeddings-inference

Carbon Emissions

Mixture of Experts

Models

482

Full-text search

Active filters: ppo, trl

ybelkada/test-ppo-tag

Reinforcement Learning • Updated Dec 25, 2023 • 32

bnurpek/gpt2-256T-neg-0

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-1

Reinforcement Learning • Updated Jan 2, 2024 • 42

bnurpek/gpt2-256T-neg-2

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-3

Reinforcement Learning • Updated Jan 2, 2024 • 33

bnurpek/gpt2-256T-neg-5

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-7

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-10

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-15

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-20

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/gpt2-256T-neg-30

Reinforcement Learning • Updated Jan 2, 2024 • 33

bnurpek/gpt2-256T-neg-50

Reinforcement Learning • Updated Jan 2, 2024 • 34

bnurpek/gpt2-256T-neg-70

Reinforcement Learning • Updated Jan 2, 2024 • 33

bnurpek/gpt2-256T-neg-100

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-0

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-1

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-2

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-3

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-5

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-7

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-10

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-15

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-20

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-30

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-50

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/try2-gpt2-256T-neg-70

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/kl0.7-gpt2-256T-neg-0

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/kl0.7-gpt2-256T-neg-1

Reinforcement Learning • Updated Jan 2, 2024 • 32

bnurpek/kl0.7-gpt2-256T-neg-2

Reinforcement Learning • Updated Jan 2, 2024 • 34

bnurpek/kl0.7-gpt2-256T-neg-3

Reinforcement Learning • Updated Jan 2, 2024 • 32