yueqin yin's picture

3 1 1

yueqin yin

yyqoni

AI & ML interests

None yet

Recent Activity

updated a collection 3 days ago

DenseRewardRLHF-PPO

updated a model 3 days ago

yyqoni/Phi-3-mini-4k-bandit-ppo-60k

upvoted a paper 4 days ago

Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model

View all activity

Organizations

Collections 1

Papers 4

arxiv:2501.02790

arxiv:2402.10958

arxiv:2310.05400

arxiv:2203.17266

models 19

yyqoni/Phi-3-mini-4k-bandit-ppo-60k

Text Generation • Updated 3 days ago • 9

yyqoni/rlhflow-llama-3-sft-8b-v2-token-ppo-60k

Text Generation • Updated 5 days ago • 12

yyqoni/rlhflow-llama-3-sft-8b-v2-bandit-ppo-60k

Text Generation • Updated 5 days ago • 11

yyqoni/meta-llama-3.1-instruct-8b-bandit-ppo-60k

Text Generation • Updated 5 days ago • 14

yyqoni/meta-llama-3.1-instruct-8b-token-ppo-60k

Text Generation • Updated 5 days ago • 11

yyqoni/Phi-3-mini-4k-token-ppo-60k

Text Generation • Updated 5 days ago • 11

yyqoni/meta-llama-3.1-instruct-8b-segment-ppo-60k

Text Generation • Updated 5 days ago • 7

yyqoni/rlhflow-llama-3-sft-8b-v2-segment-ppo-60k

Text Generation • Updated 5 days ago • 12

yyqoni/Phi-3-mini-4k-segment-ppo-60k

Text Generation • Updated 5 days ago • 9

yyqoni/meta-llama-3.1-instruct-8b-bandit-rm-700k

Text Classification • Updated 5 days ago • 9

datasets

None public yet