nbd22
/

Llama-3.1-8B-Instruct-GRPO-gsm8k-ft-lora

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Llama-3.1-8B-Instruct-GRPO-gsm8k-ft-lora / adapter_model.safetensors

Commit History

Training in progress, step 233

b47735a
verified

nbd22 commited on 25 days ago