grpo_gemma_step200

LoRA adapter trained from google/gemma-4-E4B-it.

Usage

Load this adapter with PEFT on top of the base model:

from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel

base_model = "google/gemma-4-E4B-it"
adapter_repo = "elaine1wan/grpo_gemma_step200"

tokenizer = AutoTokenizer.from_pretrained(base_model)
model = AutoModelForCausalLM.from_pretrained(base_model)
model = PeftModel.from_pretrained(model, adapter_repo)

Training checkpoint

Exported from:

verl/checkpoints/gemma4_e4b_it_grpo_multiturn_diversity_first_assistant_salessim_female_clothing/global_step_200/actor/lora_adapter

Downloads last month: 15

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for elaine1wan/grpo_gemma_step200

Base model

google/gemma-4-E4B

Finetuned

google/gemma-4-E4B-it

Adapter

(100)

this model