Dúvidas sobre steps e datasets.
Em qual datasets você fez o finetune, com qual learning rate e quantos steps?
Quantos exemplos do dataset? São os seus mesmo @cnmoro ?
Obrigado, sou fã do teu trabalho.
Olá, utilizei o unsloth, com os seguintes parâmetros: r=768, lora_alpha=256, gradient_accumulation_steps=2, warmup_steps=10, learning rate default (escalonável) e treinei por duas épocas.
Utilizei uma mistura de datasets customizados que eu mesmo desenvolvi, e também a versão em português do open-hermes, disponibilizada aqui: https://huggingface.co/datasets/adalbertojunior/openHermes_portuguese.
Inclusive vou adicionar essa informação no card do modelo
Entendi, e como entendeu a questão do catastrophic forgetting? Pois, já foi tentando por nós esse treinamento via lora, nunca houveram bons resultados generalistas. O ideal p isso é fazer full finetuning. Já analisou essa possibilidade? Vou dar uma olhada no dataset p ver se é tangivel, mas já fizemos por aqui também, depende é do contexto.
Já percebi esse fenômeno algumas vezes, inclusive postei a V2 do modelo e em vários benchmarks ele perdeu desempenho, estou fazendo testes ainda. Eu estou usando o lora com r768 e assim ele atualiza cerca de 90% dos parâmetros, não é o finetuning completo mas é melhor do que usar um r baixo. Eu acho que o caminho é usar um learning rate bem menor. Mas eu acredito que a raiz para esse problema acontecer é o dataset, alguns pares de perguntas e respostas devem ter sobreposição em algum nível, e aí impacta negativamente