127 3K 22

Alpaca Dataset

Alpaca-Cleaned PTBR é uma versão melhorada e traduzida para o `Português Brasileiro` do Conjunto de Dados Alpaca, com 52.000 instruções para ajuste fino de modelos de linguagem. Corrige problemas e aprimora a utilidade para pesquisas futuras.

NOTA: Essa é uma versão traduzida para PT-BR do conjunto de dados yahma/alpaca-cleaned.

O Conjunto de Dados Alpaca

O Conjunto de Dados Alpaca é uma coleção de 52.000 instruções e demonstrações geradas pelo mecanismo text-davinci-003 da OpenAI. Esses dados de instruções podem ser usados para o ajuste fino de modelos de linguagem e fazer com que o modelo siga as instruções de forma mais precisa.

Motivação para o Projeto Alpaca-Cleaned

Embora o Conjunto de Dados Alpaca tenha sido uma contribuição valiosa para o campo de treinamento de modelos de linguagem, foram identificados alguns problemas e deficiências na versão original do conjunto de dados. Algumas das principais questões foram:

  1. Alucinações: Muitas instruções no conjunto de dados original faziam referência a dados na internet, o que levava o modelo GPT-3 a criar respostas fictícias.

  2. Instruções Mescladas: Algumas instruções foram mescladas de forma incorreta no conjunto de dados original.

  3. Saídas Vazias: Algumas entradas no conjunto de dados original continham saídas vazias, tornando-as inutilizáveis para o treinamento do modelo.

  4. Exemplos de Código Ausentes: Algumas descrições no conjunto de dados original não continham exemplos de código, dificultando a compreensão do comportamento pretendido do código.

  5. Instruções para Gerar Imagens: Algumas descrições no conjunto de dados original incluíam instruções para gerar imagens, o que claramente não era possível.

  6. Saídas "N/A": Alguns trechos de código no conjunto de dados original continham saídas "N/A".

  7. Campo de Entrada Inconsistente: O campo de entrada no conjunto de dados original era inconsistente quando deveria estar vazio.

  8. Respostas Incorretas: Algumas instruções no conjunto de dados original continham respostas incorretas, o que prejudicava a qualidade do treinamento.

  9. Instruções Não Sensíveis: Muitas instruções eram pouco claras, e algumas delas foram reescritas para garantir que fossem compreensíveis.

  10. Caracteres de Escape e Controle Supérfluos: Algumas entradas no conjunto de dados original continham caracteres de escape e controle desnecessários.

O Projeto Alpaca-Cleaned

O projeto "Alpaca-Cleaned" abordou todas as questões mencionadas acima, resultando em um conjunto de dados limpo e aprimorado. As correções realizadas garantem que o conjunto de dados seja mais adequado para o treinamento de modelos de linguagem e a realização de experimentos científicos controlados.

Como Acessar o Conjunto de Dados Alpaca-Cleaned PT-BR

O conjunto de dados "Alpaca-Cleaned" pode ser acessado através do repositório no GitHub: https://github.com/gururise/AlpacaDataCleaned. O projeto foi disponibilizado sob a licença Creative Commons NonCommercial (CC BY-NC 4.0), o que permite seu uso não comercial, desde que devidamente citado.

A versão PT-BR pode ser acessada por:

from datasets import load_dataset
 
dataset = load_dataset("dominguesm/alpaca-data-pt-br")

Conclusão

O projeto "Alpaca-Cleaned" representa um avanço importante para o campo de treinamento de modelos de linguagem e demonstra o compromisso em aprimorar e corrigir conjuntos de dados para garantir uma base sólida para pesquisas futuras. Ao resolver questões críticas encontradas no conjunto de dados original, o "Alpaca-Cleaned" fornece um recurso valioso para a comunidade científica e incentiva estudos mais aprofundados e comparativos para melhorar o desempenho e a segurança de modelos de linguagem.