Modelo de Linguagem para o Domínio Jurídico em Português

O projeto legal-bert-base-cased-ptbr, é um Modelo de Linguagem para o Domínio Jurídico em Português baseado no modelo BERTimbau base, utilizando a técnica de preenchimento de máscara (fill-mask). O objetivo desse modelo é auxiliar pesquisas em Processamento de Linguagem Natural (PLN) na área jurídica, direito da computação e aplicações de tecnologia jurídica.

Corpora de Pré-Treinamento

O legal-bert-base-cased-ptbr foi pré-treinado utilizando diversos corpora de textos jurídicos em português. Esses corpora incluem:

61309 - Documentos jurídicos diversos
751 - Petições (Recurso Extraordinário JEC)
682 - Sentenças
498 - Acórdãos 2ª Instância
469 - Agravos Recurso Extraordinário (RE)
411 - Despachos de Admissibilidade

Os dados utilizados foram fornecidos pelo SUPREMO TRIBUNAL FEDERAL BRASILEIRO, conforme os termos de uso em LREC 2020. É importante ressaltar que os resultados desse projeto não implicam de forma alguma a posição do SUPREMO TRIBUNAL FEDERAL BRASILEIRO, sendo de responsabilidade exclusiva do autor do modelo.

Uso do Modelo

O legal-bert-base-cased-ptbr pode ser carregado utilizando a biblioteca Hugging Face Transformers. Abaixo, exemplos de como carregar o modelo utilizando um tokenizer e o modelo diretamente, ou através de um pipeline específico para preenchimento de máscara.

from transformers import AutoTokenizer, AutoModel
 
tokenizer = AutoTokenizer.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")
model = AutoModel.from_pretrained("dominguesm/legal-bert-base-cased-ptbr")
 
# OU
 
from transformers import pipeline
 
fill_mask_pipeline = pipeline('fill-mask', model="dominguesm/legal-bert-base-cased-ptbr")

Exemplos de Uso

Alguns exemplos do resultado do modelo para a tarefa de preenchimento de máscara:

Text	Masked token	Predictions
De ordem, a Secretaria Judiciária do Supremo Tribunal Federal INTIMA a parte abaixo identificada, ou quem as suas vezes fizer, do inteiro teor do(a) despacho/decisão presente nos autos (art. 270 do Código de Processo `[MASK]` e art 5º da Lei 11.419/2006).	Civil	('Civil', 0.9999), ('civil', 0.0001), ('Penal', 0.0000), ('eletrônico', 0.0000), ('2015', 0.0000)
2. INTIMAÇÃO da Autarquia: 2.2 Para que apresente em Juízo, com a contestação, cópia do processo administrativo referente ao benefício `[MASK]` em discussão na lide	previdenciário	('ora', 0.9424), ('administrativo', 0.0202), ('doença', 0.0117), ('acidente', 0.0037), ('posto', 0.0036)
Certifico que, nesta data, os presentes autos foram remetidos ao `[MASK]` para processar e julgar recurso (Agravo de Instrumento).	STF	('Tribunal', 0.4278), ('Supremo', 0.1657), ('origem', 0.1538), ('arquivo', 0.1415), ('sistema', 0.0216)
TEMA: 810. Validade da correção monetária e dos juros moratórios `[MASK]` sobre as condenações impostas à Fazenda Pública, conforme previstos no art. 1º-F da Lei 9.494/1997, com a redação dada pela Lei 11.960/2009.	incidentes	('incidentes', 0.9979), ('incidente', 0.0021), ('aplicados', 0.0000), (',', 0.0000), ('aplicada', 0.0000)

Resultados de Treinamento

O modelo foi treinado em um total de 353.435 exemplos por 3 épocas, com um tamanho de lote (batch size) de 32 e acúmulo de gradientes. Os resultados de treinamento e avaliação são os seguintes:

Resultados de Treinamento:

Epoch: 3.0
Perda de Treinamento: 0.6107781137512769
Tempo de Treinamento: 10192.1545 segundos
Exemplos de Treinamento: 353435
Exemplos de Treinamento por Segundo: 104.031
Passos de Treinamento por Segundo: 3.251

Resultados de Avaliação:

Epoch: 3.0
Perda de Avaliação: 0.47251805663108826
Tempo de Avaliação: 126.3026 segundos
Exemplos de Avaliação: 17878
Exemplos de Avaliação por Segundo: 141.549
Passos de Avaliação por Segundo: 4.426
Perplexidade: 1.604028145934512

Citação

Se você utilizar o legal-bert-base-cased-ptbr em suas pesquisas ou projetos, por favor, cite o projeto conforme a seguinte referência:

@misc{domingues2022legal-bert-base-cased-ptbr,
    author = {Domingues, Maicon},
    title = {Language Model in the legal domain in Portuguese},
    year={2022},
    howpublished= {\url{https://huggingface.co/dominguesm/legal-bert-base-cased-ptbr/}}
}