Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos

Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus Uly...

Full description

Saved in:
Bibliographic Details
Main Authors: Rafael Oleques Nunes, André Susliz Spritzer, Carla Maria Dal Sasso Freitas, Dennis Giovani Balreira
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2025-01-01
Series:Linguamática
Subjects:
Online Access:https://linguamatica.com/index.php/linguamatica/article/view/450
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1841550843001700352
author Rafael Oleques Nunes
André Susliz Spritzer
Carla Maria Dal Sasso Freitas
Dennis Giovani Balreira
author_facet Rafael Oleques Nunes
André Susliz Spritzer
Carla Maria Dal Sasso Freitas
Dennis Giovani Balreira
author_sort Rafael Oleques Nunes
collection DOAJ
description Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.
format Article
id doaj-art-5f5335bddc054d8090c9552705a59254
institution Kabale University
issn 1647-0818
language Catalan
publishDate 2025-01-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj-art-5f5335bddc054d8090c9552705a592542025-01-09T22:32:17ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-01-01162Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos LegislativosRafael Oleques Nunes0André Susliz SpritzerCarla Maria Dal Sasso FreitasDennis Giovani BalreiraUFRGS Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds. https://linguamatica.com/index.php/linguamatica/article/view/450Vazamento de DadosReconhecimento de Entidades NomeadasTextos LegislativosBenchmarkAutoaprendizadoPortuguês
spellingShingle Rafael Oleques Nunes
André Susliz Spritzer
Carla Maria Dal Sasso Freitas
Dennis Giovani Balreira
Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
Linguamática
Vazamento de Dados
Reconhecimento de Entidades Nomeadas
Textos Legislativos
Benchmark
Autoaprendizado
Português
title Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
title_full Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
title_fullStr Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
title_full_unstemmed Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
title_short Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
title_sort reconhecimento de entidades nomeadas e vazamento de dados em textos legislativos
topic Vazamento de Dados
Reconhecimento de Entidades Nomeadas
Textos Legislativos
Benchmark
Autoaprendizado
Português
url https://linguamatica.com/index.php/linguamatica/article/view/450
work_keys_str_mv AT rafaelolequesnunes reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos
AT andresuslizspritzer reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos
AT carlamariadalsassofreitas reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos
AT dennisgiovanibalreira reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos