Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus Uly...
Saved in:
Main Authors: | , , , |
---|---|
Format: | Article |
Language: | Catalan |
Published: |
Universidade do Minho & Universidade de Vigo
2025-01-01
|
Series: | Linguamática |
Subjects: | |
Online Access: | https://linguamatica.com/index.php/linguamatica/article/view/450 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1841550843001700352 |
---|---|
author | Rafael Oleques Nunes André Susliz Spritzer Carla Maria Dal Sasso Freitas Dennis Giovani Balreira |
author_facet | Rafael Oleques Nunes André Susliz Spritzer Carla Maria Dal Sasso Freitas Dennis Giovani Balreira |
author_sort | Rafael Oleques Nunes |
collection | DOAJ |
description |
Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.
|
format | Article |
id | doaj-art-5f5335bddc054d8090c9552705a59254 |
institution | Kabale University |
issn | 1647-0818 |
language | Catalan |
publishDate | 2025-01-01 |
publisher | Universidade do Minho & Universidade de Vigo |
record_format | Article |
series | Linguamática |
spelling | doaj-art-5f5335bddc054d8090c9552705a592542025-01-09T22:32:17ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-01-01162Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos LegislativosRafael Oleques Nunes0André Susliz SpritzerCarla Maria Dal Sasso FreitasDennis Giovani BalreiraUFRGS Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds. https://linguamatica.com/index.php/linguamatica/article/view/450Vazamento de DadosReconhecimento de Entidades NomeadasTextos LegislativosBenchmarkAutoaprendizadoPortuguês |
spellingShingle | Rafael Oleques Nunes André Susliz Spritzer Carla Maria Dal Sasso Freitas Dennis Giovani Balreira Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos Linguamática Vazamento de Dados Reconhecimento de Entidades Nomeadas Textos Legislativos Benchmark Autoaprendizado Português |
title | Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos |
title_full | Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos |
title_fullStr | Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos |
title_full_unstemmed | Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos |
title_short | Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos |
title_sort | reconhecimento de entidades nomeadas e vazamento de dados em textos legislativos |
topic | Vazamento de Dados Reconhecimento de Entidades Nomeadas Textos Legislativos Benchmark Autoaprendizado Português |
url | https://linguamatica.com/index.php/linguamatica/article/view/450 |
work_keys_str_mv | AT rafaelolequesnunes reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos AT andresuslizspritzer reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos AT carlamariadalsassofreitas reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos AT dennisgiovanibalreira reconhecimentodeentidadesnomeadasevazamentodedadosemtextoslegislativos |