Avaliação Automática do Nível de Complexidade de Textos em Português Europeu

A avaliação da inteligibilidade de textos e a sua classificação por níveis de complexidade é essencial para o ensino de língua e para indústrias relacionadas com a linguagem que dependem de uma comunicação eficaz. O Quadro Europeu Comum de Referência para as Línguas (CEFR) é uma referência amplamen...

Full description

Saved in:
Bibliographic Details
Main Authors: Eugénio Ribeiro, Nuno Mamede, Jorge Baptista
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2025-01-01
Series:Linguamática
Subjects:
Online Access:https://linguamatica.com/index.php/linguamatica/article/view/449
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1841560162566930432
author Eugénio Ribeiro
Nuno Mamede
Jorge Baptista
author_facet Eugénio Ribeiro
Nuno Mamede
Jorge Baptista
author_sort Eugénio Ribeiro
collection DOAJ
description A avaliação da inteligibilidade de textos e a sua classificação por níveis de complexidade é essencial para o ensino de língua e para indústrias relacionadas com a linguagem que dependem de uma comunicação eficaz. O Quadro Europeu Comum de Referência para as Línguas (CEFR) é uma referência amplamente reconhecida para a classificação dos níveis de proficiência linguística. Este quadro pode ser utilizado não apenas para avaliar a proficiência de aprendentes de uma língua, mas também, de uma perspetiva de inteligibilidade, como um meio de identificar a proficiência necessária para compreender um texto. O objetivo deste estudo é desenvolver e avaliar modelos automáticos capazes de classificar textos em português europeu de acordo com os níveis de complexidade definidos pelo CEFR. Para tal, exploramos o ajuste de vários modelos de base pré-treinados em dados textuais utilizados para fins de avaliação de proficiência e exploramos abordagens que tiram partido da natureza ordinal dos níveis. Realizamos ainda uma análise preliminar da capacidade de base que modelos baseados em instruções têm para desempenhar esta tarefa. Nas experiências, os melhores modelos conseguem atingir mais de 80% de taxa de acerto e 75% de medida F1 mas têm dificuldade em generalizar para diferentes tipos de texto, o que revela a necessidade de dados de treino adicionais e mais diversificados.
format Article
id doaj-art-0db575cfff10437098444118cced3e5a
institution Kabale University
issn 1647-0818
language Catalan
publishDate 2025-01-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj-art-0db575cfff10437098444118cced3e5a2025-01-04T22:24:39ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-01-01162Avaliação Automática do Nível de Complexidade de Textos em Português EuropeuEugénio Ribeiro0Nuno Mamede1Jorge Baptista2INESC-ID Lisboa / Instituto Universitário de Lisboa (ISCTE-IUL)INESC-ID Lisboa / Instituto Superior Técnico, Universidade de LisboaINESC-ID Lisboa / Faculdade de Ciências Humanas e Sociais, Universidade do Algarve A avaliação da inteligibilidade de textos e a sua classificação por níveis de complexidade é essencial para o ensino de língua e para indústrias relacionadas com a linguagem que dependem de uma comunicação eficaz. O Quadro Europeu Comum de Referência para as Línguas (CEFR) é uma referência amplamente reconhecida para a classificação dos níveis de proficiência linguística. Este quadro pode ser utilizado não apenas para avaliar a proficiência de aprendentes de uma língua, mas também, de uma perspetiva de inteligibilidade, como um meio de identificar a proficiência necessária para compreender um texto. O objetivo deste estudo é desenvolver e avaliar modelos automáticos capazes de classificar textos em português europeu de acordo com os níveis de complexidade definidos pelo CEFR. Para tal, exploramos o ajuste de vários modelos de base pré-treinados em dados textuais utilizados para fins de avaliação de proficiência e exploramos abordagens que tiram partido da natureza ordinal dos níveis. Realizamos ainda uma análise preliminar da capacidade de base que modelos baseados em instruções têm para desempenhar esta tarefa. Nas experiências, os melhores modelos conseguem atingir mais de 80% de taxa de acerto e 75% de medida F1 mas têm dificuldade em generalizar para diferentes tipos de texto, o que revela a necessidade de dados de treino adicionais e mais diversificados. https://linguamatica.com/index.php/linguamatica/article/view/449legibilidadecomplexidade textualportuguês europeu
spellingShingle Eugénio Ribeiro
Nuno Mamede
Jorge Baptista
Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
Linguamática
legibilidade
complexidade textual
português europeu
title Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
title_full Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
title_fullStr Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
title_full_unstemmed Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
title_short Avaliação Automática do Nível de Complexidade de Textos em Português Europeu
title_sort avaliacao automatica do nivel de complexidade de textos em portugues europeu
topic legibilidade
complexidade textual
português europeu
url https://linguamatica.com/index.php/linguamatica/article/view/449
work_keys_str_mv AT eugenioribeiro avaliacaoautomaticadoniveldecomplexidadedetextosemportugueseuropeu
AT nunomamede avaliacaoautomaticadoniveldecomplexidadedetextosemportugueseuropeu
AT jorgebaptista avaliacaoautomaticadoniveldecomplexidadedetextosemportugueseuropeu