Повышение репрезентативности обучающего набора данных за счет пространственной балансировки

В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансирова...

Full description

Saved in:
Bibliographic Details
Main Authors: Alexandr Losev, Illarion Popov, Anastasia Reznikova
Format: Article
Language:English
Published: Russian Academy of Sciences, St. Petersburg Federal Research Center 2025-08-01
Series:Информатика и автоматизация
Subjects:
Online Access:https://ia.spcras.ru/index.php/sp/article/view/16953
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1849233337114165248
author Alexandr Losev
Illarion Popov
Anastasia Reznikova
author_facet Alexandr Losev
Illarion Popov
Anastasia Reznikova
author_sort Alexandr Losev
collection DOAJ
description В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.
format Article
id doaj-art-8fc082a5c27f4f18be7d92db67c48e61
institution Kabale University
issn 2713-3192
2713-3206
language English
publishDate 2025-08-01
publisher Russian Academy of Sciences, St. Petersburg Federal Research Center
record_format Article
series Информатика и автоматизация
spelling doaj-art-8fc082a5c27f4f18be7d92db67c48e612025-08-20T08:49:10ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062025-08-012441114115610.15622/ia.24.4.516953Повышение репрезентативности обучающего набора данных за счет пространственной балансировкиAlexandr Losev0Illarion Popov1Anastasia Reznikova2Volgograd State UniversityVolgograd State UniversityVolgograd State UniversityВ работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.https://ia.spcras.ru/index.php/sp/article/view/16953машинное обучениемалые наборы данныхрепрезентативность данныхсинтез данныхнейронные сетилогистическая регрессия
spellingShingle Alexandr Losev
Illarion Popov
Anastasia Reznikova
Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
Информатика и автоматизация
машинное обучение
малые наборы данных
репрезентативность данных
синтез данных
нейронные сети
логистическая регрессия
title Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
title_full Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
title_fullStr Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
title_full_unstemmed Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
title_short Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
title_sort повышение репрезентативности обучающего набора данных за счет пространственной балансировки
topic машинное обучение
малые наборы данных
репрезентативность данных
синтез данных
нейронные сети
логистическая регрессия
url https://ia.spcras.ru/index.php/sp/article/view/16953
work_keys_str_mv AT alexandrlosev povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki
AT illarionpopov povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki
AT anastasiareznikova povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki