Повышение репрезентативности обучающего набора данных за счет пространственной балансировки
В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансирова...
Saved in:
| Main Authors: | , , |
|---|---|
| Format: | Article |
| Language: | English |
| Published: |
Russian Academy of Sciences, St. Petersburg Federal Research Center
2025-08-01
|
| Series: | Информатика и автоматизация |
| Subjects: | |
| Online Access: | https://ia.spcras.ru/index.php/sp/article/view/16953 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1849233337114165248 |
|---|---|
| author | Alexandr Losev Illarion Popov Anastasia Reznikova |
| author_facet | Alexandr Losev Illarion Popov Anastasia Reznikova |
| author_sort | Alexandr Losev |
| collection | DOAJ |
| description | В работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта. |
| format | Article |
| id | doaj-art-8fc082a5c27f4f18be7d92db67c48e61 |
| institution | Kabale University |
| issn | 2713-3192 2713-3206 |
| language | English |
| publishDate | 2025-08-01 |
| publisher | Russian Academy of Sciences, St. Petersburg Federal Research Center |
| record_format | Article |
| series | Информатика и автоматизация |
| spelling | doaj-art-8fc082a5c27f4f18be7d92db67c48e612025-08-20T08:49:10ZengRussian Academy of Sciences, St. Petersburg Federal Research CenterИнформатика и автоматизация2713-31922713-32062025-08-012441114115610.15622/ia.24.4.516953Повышение репрезентативности обучающего набора данных за счет пространственной балансировкиAlexandr Losev0Illarion Popov1Anastasia Reznikova2Volgograd State UniversityVolgograd State UniversityVolgograd State UniversityВ работе исследуются некоторые проблемы машинного обучения, связанные с анализом данных малого объема. А именно, решается задача формирования обучающего набора, обладающего высокой репрезентативностью в задачах многоклассовой классификации. Известно, что межклассовая и внутриклассовая несбалансированность, свойственная малым наборам данных, негативно влияет на качество работы алгоритмов. С целью их устранения в машинном обучении разработаны некоторые методы синтеза данных, дополняющие имеющийся набор и уравнивающие количество объектов каждого из классов. Однако такие методы не всегда решают проблему недостаточной репрезентативности. В данной статье предлагается метод построения репрезентативного обучающего набора данных за счет задания распределения, в наибольшей степени соответствующего действительности. Распределение формируется по каждому признаку в пределах информативных областей. Информативные области содержат характерные значения признаков, наиболее значимые для различения классов объектов. Предложенный метод построения областей основан на идее поэтапного расширения, сопровождающегося ростом информативности областей. При этом под информативностью понимается мера, отражающая то, насколько хорошо с помощью рассматриваемой области можно разделить объекты различных классов. С целью формирования дополняющего набора данных разработан метод генерации. В результате его применения дополняющий набор данных объединяется с исходным и образует в информативной области указанное распределение. Это распределение может быть задано либо на основе экспертных знаний о предметной области, если известно истинное распределение, либо получено в результате вычислительных экспериментов, направленных на поиск наиболее эффективного варианта. Применимость метода продемонстрирована на примере решения задачи определения уровня температурных аномалий молочных желёз. Показано, что для рассматриваемых температурных признаков характерно нормальное распределение. Повышение репрезентативности обучающего набора позволило обучить классический алгоритм классификации – логистическую регрессию – с точностью, сопоставимой с многослойной нейронной сетью. Такой подход к формированию обучающего набора данных открывает возможность создания более прозрачных и интерпретируемых систем искусственного интеллекта.https://ia.spcras.ru/index.php/sp/article/view/16953машинное обучениемалые наборы данныхрепрезентативность данныхсинтез данныхнейронные сетилогистическая регрессия |
| spellingShingle | Alexandr Losev Illarion Popov Anastasia Reznikova Повышение репрезентативности обучающего набора данных за счет пространственной балансировки Информатика и автоматизация машинное обучение малые наборы данных репрезентативность данных синтез данных нейронные сети логистическая регрессия |
| title | Повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| title_full | Повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| title_fullStr | Повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| title_full_unstemmed | Повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| title_short | Повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| title_sort | повышение репрезентативности обучающего набора данных за счет пространственной балансировки |
| topic | машинное обучение малые наборы данных репрезентативность данных синтез данных нейронные сети логистическая регрессия |
| url | https://ia.spcras.ru/index.php/sp/article/view/16953 |
| work_keys_str_mv | AT alexandrlosev povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki AT illarionpopov povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki AT anastasiareznikova povyšeniereprezentativnostiobučaûŝegonaboradannyhzasčetprostranstvennojbalansirovki |