Разбиение выборки

Запишетесь на полный курс Машинного обучения на Python по адресу [email protected] Разбиение всех данных (исходной выборки) делается для оценки качества работы модели на независимых данных. Поскольку обычно таких данных нет, их выделяют из основной массы - разделяют выборку на обучающую и проверочную части. На обучающей обучают (строят) модель машинного обучения, на проверочной - проверяют качество (выбранную метрику) работы этой модели. Обычно данные делят в соотношении 60/40, 80/20 или 85/15. Такие пропорции выбраны для минимизации ошибки как первого, так и второго рода. Проверочная выборка нужна для оценки качества работы разных моделей друг относительно друга. Для оптимизации гиперпараметров одной модели используют перекрестную валидацию. Перекрестная валидация Для оптимизации гиперпараметров модели (параметров самой функции, которая выбрана моделью) используют дополнительное разбиение обучающей выборки на несколько (обычно 5) частей - так называемая перекрестная валидация на k-частях. Затем модель обучают k раз, каждый раз "вырезая" из обучающей выборки какую-то часть - и проверяя точность модели на оставшейся части данных. В итоге, получают эффективность работы модели для данного значения гиперпараметра. При этом проверка происходит на всех обучающих данных. После нахождения оптимальных гиперпараметров проверяют их итоговую точность уже на проверочной выборке. Валидация эпох При обучении нейросетей на каждой эпохе обучения также обучающую выборку часто делят случайным образом на 2 части - обучающую и валидационную. Это необходимо для оценки переобучения нейросети (т.е. насколько нейросеть подгоняется под данные вместо выявления характерных особенностей). Если по валидационной оценке эпохи точность модели не улучается, то обучение останавливают.

Оптимизация гиперпараметров модели

Оптимизация гиперпараметров модели

Повар столовой обо всех секретах своей работы

Повар столовой обо всех секретах своей работы

DentaQuest Breach Exposes 2.6 Million — and Why "Confident" Small Businesses Keep Getting Hit

DentaQuest Breach Exposes 2.6 Million — and Why "Confident" Small Businesses Keep Getting Hit

ML Foundations for AI Engineers (in 34 Minutes)

ML Foundations for AI Engineers (in 34 Minutes)

Bias, scatter, and data error

Bias, scatter, and data error

Анализ временных рядов

Анализ временных рядов

Лекция 1, Психология и философия, Петухов В.В.

Лекция 1, Психология и философия, Петухов В.В.

Nervous System Regulation (999 Hz) | 1 hour handpan music | Malte Marten

Nervous System Regulation (999 Hz) | 1 hour handpan music | Malte Marten

Machine learning tasks

Machine learning tasks

n8n Course for Beginners – Build Complex Workflows & Master AI Integration

n8n Course for Beginners – Build Complex Workflows & Master AI Integration

Почему вы НЕ МОЖЕТЕ выучить язык? (неудобная ПРАВДА)

Почему вы НЕ МОЖЕТЕ выучить язык? (неудобная ПРАВДА)

Техноимперия Китая: Мы Уже Проиграли? (Это Пугает) @megaprojekty

Техноимперия Китая: Мы Уже Проиграли? (Это Пугает) @megaprojekty

Авторегрессия

Авторегрессия

Дрейф данных

Дрейф данных

Power BI Data Modeling Crash Course Learn Fast and Build Smarter Models! Full Course

Power BI Data Modeling Crash Course Learn Fast and Build Smarter Models! Full Course

Если у тебя есть эти 4 ПРИВЫЧЕК, у тебя может быть НИЗКИЙ УРОВЕНЬ ИНТЕЛЛЕКТА | Татьяна Черниговская

Если у тебя есть эти 4 ПРИВЫЧЕК, у тебя может быть НИЗКИЙ УРОВЕНЬ ИНТЕЛЛЕКТА | Татьяна Черниговская

Italian Deep House 2026 | Riviera Night Escape

Italian Deep House 2026 | Riviera Night Escape

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Visualizing transformers and attention | Talk for TNG Big Tech Day '24

Метод экспоненциального сглаживания

Метод экспоненциального сглаживания