- Чем отличается задача классификации и регрессии
- Чем отличаются архитектуры сетей
- Чем отличается подготовка данных
- Чем отличаются loss функции и метрики
- Нормализация данных
Цель задачи регрессии — предсказать значение числовой переменной на основе значений одной или более переменной предикторов
(независимых переменных), которые могут быть либо числовыми, либо категориальными.
Примеры задач регрессии:
• предсказание зарплаты по резюме,
• оценка стоимости квартир,
• предсказание курса доллара США к рублю и т. д.
Классификация это разбиение множества объектов или наблюдений на априорно заданные группы, называемые классами, внутри каждой из которых они предполагаются похожими друг на друга, имеющими примерно одинаковые свойства и признаки. При этом решение получается на основе анализа значений атрибутов (признаков).
Примеры задач классификации:
• определение рукописных цифр,
• оценка заемщиков при выдачи кредита,
• типология личностей ) и т. д.
Главное отличие архитектур сетей для решения задач регрессии и классификации в выходном слое. Выходной слой для задач классификации имеет количество нейронов равное количеству классов. В случае двух классов можно использовать одни нейрон. В случае решения задачи регрессии в выходном слое нейросети 1 нейрон.
В качестве Y данных в задачах классификации используется принадлежность к классу, в задачах регрессии используется числовое значение.
Поскольку и сходные значения признаков могут изменяться в очень большом диапазоне и отличаться друг от друга на несколько порядков, то результат работы сети будет не совсем приемлемым, поэтому нужно привести эти данные к более рациональной форме. После нормализации все числовые значения входных признаков будут приведены к одинаковой области их изменения – некоторому узкому диапазону. Это позволит свести их в одной модели и обеспечит корректную работу вычислительных алгоритмов. Если данные оставить без нормирования, то их диапазон может быть [-∞, +∞]. Возможные функции активации (с таким диапазоном), которые мы можем использовать на выходном слое нашей модели — linear() и relu(), если значения находятся в интервале от 0 до +∞