В машинном обучении: знать, когда что использовать

В математике регрессия — это статистический инструмент, который помогает определить изменение неизвестного значения в результате изменения известных значений. Неизвестная переменная обычно помечается как зависимая переменная и обозначается как Y, а известная переменная (может быть одна или несколько) известна как независимая переменная и обозначается как X.

Наиболее распространенным типом регрессии, о котором все знают, является линейная регрессия. Если вы знаете эту формулу:

y= mx+b

Тогда вы знакомы с линейной регрессией. Существует еще одна форма линейной регрессии, известная как полилинейная регрессия, в которой имеется более одной независимой переменной, которая может повлиять на вашу зависимую переменную. Тем не менее, базовая основа та же, и она по-прежнему использует ту же математику, что и линейная регрессия.

В реальной жизни и в алгоритме машинного обучения мы используем линейную регрессию, чтобы предсказать вероятность того, что что-то произойдет. Линейная регрессия особенно полезна при работе с финансовыми данными, поскольку вы можете использовать более сложные формы линейной регрессии для прогнозирования волатильности акций (используя комбинацию анализа/прогнозирования временных рядов с моделированием SVD).

В линейной регрессии результат всегда представляет собой непрерывный прогноз. Например, учитывая то, что вы едите ежедневно, ваши привычки к физическим упражнениям и прошлые изменения веса, мы можем использовать линейную регрессию, чтобы предсказать возможные изменения вашего веса в будущем. Если число конечного результата отрицательное, оно имеет отрицательную корреляцию, что означает, что вы, вероятно, похудеете в будущем. Если число положительное, то оно положительно коррелировано, и верно обратное.

Второй тип регрессии — логистическая регрессия. В машинном обучении мы используем логистическую регрессию, чтобы классифицировать объекты/элементы. Если мы хотим предсказать, что апельсин относится к фруктам или овощам (я знаю, глупый пример), мы будем использовать логистическую регрессию. Он сравнивает, насколько объект похож на имеющиеся данные, и решает, в какую категорию его поместить.

Формула логистической регрессии выглядит так:

Y = e^X + e^-X

Буква e означает натуральный логарифм, та же самая кнопка, которую можно найти в научном калькуляторе. Мы находим линию регрессии — линию классификации — взяв натуральный логарифм нашей независимой переменной (именно так мы получаем график, как показано выше). Эта кривая линия определяет границу разделения. Логистическая регрессия чрезвычайно полезна, когда мы имеем дело с неразмеченными данными. Мы можем использовать неконтролируемое обучение, такое как кластеризация (сложная версия логистической регрессии) или SVM (в основном кластеризация, но со сложными гиперпараметрами), чтобы определить группировку данных. После того, как данные были сгруппированы и помечены, мы можем использовать эти данные для прогнозирования будущих объектов с аналогичными свойствами или, при необходимости, запускать линейную регрессию на уже структурированных данных, если нам нужно предсказать некоторый непрерывный результат.

Хороший способ вспомнить, какую модель использовать, — это посмотреть, что вы пытаетесь предсказать. Если ваш результат представляет собой простой ответ, например принадлежит ли он этой группе или что это за объект, скорее всего, это логистическая регрессия. Но если ваш результат отвечает что-то вроде сколько из этого я должен купить или когда лучше уйти, чтобы избежать пробок, вы, скорее всего, используйте линейную регрессию.