Регрессивный анализ

RASeries#3 — Регрессия

Регресс?

Как только мы определим, что между X и Y существует значительная линейная зависимость, для представления этой линейной зависимости с помощью математического уравнения мы воспользуемся РЕГРЕССИОННЫМ АНАЛИЗОМ.

Это цель использования 3-го метода.

Помните два других метода, которые мы обсуждали ранее?

Не можете вспомнить? Не волнуйся, я тебя понял. Вы всегда можете обратиться к RASeries#1 и освежить память.

Итак, мы собираемся использовать регрессионный анализ, чтобы определить математическое уравнение, представляющее линейную зависимость между X и Y.

Процесс поиска математического уравнения, которое лучше всего соответствует зашумленным данным, называется регрессионным анализом.

  • В этой статье обсуждаются только модели простой линейной регрессии.
  • Основное использование регрессионной модели - прогнозирование.

Простая модель линейной регрессии

  • Это определено для данных о населении.
  • α — y Перехват
  • β — Коэффициент регрессии (наклон)
  • ε — Случайная ошибка

Если мы просто забудем о случайной ошибке в этом уравнении, это уравнение будет иметь вид y = mx + c

  • y = mx + c - это форма уравнения для линии.
  • α - точка пересечения с осью y (c)
  • β - m (градиент)

Поскольку мы получаем эту регрессионную модель с некоторой частью ошибки, чтобы представить эту часть ошибки для этого уравнения, мы добавляем к уравнению случайную ошибку.

  • Случайная ошибка = фактическое наблюдение — предсказанное наблюдение

Пример: случайная ошибка = y — ŷ (Y шляпа)

α и β в регрессионной модели являются характеристиками популяции, которые невозможно измерить сразу.

Поэтому их следует оценивать, используя выборочные данные.

Расчетная регрессионная модель будет выглядеть следующим образом.

Вот как мы собираемся представить модель регрессии для выборочного набора данных.

α и β мы собираемся получить, используя образец набора данных.

Поэтому значения α и β не будут истинными значениями в вашей модели населения.

Помните, что в предыдущем уравнении мы представили α и β как истинные значения.

Но в этом уравнении значения не будут одинаковыми.

Здесь эти значения будут оценочными значениями и будут называться шляпа α и шляпа β (шляпа — это то, что вы видите как ^)

И здесь мы не добавляем в уравнение случайную ошибку. Мы собираемся вычислить его. Но не ставьте это уравнение здесь.

Как только вы узнаете шляпу α и шляпу β, вы можете записать уравнение для этой линии.

  • Мы оценили это, используя выборочный набор данных.
  • β – коэффициент регрессии.
  • Это самая важная часть в нашем уравнении (наклон).
  • Поскольку мы оцениваем это с использованием выборочного набора данных, определенно это значение не будет точно таким же, как истинное значение параметра для β.
  • Поэтому, как и в случае с корреляцией, здесь вам также необходимо проверить, действительно ли это значение значимо для данных о населении.
  • Для этого снова проводим проверку гипотез.

  • Как только мы вычислим шляпу β, мы можем вычислить шляпу α.
  • «b» — оценочное значение для шляпы β.

Не беспокойтесь, нет необходимости вычислять эти значения вручную.

Мы можем просто ввести набор данных в калькулятор.

Калькулятор даст вам корреляцию и коэффициенты регрессии (α, β)

Значение коэффициента регрессии

Можно провести проверку гипотезы, чтобы определить, действительно ли истинный наклон (β) равен нулю (это то же самое, что и проверка значимости регрессионной модели).

Таблица ANOVA используется для оценки статистики этого теста.

Таблица ANOVA — Дисперсионный анализ

  • ошибка/остаток означают одно и то же.
  • Эта сумма всегда является суммой первых двух строк.
  • Примечание. Если дана df регрессионной модели (1) и дана общая сумма (n-1); мы должны быть в состоянии получить df модели Error. То есть n-1–1 = n-2
  • SSR — Сумма квадратов для модели регрессии
  • SSE — Сумма квадратов для модели ошибок
  • SST — сумма квадратов для итога
  • Для модели регрессии степень свободы всегда будет равна 1. Это потому, что здесь мы обсуждаем только простую модель линейной регрессии. Таким образом, для простой модели линейной регрессии df = 1.
  • n - размер выборки
  • MSS = столбец SS / df

F Statistic – это тестовая статистика.

  • Мы разрабатываем таблицу ANOVA, чтобы получить это значение.
  • F-статистика будет иметь F-распределение с числителем df, равным 1, и знаменателем df, равным (n-2).
  • F¹n-2

F-распределение — это еще один тип распределения, который у нас есть.

  • для этого у нас есть 2 параметра.
  • числитель df и знаменатель df
  • Статистика F ~ Распределение F

Дополнительный :

  • Обычно, когда мы проводим тест, мы получаем заключение, сравнивая статистическое значение теста с критическим значением.
  • Критическое значение, его нужно получить из F-таблицы.
  • Для нашего уровня мы не используем это.
  • Поэтому мы не будем сравнивать статистику F с критическим значением.
  • Вместо этого мы собираемся использовать «подход P-ценности».
  • Это означает, что при проверке гипотезы, когда мы проверяем среднее значение совокупности, когда вы получаете вывод, вместо сравнения статистического значения теста с критическим значением вы можете использовать подход P-значения.
  • Значение P означает значение вероятности.
  • Мы собираемся сравнить это значение P с уровнем значимости (уровень α).
  1. Если значение P ‹ уровень значимости; Отклонить Н₀
  • Отказ от H₀ означает, что мы собираемся сказать, что β не равно 0.
  • Это означает, что регрессионная модель значима.
  • что означает, что существует линейная зависимость между X и Y

2. Если значение P › уровень значимости ; Не отвергайте H₀

  • Не отвергать H₀ означает, что мы собираемся сказать, что β равно 0.
  • Это означает, что регрессионная модель не имеет значения.
  • Это означает, что между X и Y нет линейной зависимости.

  • ŷᵢ – прогнозируемое значение для y
  • ȳ означает среднее значение фактического наблюдения y
  • yᵢ — фактическое наблюдение y. («Какого черта ! , То же самое знаете !» нет, нет, внимательно наблюдайте, есть разница между 1-м пунктом и этим, мой друг.😅)

Коэффициент детерминации (R²)

Один из способов измерить силу связи между переменной отклика (y) и переменной-предиктором (x) заключается в вычислении коэффициента детерминации.

Это относится к доле общей вариации, которая объясняется линейной регрессией y на x. Другими словами, 𝑅2 — это процент изменения Y, объясняемый переменной X в подобранной модели.

  • мы собираемся дать это значение в процентах (%).
  • Вот почему мы умножаем это на 100.
  • Значения SSR и SST можно получить из таблицы ANOVA.
  • Обычно, если подобранная модель является хорошей моделью, R² будет очень высоким. (90%,80%)
  • Если R² очень низкий, это означает, что подогнанная модель не подходит.

Ex: R² = 80 %

  • Это означает, что 80% вариаций y объясняются переменной x в подобранной модели.

Поскольку мы обсуждаем только простую модель линейной регрессии,

  • R² = (корреляция)² ИЛИ R²= r²
  • Это действительно только для простой модели линейной регрессии.
  • r² вы получите десятичное значение. Чтобы получить его в процентах (%), умножьте это значение на 100.

Регрессионные предположения

Модель линейна по параметрам

  • E(ε𝑖) = 0 (среднее значение остатков равно нулю)
  • V (ε𝑖) = σ² (дисперсия остатков постоянна)
  • Остатки (ε𝑖) нормально распределены.
  • Остатки (ε𝑖) независимы.

Помните, что ни корреляция, ни регрессия не предполагают причинно-следственной связи между переменными.

На этом мы подошли к концу RASeries. ✅

Надеюсь, вы узнали что-то новое и развеяли свои сомнения.

До новых встреч.❤️

Выражаем благодарность г-же К.Г.М. Лакмали, лектору кафедры математики и статистики факультета гуманитарных и естественных наук SLIIT за исчерпывающие пояснения по регрессионному анализу.