Лекция 9 — презентация
logo
Лекция 9
  • Лекция 9
  • 1. Основы корреляционного и регрессионного анализа.
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Последовательность этапов регрессионного анализа
  • 2. Линейные и нелинейные регрессии.
  • Линейная регрессия
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Пример определения линейной регрессии
  • Нелинейная регрессия
  • 3. Реализация регрессионного анализа.
  • Лекция 9
  • Метод наименьших квадратов
  • Лекция 9
  • Лекция 9
  • Лекция 9
  • Определение коэффициента детерминации
  • Лекция 9
  • Определение F критерия Фишера
  • Определение ошибки аппроксимации
  • Лекция 9
  • Определение t- критерия
  • Определение границ доверительных интервалов
  • Результаты регрессионного анализа, полученные с помощью MS Excel
  • Оценка коэффициентов регрессии
  • 4. Реализация корреляционного анализа.
  • Определение коэффициента корреляции
  • Проверка значимости коэффициента корреляции.
  • Вычисление уровня значимости коэффициента корреляции
1/35

Первый слайд презентации: Лекция 9

Корреляционный и регрессионный анализ 1 1

Изображение слайда

Корреляция  — статистическая взаимосвязь двух или более случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). Корреляционный анализ  — метод обработки статистических данных, с помощью которого измеряется теснота связи между двумя или более переменными. Ограничения корреляционного анализа: 1) Применение возможно при наличии достаточного количества наблюдений для изучения. На практике считается, что число наблюдений должно не менее чем в 5­6 раз превышать число факторов. 2) Необходимо, чтобы совокупность значений всех факторных и результативного признаков подчинялась многомерному нормальному распределению. Исходная совокупность значений должна быть качественно однородной. Сам по себе факт корреляционной зависимости не даёт основания утверждать, что одна из переменных предшествует или является причиной изменений, или то, что переменные вообще причинно связаны между собой, а не наблюдается действие третьего фактора. 2 2

Изображение слайда

Слайд 3

Регрессия   – зависимость среднего значения какой-либо случайной величины от некоторой другой величины или нескольких величин. Регрессионный анализ  – раздел математической статистики, объединяющий практические методы исследования регрессионной зависимости между величинами по данным статистических наблюдений. 3

Изображение слайда

Слайд 4

Задача корреляционного анализа – определение тесноты и направления связи между изучаемыми величинами. В ходе регрессионного анализа определяется аналитическое выражение связи зависимой случайной величины Y (результативный признак) с независимыми случайными величинами Х1, Х2, …Х m ( факторами). Практически речь идёт о том, чтобы, анализируя множество точек на графике (т.е. множество статистических данных), найти линию, по возможности точно отражающую заключённую в этом множестве закономерность, тенденцию –  линию регрессии. 4

Изображение слайда

Слайд 5

Уравнение регрессии - это форма связи результативного признака Y с факторами Х1, Х2, …Х m. В зависимости от типа выбранного уравнения различают линейную и нелинейную (квадратичную, экспоненциальную, логарифмическую и т.д.) регрессию. В зависимости от числа взаимосвязанных признаков различают парную и множественную регрессию. Парная – исследуется связь между двумя признаками (результативным и факторным). Множественная (многофакторная) – между тремя признаками (результативным и несколькими факторными). 5

Изображение слайда

1) Формулировка задачи. На этом этапе формируются предварительные гипотезы о зависимости исследуемых явлений. 2) Определение зависимых и независимых (объясняющих) переменных. 3) Сбор статистических данных. Данные должны быть собраны для каждой из переменных, включенных в регрессионную модель. 4) Формулировка гипотезы о форме связи (парная или множественная, линейная или нелинейная). 5) Определение  функции регрессии  (заключается в расчете численных значений параметров уравнения регрессии) 6) Оценка точности регрессионного анализа. 7) Интерпретация полученных результатов. Полученные результаты регрессионного анализа сравниваются с предварительными гипотезами. Оценивается корректность и правдоподобие полученных результатов. 8) Предсказание неизвестных значений зависимой переменной. 6

Изображение слайда

Рисунок 1 – Линейная регрессия Рисунок 2 – Нелинейная регрессия 7

Изображение слайда

При моделировании технологических процессов во многих случаях связь между входными ( x ) и выходными ( y ) параметрами можно аппроксимировать линейным полиномом (зависимостью) Для получения вида математической модели необходимо определить коэффициенты уравнения регрессии b 0 и b 1. Для этого применяется метод наименьших квадратов. 8

Изображение слайда

Слайд 9

Изображение слайда

Слайд 10

Изображение слайда

Слайд 11

Изображение слайда

Слайд 12

Изображение слайда

Слайд 13

Изображение слайда

Слайд 14

Изображение слайда

Слайд 15: Пример определения линейной регрессии

X i Y i X i 2 X i Y i Y i - Y ср ( Y i - Y ср ) 2 Функция Значе-ния 1 30 2 7 3 8 4 1 Сумма 10 46 15

Изображение слайда

Слайд 16: Нелинейная регрессия

Полиномиальная Гиперболическая Степенная Показательная Экспоненциаль а ня 16

Изображение слайда

Слайд 17: 3. Реализация регрессионного анализа

Уравнение множественной линейной регрессии где – теоретические значения результативного признака, полученные путем подстановки соответствующих значений факторных признаков в уравнение регрессии; – значения факторных признаков; – параметры уравнения (коэффициенты регрессии). 17

Изображение слайда

Слайд 18

Рисунок - Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки. 18

Изображение слайда

Слайд 19: Метод наименьших квадратов

Параметры уравнения регрессии могут быть определены с помощью метода наименьших квадратов, который используется в пакете анализа данных «Регрессия» ( MS Excel ): находятся параметры модели, при которых минимизируется сумма квадратов отклонений эмпирических (фактических) значений результативного признака от теоретических, полученных по выбранному уравнению регрессии, т.е. 19

Изображение слайда

Слайд 20

Рассматривая S в качестве функции параметров и проводя математические преобразования (дифференцирование), получаем систему нормальных уравнений с m неизвестными (по числу параметров ). Здесь n – число наблюдений, m – число факторов в уравнении регрессии. Решение системы позволяет получить значения параметров регрессии. 20

Изображение слайда

Слайд 21

Для определения величины степени стохастической взаимосвязи результативного признака Y и факторов Х необходимо знать следующие дисперсии: общую дисперсию результативного признака Y, отображающую влияние как основных, так и остаточных факторов: где - среднее значение результативного признака Y. 21

Изображение слайда

Слайд 22

факторную дисперсию результативного признака Y, отображающую влияние только основных факторов остаточную дисперсию результативного признака Y, отображающую влияние только остаточных факторов При корреляционной связи результативного признака и факторов выполняется соотношение при этом 22

Изображение слайда

Слайд 23: Определение коэффициента детерминации

Для анализа общего качества уравнения линейной многофакторной регрессии используют множественный коэффициент детерминации, называемый также квадратом коэффициента множественной корреляции R и определяет долю вариации результативного признака, обусловленную изменением факторных признаков, входящих в многофакторную регрессионную модель. 23

Изображение слайда

Слайд 24

Величина  R-квадрат, называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала [0;1]. В большинстве случаев значение  R-квадрат  находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей. Если значение  R-квадрата  близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение  R-квадрата, близкое к нулю, означает плохое качество построенной модели. Множественный R   - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных ( X ) и зависимой переменной ( Y ). Множественный R  равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы. В простом линейном регрессионном анализе  множественный R  равен коэффициенту корреляции Пирсона. 24

Изображение слайда

Слайд 25: Определение F критерия Фишера

Так как в большинстве случаев уравнение регрессии приходится строить на основе выборочных данных, то возникает вопрос об адекватности построенного уравнения данным генеральной совокупности. Для этого проводится проверка статистической значимости коэффициента детерминации на основе F -критерия Фишера: где n – число наблюдений; m – число факторов в уравнении регрессии. Если в уравнении регрессии свободный член 0, то числитель n-m -1 следует увеличить на 1, т.е. он будет равен n-m. 25

Изображение слайда

Слайд 26: Определение ошибки аппроксимации

Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации 26

Изображение слайда

Слайд 27

Возможна ситуация, когда часть вычисленных коэффициентов регрессии не обладает необходимой степенью значимости, т.е. значения данных коэффициентов будут меньше их стандартной ошибки. В этом случае такие коэффициенты должны быть исключены из уравнения регрессии. Поэтому проверка адекватности построенного уравнения регрессии наряду с проверкой значимости коэффициента детерминации включает также и проверку значимости каждого коэффициента регрессии. 27

Изображение слайда

Слайд 28: Определение t- критерия

Для оценки адекватности уравнения регрессии часто также используют показатель средней ошибки аппроксимации где - стандартное значение ошибки для коэффициента регрессии В математической статистике доказывается, что если гипотеза выполняется, то величина t имеет распределение Стьюдента с k=n-m -1 числом степеней свободы, т.е. Гипотеза о незначимости коэффициента регрессии отвергается, если 28

Изображение слайда

Слайд 29: Определение границ доверительных интервалов

Зная значение можно найти границы доверительных интервалов для коэффициентов регрессии 29

Изображение слайда

Слайд 30: Результаты регрессионного анализа, полученные с помощью MS Excel

30 Число степеней свободы Число факторных признаков к ф = m Определяется числом наблюдений и количеством переменных в уравнении к о = n-(m+1) Сумма квадратов отклонений (СКО) СКО теоретических данных от среднего СКО эмпирических данных от теоретических Дисперсии: факторная; остаточная. Расчетное значение критерия Фишера: должен быть в интервале( F кр ;+ ∞), определяется в Excel = F РАСПОБР(0,05;к п ;к о ) Уровень значимости: должен быть меньше 0,05 Показывает, что 91,5% общей вариации результативного признака объясняется вариацией факторных признаков Х i.

Изображение слайда

Слайд 31: Оценка коэффициентов регрессии

31 Значения используемые для построения регрессии Должна быть меньше, чем значение коэффициента Должен попадать в критическую область: (-∞; t кр ) U ( t кр ;+ ∞). Определяется: =СТЬЮДРАСПРОБР(0,05; n-k-1 ). t кр =2,78 Значение должно быть меньше уровня значимости 0,05 Показывает нижние и верхние границы доверительных интервалов. Не должен проходить через 0. Таким образом, регрессионная модель будет иметь вид:

Изображение слайда

Слайд 32: 4. Реализация корреляционного анализа

32

Изображение слайда

Слайд 33: Определение коэффициента корреляции

Пусть  r  обозначает выборочный коэффициент корреляции, полученный по извлеченным из двумерного  нормального  распределения пар наблюдений  (x 1, y 1 ),…,(x n, y n ). Коэффициент корреляции  неизвестен, но может быть оценен по выборке с помощью выборочного коэффициента корреляции  r : 33

Изображение слайда

Слайд 34: Проверка значимости коэффициента корреляции

Нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, альтернативная - не равен нулю: Очевидно, достаточно большое по  абсолютной  величине значение величины  r  будет стремиться опровергнуть нулевую гипотезу. Возникает вопрос. Насколько большое должно быть абсолютное значение величины  r ? Для того чтобы проверить гипотезу, мы должны знать распределение величины  r. Собственное распределение величины  r  довольно сложное, поэтому мы применим преобразование: Итак, выборочное распределение этой статистики есть распределение  Стьюдента  с  n-2  степенями свободы. При заданном уровне значимости (α) определяем критическое значение  t кр. Принимаем решение об отклонении или не отклонении нулевой гипотезы: - отклоняем H 0 - не отклоняем H 0 34

Изображение слайда

Последний слайд презентации: Лекция 9: Вычисление уровня значимости коэффициента корреляции

35

Изображение слайда

Похожие презентации