1 КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ

Первый слайд презентации

1 КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ ПЕРЕМЕННЫХ МОРДОВСКИЙ ЭДГАР АРТУРОВИЧ К.М.Н., ДОЦЕНТ

Изображение слайда

Слайд 2: ПЛАН

ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН КОРЕЛЛЯЦИОННЫЙ АНАЛИЗ ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

Изображение слайда

Слайд 3: ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ

3

Изображение слайда

Слайд 4

ПЕРЕМЕННЫЕ 4 КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL) ТИП ПЕРЕМЕННОЙ ОПРЕДЕЛЯЕТ НАБОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА

Изображение слайда

Слайд 5: ПРИМЕР: ФАКТИЧЕСКАЯ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

5 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 лет SD = 15,4 N = 2021 X = 61, 4 лет SD = 15,9 N = 2027

Изображение слайда

Слайд 6

6 СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ВЫБОРКИ ( X / m) СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ (M) X ( женщины) = 73,3 SD = 15,4 N = 2021 X (мужчины) = 61, 4 SD = 15,9 N = 2027

Изображение слайда

Слайд 7: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

7 ГИПОТЕЗА ( HYPOTHESIS ) – предположение о свойстве популяции (параметре…) ФОРМУЛИРУЕМ ДВЕ ВЗАИМОИСКЛЮЧАЮЩИЕ ГИПОТЕЗЫ: ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) Распределение признака СЛУЧАЙНОЕ (категориальные переменные) НЕТ отличий в сравниваемых величинах (количественные непрерывные переменные) Hа (альтернативная гипотеза) Распределение признака НЕСЛУЧАЙНОЕ (категориальные переменные) ЕСТЬ отличия в сравниваемых величинах (количественные непрерывные переменные)

Изображение слайда

Слайд 8: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

8 ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) Распределение признака СЛУЧАЙНОЕ НЕТ отличий в сравниваемых величинах Hа (альтернативная гипотеза) Распределение признака НЕСЛУЧАЙНОЕ ЕСТЬ отличия в сравниваемых величинах X ( женщины) = 73,3 года SD = 15,4 N = 2021 X (мужчины) = 61, 4 года SD = 15,9 N = 2027 ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин (т.е. 73,3 = 61,4 в популяции) Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин (т.е. 73,3 ≠ 61,4 в популяции)

Изображение слайда

Слайд 9: 2 ВИДА АЛЬТЕРНАТИВНЫХ ГИПОТЕЗ

9 ГИПОТЕЗЫ ФОРМУЛИРОВКА Двусторонняя альтернатива ( two-tailed hypothesis) H0: X ( женщины) = X ( мужчины) H а: X ( женщины) ≠ X ( мужчины) Односторонняя альтернатива ( one-tailed hypothesis) H0: X ( женщины) ≥ X ( мужчины) H а: X ( женщины) < X ( мужчины)

Изображение слайда

Слайд 10: ТЕСТИРОВАНИЕ ГИПОТЕЗ

10 ИСТИНА H0 - ВЕРНА H а - ВЕРНА МЫ ПРИНИМАЕМ H0 ПРАВИЛЬНЫЙ РЕЗУЛЬТАТ это чувствительность теста (1- α ) ОШИБКА 2 ТИПА ( β ) (вероятность НЕ найти то, чего ЕСТЬ) МЫ ОТВЕРГАЕМ H 0 (ПРИНИМАЕМ H а ) ОШИБКА 1 ТИПА ( α ) (уровень значимости – significance (Sig.) “p” (вероятность найти то, чего НЕТ) ПРАВИЛЬНЫЙ РЕЗУЛЬТАТ это «мощность теста» (1- β )

Изображение слайда

Слайд 11: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические расчеты, позволяющие оценить ВЕРОЯТНОСТЬ ОШИБКИ 1 ТИПА ( p / significance (Sig.)) СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические расчеты, результаты которых позволяют c определенной долей вероятности принять нулевую гипотезу ( accept ) или ее отвергнуть ( reject ) «Приемлемая» вероятность ошибки 1 типа ( α -ошибки) = 0.05 (5%) «КОНСЕНСУС ФИШЕРА» ЭТО ОТНОСИТЕЛЬНАЯ ВЕЛИЧИНА !!!!!!!!! 11

Изображение слайда

Слайд 12: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

ПОЧЕМУ ВАЖНО ??? 12 А) ПРАВИЛЬНО РАССЧИТАТЬ ОБЪЕМ ВЫБОРКИ ДО НАЧАЛА ИССЛЕДОВАНИЯ ??? ЧТОБЫ МИНИМИЗИРОВАТЬ ВЕРОЯТНОСТЬ ОШИБКИ 1 ТИПА Б) ПРАВИЛЬНО СФОРМИРОВАТЬ ВЫБОРКУ И ПРАВИЛЬНО ВЫБРАТЬ СТАТИСТИЧЕСКИЙ МЕТОД АНАЛИЗА ( СТАТИСТИЧЕСКИЙ КРИТЕРИЙ) ЧТОБЫ МИНИМИЗИРОВАТЬ ВЕРОЯТНОСТЬ ОШИБКИ 2 ТИПА

Изображение слайда

Слайд 13: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

13 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин

Изображение слайда

Слайд 14: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

14 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%) «КОНСЕНСУС ФИШЕРА » p < 0.05 «достаточно», если имеем дело с социологическими исследованиями, «ориентировочными» исследованиями, «пилотными» исследованиями В клинических испытаниях “p” устанавливается индивидуально (в зависимости от клинической значимости искомого результата) – в т.ч. устанавливается в « SD »

Изображение слайда

Слайд 15: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

15 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ ОПРЕДЕЛЯЕТСЯ НАБОРОМ ПАРАМЕТРОВ !!! И СТРОГО ИНДИВИДУАЛЬНО 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ СТАТИСТИЧЕСКИЕ ПРОГРАММЫ ( IBM SPSS, STATA, STATISTICA, PASW, R)

Изображение слайда

Слайд 16: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

16 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ПРИНИМАЕМ H0 / ОТВЕРГАЕМ Ha (если “p” < 0.05) ПРИНИМАЕМ H а / ОТВЕРГАЕМ Н0 (если “p” ≥ 0.05) + ОЦЕНИВАЕМ ВОЗМОЖНОСТЬ ЭКСТРАПОЛЯЦИИ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ НА ГЕНЕРАЛЬНУЮ СОВОКУПНОСТЬ + ОЦЕНИВАЕМ СТАТИСТИЧЕСКУЮ МОЩНОСТЬ РЕЗУЛЬТАТА + ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ

Изображение слайда

Слайд 17: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

17

Изображение слайда

Слайд 18

ПЕРЕМЕННЫЕ 18 КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL) СРЕДНИЕ ВЕЛИЧИНЫ МОЖНО ВЫЧИСЛИТЬ ТОЛЬКО ДЛЯ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ВЕЛИЧИН

Изображение слайда

Слайд 19: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

19 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027

Изображение слайда

Слайд 20: ВЫБОР КОНКРЕТНОГО СТАТИСТИЧЕСКОГО МЕТОДА ПРИ СРАВНЕНИИ СРЕДНИХ ВЕЛИЧИН ОПРЕДЕЛЯЕТСЯ:

20 УСЛОВИЕ 1 КОЛИЧЕСТВО СРАВНИВАЕМЫХ ГРУПП 2 / 3+ 2 РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ГРУПП нормальное или скошенное 3 ТИП ВЫБОРКИ зависимые выборки («до и после») / независимые выборки (простое сравнение) 4 ДИПЕРСИЯ СРЕДНЕЙ ВЕЛИЧИНЫ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ГРУПП равны или не равны ПОПРАВКА БОНФЕРРОНИ: 2 / 3+ групп ГОМОГЕННОСТЬ / ГОМОСКЕДАСТИЧНОСТЬ ДИСПЕРСИИ: не Критичное требование; При равенстве ОБЪЕМОВ выборок «Почти некритичное»

Изображение слайда

Слайд 21: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК (РАЗНИЦЫ ПРИЗНАКА В ПАРАХ ДО-ПОСЛЕ) СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ 2 СРАВНИВАЕМЫХ ВЫБОРКАХ (РАЗНИЦЫ ПРИЗНАКА В ПАРАХ ДО-ПОСЛЕ) НЕЗАВИСИМЫЕ ВЫБОРКИ Independent Samples T-test (Student T-test) тест Стьюдента для независимых выборок 2- Independent Samples test (Mann-Whitney U test) тест Манна-Уитни для независимых выборок ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) Dependent ( Paired Samples) T-test тест Стьюдента для парных выборок 2- Related Samples test (Wilcoxon signed-rank test) тест Вилкоксона для парных выборок 21

Изображение слайда

Слайд 22: Independent Samples T-test ( Student test) Т- тест Стьюдента

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в каждой из выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Равенство дисперсий Levene’s test for Equality of Variances (sig. (p) ≥ 0,05) Если дисперсии не равны ( p < 0,05) = проблема БЕРЕНСА-ФИШЕРА 22 Ho: ν 1 = ν 2 Ha: ν 1 ≠ ν 2

Изображение слайда

Слайд 23: 2-Independent Samples test (Mann-Whitney U test ) U -тест Манна-Уитни

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение данных в одной или обеих сравниваемых выборок ВНИМАНИЕ: несмотря на то, что распределение скошенное, тест Манна-Уитни оценивает именно СРЕДНИЕ АРИФМЕТИЧЕСКИЕ, А НЕ МЕДИАНЫ !!! Test Shapiro-Wilk / Kolmogorov-Smirnov ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ 23

Изображение слайда

Слайд 24: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

24 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5 %)

Изображение слайда

Слайд 25: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

25 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) < 0,0001 p ( мужчины ) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%

Изображение слайда

Слайд 26: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

26 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА 2-Independent Samples test (Mann-Whitney U test) U -тест Манна-Уитни

Изображение слайда

Слайд 27: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

27 Ho: m1 = m2 ( средняя продолжительность жизни мужчин не отличается от средней продолжительности жизни женщин) Ha: m1 ≠ m2 ( средняя продолжительность жизни мужчин отличается от средней продолжительности жизни женщин ) p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% формулируем H 0 и H а для теста Манна-Уитни 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Изображение слайда

Слайд 28: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

28 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ + ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ Средняя продолжительность жизни мужчин меньше, чем средняя продолжительность жизни женщин на 11,9 лет X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027

Изображение слайда

Слайд 29: 2-Independent Samples test (Mann-Whitney U test) тест Манна-Уитни

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») Х ( мужчины) = 61,4 лет ( 95% ДИ: 60,7 – 62,1) Х ( женщины) = 73, 3 лет (95 % ДИ: 72,6 – 74,0) Различия являются статистически значимыми ( p < 0,0001) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р» ( необходимо продемонстрировать вероятность ошибки) 29

Изображение слайда

Слайд 30: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

30 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027

Изображение слайда

Слайд 31: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

31 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) = 0, 298 p ( мужчины ) = 0, 345 т.е. НЕ МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) = 29, 8 % и 34,5% ,298 ,345

Изображение слайда

Слайд 32: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

32 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Independent Samples T-test (Student test) Т- тест Стьюдента ,298 ,345

Изображение слайда

Слайд 33: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

33 Ho: m1 = m2 ( средняя продолжительность жизни мужчин не отличается от средней продолжительности жизни женщин) Ha: m1 ≠ m2 ( средняя продолжительность жизни мужчин отличается от средней продолжительности жизни женщин ) формулируем H 0 и H а для теста Стьюдента 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Изображение слайда

Слайд 34: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

34 Ho: σ 1 = σ 2 ( дисперсия средней продолжительности жизни мужчин не отличается от дисперсии средней продолжительности жизни женщин) Ha: σ 1 ≠ σ 2 ( дисперсия средней продолжительности жизни мужчин отличается от дисперсии средней продолжительности жизни женщин ) формулируем H 0 и H а для теста ЛЕВЕНЕ (тест равенства дисперсий) 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Изображение слайда

Слайд 35: Independent Samples T-test (Student test) тест Стьюдента

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ Х (мужчины) = 61,4 лет ( 95% ДИ: 60,7 – 62,1) Х (женщины) = 73, 3 лет (95% ДИ: 72,6 – 74,0) Средняя продолжительность жизни мужчин на 11,9 лет меньше ( 95% ДИ: 11,9 – 12,9), чем женщин ( p < 0,0001) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р» ( необходимо продемонстрировать вероятность ошибки) 35

Изображение слайда

Слайд 36: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ 2 СРАВНИВАЕМЫХ ВЫБОРКАХ НЕЗАВИСИМЫЕ ВЫБОРКИ Independent Samples T-test (Student T-test) тест Стьюдента 2- Independent Samples test (Mann-Whitney U test) тест Манна-Уитни ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) Dependent ( Paired Samples) T-test тест Стьюдента для парных выборок 2- Related Samples test (Wilcoxon signed-rank test) тест Вилкоксона для парных выборок 36

Изображение слайда

Слайд 37: Paired Samples T- test тест Стьюдента для парных выборок

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. зависимыми (одни и те же участники, но в разное время) см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение разности между значениями изучаемого признака в парах (до-после) Test Shapiro-Wilk / Kolmogorov-Smirnov 37 ДО ПОСЛЕ РАЗНОСТЬ 167 134 -33 156 160 4 177 129 -48 … … …

Изображение слайда

Слайд 38: 2-Related Samples test (Wilcoxon) тест Вилкоксона

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. зависимыми (одни и те же участники в разное время) см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение разности между значениями изучаемого признака Test Shapiro-Wilk / Kolmogorov-Smirnov 38 ДО ПОСЛЕ РАЗНОСТЬ 167 134 -33 156 160 4 177 129 -48 … … …

Изображение слайда

Слайд 39: ПРИМЕР: УРОВЕНЬ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ В ГРУППЕ ПАЦИЕНТОВ, ПРИНИМАЮЩИХ АНТИГИПЕРТЕНЗИВНЫЙ ПРЕПАРАТ

39 X = 172,1 SD = 1 3, 9 N = 174 X = 15 6,7 SD = 15, 2 N = 174 ДО НАЧАЛА ПРИЕМА ПРЕПАРАТА ЧЕРЕЗ 1 МЕСЯЦ ПОСЛЕ НАЧАЛА ПРИЕМА ПРЕПАРАТА

Изображение слайда

Слайд 40: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

40 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( ДО) = X (ПОСЛЕ) средний уровень артериального давления в группе пациентов до начала приема препарата НЕ отличается от среднего уровня артериального давления в группе пациентов после начала приема препарата Hа (альтернативная гипотеза) X ( ДО) ≠ X (ПОСЛЕ) средний уровень артериального давления в группе пациентов до начала приема препарата ОТЛИЧАЕТСЯ от среднего уровня артериального давления в группе пациентов после начала приема препарата 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (И ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.0 1 / 0.05 (1% / 5%)

Изображение слайда

Слайд 41: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

41 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) < 0,0001 p ( мужчины ) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%

Изображение слайда

Слайд 42: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

42 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА 2-Related Samples test (Wilcoxon) тест Вилкоксона

Изображение слайда

Слайд 43: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

43 Ho: m1 = m2 ( среднее АД до начала приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата) Ha: m1 ≠ m2 ( среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата ) формулируем H 0 и H а для теста Вилкоксона 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%

Изображение слайда

Слайд 44: 2-Related Samples test (Wilcoxon) тест Вилкоксона

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») M (до) = 172,1 мм рт.ст. M (после) = 156,7 мм рт.ст. Различия являются статистически значимыми ( p < 0,00 01 ) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ « p » 44

Изображение слайда

Слайд 45: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

45 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( мужчины ) = 0,298 т.е. НЕ МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% ,298

Изображение слайда

Слайд 46: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

46 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ,298 Paired Samples T- test тест Стьюдента для парных выборок

Изображение слайда

Слайд 47: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

47 Ho: m1 = m2 ( среднее АД до начала приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата) Ha: m1 ≠ m2 ( среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата ) формулируем H 0 и H а для парного теста Стьюдента 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Изображение слайда

Слайд 48: Paired Samples T- test тест Стьюдента для парных выборок

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») M (до) = 172,1 мм рт.ст. M (после) = 156,7 мм рт.ст. Различия являются статистически значимыми ( p < 0,00 01 ) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ « p » 48

Изображение слайда

Слайд 49: СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

49

Изображение слайда

Слайд 50: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

50 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543

Изображение слайда

Слайд 51: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

51 СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 X = 65,9 SD = 1 6, 1 N = 1627 X = 70,1 SD = 1 7, 3 N = 1543 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ СРЕДНЕЕ ОБРАЗОВАНИЕ Почему нельзя сравнить группы попарно с помощью t - критерия Стьюдента? ЭФФЕКТ МНОЖЕСТВЕННЫХ СРАВНЕНИЙ При уровне значимости α = 0,05 вероятность ошибиться хотя бы в одном из k сравнений Р ошибки =1-(1-0,05) k Р ошибки =1-(1-0,05) k = 1-( 1-0,05) 3 = 1 4,3% ВЫПОЛНЯЯ СЕРИЮ ПОПАРНЫХ СРАВНЕНИЙ, В КАЖДОМ СЛУЧАЕ МЫ УМЕНЬШАЕМ ОБЪЕМ ВЫБОРКИ !!!

Изображение слайда

Слайд 52: СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ БОЛЕЕ СРАВНИВАЕМЫХ ВЫБОРОК НЕЗАВИСИМЫЕ ВЫБОРКИ РУС.ВЕРСИЯ ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ K - Independent Samples test ( Kruskall -Wallis H test) Тест Крускелла-Уоллиса ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) РУС.ВЕРСИЯ REPEATED MEASURES ANOVA (GLM-4) Дисперсионный анализ для повторных измерений Friedman’s test (Friedman’s ANOVA) Дисперсионный анализ Фридмана 52 НО ! Считается, что нарушение нормальности распределения не оказывает существенного влияния на результаты ) НО ! Считается, что нарушение равенства дисперсии выборок оказывает значимое влияние в том случае, если сравниваемые выборки отличаются по численности)

Изображение слайда

Слайд 53: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 3 и более выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в сравниваемых группах Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Равенство дисперсий изучаемого признака в сравниваемых группах ( гомоскедастичность ) Levene’s test for Equality of Variances (Sig. (p) ≥ 0,05) Если дисперсии не равны ( p < 0,05) = поправки Brown-Forsythe / Welch 53

Изображение слайда

Слайд 54: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса

ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 3 и более выборок см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение данных хотя бы в одной из сравниваемых выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 54 ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ

Изображение слайда

Слайд 55

55 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543

Изображение слайда

Слайд 56: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

56 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( высшее) = X ( ср.спец.) = X (среднее) средняя продолжительность жизни не зависит от уровня образования Hа (альтернативная гипотеза) X ( высшее) ≠ X ( ср.спец.) X ( высшее) ≠ X (среднее) X ( ср.спец.) ≠ X (среднее) мы отвергаем Н0 гипотезу если верна хотя бы одна из частных На 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста « статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%)

Изображение слайда

Слайд 57: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

57 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА

Изображение слайда

Слайд 58: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

58 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( высшее) < 0,0001 p ( сред.спец.) < 0,0001 p ( среднее) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа < 0,1% ( ошибочно принять На - найти то, чего нет) K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса

Изображение слайда

Слайд 59: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

59 Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 формулируем H 0 и H а для теста Краскелла-Уоллиса 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%

Изображение слайда

Слайд 60: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

60 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ ПРОЦЕДУР ТЕСТА МАННА-УИТНИ H 0 : m1 = m2 Ha: m1 ≠ m2 H 0 : m1 = m 3 Ha: m1 ≠ m 3 H 0 : m 2 = m 3 Ha: m 2 ≠ m 3 1 2 3

Изображение слайда

Слайд 61

61 H 0 : m1 = m2 Средняя продолжительность жизни лиц с высшим образованием не отличается от средней продолжительности жизни лиц со средним специальным образованием H а : m1 ≠ m 3 Средняя продолжительность жизни лиц с высшим образованием отличается от средней продолжительности жизни лиц со средним образованием H а : m 2 ≠ m 3 Средняя продолжительность жизни лиц со средним специальным образованием отличается от средней продолжительности жизни лиц со средним образованием ПОПРАВКА БОНФЕРРОНИ: критический уровень “ p ” < 0.05/3 = < 0.017

Изображение слайда

Слайд 62

62 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543

Изображение слайда

Слайд 63: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») m1 = 66,9 ( 95% ДИ: 65,7 – 68,2) m2 = 6 5, 9 (95% ДИ: 65,1 – 66,7) m 3 = 70, 1 (95% ДИ: 69,2 – 70,9) 63 «…средняя продолжительность жизни зависит от уровня образования человека ( H = 79, 6; p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной» ПОПРАВКА БОНФЕРРОНИ: ОШИБКА 1 ТИПА: α / n = 0.05/3 = 0,017

Изображение слайда

Слайд 64: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

64 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( высшее) = 0, 298 p ( сред.спец.) < 0, 345 p ( среднее) < 0, 455 т.е. ОТКЛОНЯЕМ Ha вероятность ошибки 1 типа > 5% ,298 ,345 , 455 ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 65: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

ЦЕЛЬ: с помощью ДА исследуют влияние одной (одномерный анализ) или нескольких (многомерный анализ) независимых переменных на одну зависимую переменную или на несколько зависимых переменных Независимые переменные КАК ПРАВИЛО принимают только дискретные значения (относятся к номинальной или порядковой шкале ) - это ФАКТОРНЫЙ АНАЛИЗ Если независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями - это КОВАРИАЦИОННЫЙ АНАЛИЗ 65

Изображение слайда

Слайд 66: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

66 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Оценка общей дисперсии по разбросу МЕЖДУ группами средние в каждой группе общее среднее число групп MS B – mean square between groups оценка расстояния между средними в группах размер группы

Изображение слайда

Слайд 67: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

67 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Оценка общей дисперсии по разбросу ВНУТРИ групп сумма квадратов стандартных отклонений внутри групп число групп df W = n G - k

Изображение слайда

Слайд 68: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

68 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Расчет F- статистики ANOVA F = оценка дисперсии между группами оценка дисперсии внутри групп

Изображение слайда

Слайд 69: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

69 Ho: σ 1 = σ 2 = σ 3 ( дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования равны между собой) Ha: σ 1 ≠ σ 2 ≠ σ 3 ( дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования НЕ равны между собой) формулируем H 0 и H а для теста ЛЕВЕНЕ (тест равенства дисперсий) 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ NB: НЕОБХОДИМА ПОПРАВКА БРОУНА-ФОРСИТА / УЭЛЧА

Изображение слайда

Слайд 70: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

70 Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 формулируем H 0 и H а для ANOVA 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%

Изображение слайда

Слайд 71

71 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543 В КАКОЙ ИМЕННО ПАРЕ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ ОТЛИЧАЕТСЯ ??? Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3

Изображение слайда

Слайд 72: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

72 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ POST HOC тестов H 0 : m1 = m2 Ha: m1 ≠ m2 H 0 : m1 = m 3 Ha: m1 ≠ m 3 H 0 : m 2 = m 3 Ha: m 2 ≠ m 3 1 2 3

Изображение слайда

Слайд 73: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ СОБЛЮДЕНО Bonferroni – если число групп не более 5 Tukey – если число групп более 5 УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ НЕ СОБЛЮДЕНО Games-Howell – если группы равны, большие группы 73 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ POST HOC тестов

Изображение слайда

Слайд 74: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

74 ПРОБЛЕМА БОНФЕРРОНИ: необходимо внести поправку на количество групп ОШИБКА 1 ТИПА: α / n = 0.05/3 = 0,017

Изображение слайда

Слайд 75

75 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543

Изображение слайда

Слайд 76: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») m1 = 66,9 ( 95% ДИ: 65,7 – 68,2) m2 = 6 5, 9 (95% ДИ: 65,1 – 66,7) m 3 = 70, 1 (95% ДИ: 69,2 – 70,9) 76 «…средняя продолжительность жизни зависит от уровня образования человека ( F = 25,4 (Welch) ; p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование »; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной

Изображение слайда

Слайд 77: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

77 «доля объяснённой вариабельности» 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости SS - суммы квадратов отклонений ( sum of squares ): SS B - средних в группах от общего среднего = Effect SS W – измерений от средних в группах = Error R 2 = 0. 0 1 – «незначительный» эффект R 2 = 0. 06 – «средний» эффект R 2 = 0. 1 4 – «значительный» эффект

Изображение слайда

Слайд 78: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

78 «практическая значимость» результата: f = 0, 1 – «незначительный» эффект f = 0.25 – «средний» эффект f = 0.4 – «значительный» эффект Общая дисперсия по разбросу ВНУТРИ групп 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости

Изображение слайда

Слайд 79: КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

79

Изображение слайда

Слайд 80: Математическая зависимость величин

80 Наличие математической зависимости / корреляции НЕ ОЗНАЧАЕТ наличия ПРИЧИННО-СЛЕДСТВЕННОЙ взаимосвязи между переменными НАПРАВЛЕНИЕ ЗАВИСИМОСТИ: Положительная Отрицательная СИЛА ЗАВИСИМОСТИ: - Отсутствует Слабая Средняя Сильная Абсолютная

Изображение слайда

Слайд 81: ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ

81 ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ

Изображение слайда

Слайд 82: МНОЖЕСТВО КОРРЕЛЯЦИОННЫХ ПОЛЕЙ

82 Множество корреляционных полей. https://ru.wikipedia.org/wiki/ Корреляция

Изображение слайда

Слайд 83: Как можно количественно выразить математическую зависимость 2-х величин ?

83 КОВАРИАЦИЯ КОРРЕЛЯЦИЯ КОВАРИАЦИЯ – это степень согласованности отклонений двух переменных cov ( x,y ) = Σ [( x - среднее x )( y - среднее y )] Смысл: если 1 варианта отклоняется от средней, можно ожидать, что 2-я отклонится в ту же сторону КОРРЕЛЯЦИЯ – это ковариация стандартизованных переменных r = cov ( x,y ) / SDxy Смысл : отношение наблюдаемой ковариации двух стандартизованных переменных к максимально возможной ковариации

Изображение слайда

Слайд 84: Корреляция

КОРРЕЛЯЦИЯ – это двумерное измерение силы и направления математической взаимосвязи между двумя переменными 84 0 +1 -1 случайная связь абсолютная положителная линейная связь а бсолютная негативная линейная связь

Изображение слайда

Слайд 85: КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Непрерывные Порядковые Дихотомические Непрерывные Pearson's r Spearman's rho Kendall's tau Spearman's rho Kendall's tau Polyserial correlation Polyserial correlation Point- biserial correlation ( истинная дихотомия) Biserial correlation ( ложная дихотомия) Порядковые Spearman's rho Kendall's tau Polyserial correlation Spearman's rho Kendall's tau Polychoric correlation Rank biserial correlation Дихотомические Polyserial correlation Point- biserial correlation (истинная дихотомия) Biserial correlation ( ложная дихотомия) Rank biserial correlation Polychoric correlation ( tetrachoric correlation) phi 85 Единственный параметрический критерий

Изображение слайда

Слайд 86: Пример расчета коэффициента корреляции Пирсона

86 N Содержание тестостерона в крови, нг / дл (X) Процент мышечной массы, % ( Y) 1. 951 83 2. 874 76 3. 957 84 4. 1084 89 5. 903 79 1 ЭТАП. Расчет суммы значений переменных X и Y: Σ(X ) = 951 + 874 + 957 + 1084 + 903 = 4769 Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441 http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 87: Пример расчета коэффициента корреляции Пирсона

87 N Содержание тестостерона в крови, нг / дл (X) Процент мышечной массы, % ( Y) 1. 951 83 2. 874 76 3. 957 84 4. 1084 89 5. 903 79 2 ЭТАП. Расчет средних арифметических для X и Y: Mx = Σ(X) / n = 4769 / 5 = 953.8 My = Σ(Y) / n = 441 / 5 = 82.2 http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 88: Пример расчета коэффициента корреляции Пирсона

88 3 ЭТАП. Расчет для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx dy = Y - My N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) 1. 951 83 -2.8 0.8 2. 874 76 -79.8 -6.2 3. 957 84 3.2 1.8 4. 1084 89 130.2 6.8 5. 903 79 -50.8 -3.2 http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 89: Пример расчета коэффициента корреляции Пирсона

89 4 ЭТАП. Возвести в квадрат каждое значение отклонения dx и dy N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) d x 2 d y 2 1. 951 83 -2.8 0.8 7.84 0.64 2. 874 76 -79.8 -6.2 6368.04 38.44 3. 957 84 3.2 1.8 10.24 3.24 4. 1084 89 130.2 6.8 16952,04 46.24 5. 903 79 -50.8 -3.2 2580,64 10.24 http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 90: Пример расчета коэффициента корреляции Пирсона

90 5 ЭТАП. Расчет для каждой пары анализируемых значений произведение отклонений dx x dy : N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) d x 2 d y 2 d x x d y 1. 951 83 -2.8 0.8 7.84 0.64 -2.24 2. 874 76 -79.8 -6.2 6368.04 38.44 494.76 3. 957 84 3.2 1.8 10.24 3.24 5.76 4. 1084 89 130.2 6.8 16952,04 46.24 885.36 5. 903 79 -50.8 -3.2 2580,64 10.24 162.56 http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 91: Пример расчета коэффициента корреляции Пирсона

91 6 ЭТАП. Расчет значения суммы квадратов отклонений Σ(d x 2 ) и Σ(d y 2 ) Σ(d x 2 ) = 25918.8 Σ(d y 2 ) = 98.8 7 ЭТАП. Расчет значения суммы произведений отклонений Σ( d x x d y ) Σ( d x x d y ) = 1546.2 8 ЭТАП. Расчет значения коэффициента корреляции Пирсона r xy http://medstatistic.ru/theory/pirson.html

Изображение слайда

Слайд 92: Пример расчета коэффициента корреляции Пирсона

92 9 ЭТАП. Оценка достоверности результата – расчет t-критерия http://medstatistic.ru/theory/pirson.html Критическое значение t-критерия можно найти по специальной статистической таблице

Изображение слайда

Слайд 93: УСЛОВИЯ ПРИМЕНЕНИЯ КОРРЕЛЯЦИИ ПИРСОНА

93 ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в каждой из выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Гомоскедастичность - предполагается, что дисперсия ошибки остается той же самой в любой точке на протяжении всей линейной связи (иначе коэффициент корреляции будет завышаться или, наоборот, занижаться) обычно не проверяется 6. Линейная связь Graphs – Scatter/Dot (точечный график) 7. Отсутствие «выбросов»

Изображение слайда

Слайд 94: коэффициент корреляции Пирсона

94 коэффициент корреляции Пирсона Корреляция является симметричной, поэтому она не может говорить о направлении каузальной связи

Изображение слайда

Слайд 95: Коэффициент детерминации R 2

95 R 2 - коэффициент детерминации - доля дисперсии переменной X, объясняемая вариабельностью переменной Y r xy = 0,5 R 2 = 0, 2 5 Таким образом, вариабельность переменной Х объясняет 25% вариабельности переменной Y

Изображение слайда

Слайд 96: УСЛОВИЯ ПРИМЕНЕНИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА, КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ КЕНДАЛЛА (тау)

96 ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный / порядковый тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное / скошенное распределение изучаемого признака можно не проверять

Изображение слайда

Слайд 97: ОСНОВНОЙ НЕДОСТАТОК КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ

Коэффициент корреляции демонстрирует А) направление взаимосвязи переменных Б) силу взаимосвязи переменных 97 НО коэффициент корреляции бесполезен, если мы х отим ПРЕДСКАЗАТЬ значение переменной X по значению переменной Y РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 98: ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА

98

Изображение слайда

Слайд 99: КОРРЕЛЯЦИЯ vs. регрессия

99 МЕЖДУ ПЕРЕМЕННЫМИ ЕСТЬ ЗАВИСИМОСТЬ? КОРРЕЛЯЦИОННЫЙ АНАЛИЗ – демонстрирует лишь направление взаимосвязи переменных и силу взаимосвязи переменных ИССЛЕДОВАТЕЛЯ МОГУТ ДОПОЛНИТЕЛЬНО ИНТЕРЕСОВАТЬ ВОПРОСЫ: 1) как сильно влияет на зависимую (1) переменную А) другая (1) независимая переменная? Б) одновременно 2 и > независимых переменных? 2) какие именно переменные влияют на зависимую переменную (отсеять из набора переменных «лишние»)? 3) какие именно переменные влияют одновременно на 2 и более зависимых переменных из набора ? 4) можно ли по значениям одной (нескольких) переменных ПРЕДСКАЗАТЬ значение другой (других) переменных

Изображение слайда

Слайд 100: Регрессия: ОСНОВНАЯ ИДЕЯ

Y = f(X) 100 Зависимость между переменными может быть выражена УРАВНЕНИЕМ ОСНОВНАЯ ИДЕЯ РЕГРЕССИИОННОГО АНАЛИЗА: математически рассчитать параметры УРАВНЕНИЯ РЕГРЕССИИ (с какой силой / в каком направлении переменные влияют на зависимую переменную)

Изображение слайда

Слайд 101: Регрессия: ОСНОВНАЯ ПРОБЛЕМА

101 Какая форма зависимости одной переменной от другой переменной ? Какая форма зависимость одной переменных от нескольких переменных ? линейная зависимость нелинейная зависимость ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ НЕЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 102: ВЫБОР МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА

ДИХОТОМИЧЕСКАЯ ЗАВИСИМАЯ ПЕРЕМЕННАЯ НЕПРЕРЫВНАЯ КАТЕГОРИАЛЬНАЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ БИНАРНАЯ ЛОГИСТИЧЕСКАЯ МУЛЬТИНОМИАЛЬНАЯ ЛОГИСТИЧЕСКАЯ ПОРЯДКОВАЯ ОРДИНАЛЬНАЯ ЛОГИСТИЧЕСКАЯ КАТЕГОРИАЛЬНАЯ LOG-LINEAR ANALYSIS +++ другие методы регрессионного анализа (напр., регрессия Пуассона…)

Изображение слайда

Слайд 103: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

103 ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ Y – зависимая переменная / переменная отклика B0 – константа Bn – коэффициент регрессии / градиент E - ошибка + E

Изображение слайда

Слайд 104: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

104 Идея LRA : построить прямую, наиболее точно предсказывающую значение зависимой переменной от предиктора (- ов ) (и рассчитать ее параметры, т.е. ФОРМУЛУ ) – «линейный» анализ В ЭТОМ «МИНУС» ЛРА – в природе нет линейной зависимости (тем более 1 зависимой переменной от нескольких) ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 105: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

105 H0 (LRA): - Зависимая переменная лучше всего описывается средней арифметической Ha (LRA): - Зависимая переменная лучше всего описывается некоторой линейной моделью Далее программа (по методу «наименьших квадратов») «подбирает» линию (модель), которая наилучшим образом «предсказывает» зависимую переменную по значению независимого предиктора ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 106: SS т общая сумма различий между фактическими данными и средней арифметической

106 СНАЧАЛА ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ ( H 0) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ : ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 107: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

107 SS R общая сумма различий между фактическими данными и моделью ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО МОДЕЛЬ ( H а ) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 108: SS М = SS т – SS R ПОКАЗЫВАЕТ УЛУЧШЕНИЕ В ПРЕДСКАЗАТЕЛЬНОЙ СИЛЕ МОДЕЛИ В СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ

108 - показывает количество дисперсии, которая объясняется моделью = ERROR ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО МОДЕЛЬ ( H а ) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ В СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ ( H0) ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ

Изображение слайда

Слайд 109

109 ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПРОГРАММА РАССЧИТЫВАЕТ СТАТИСТИКУ РЕГРЕССИОННОЙ МОДЕЛИ ( F – TEST ) СПОСОБНОСТЬ МОДЕЛИ УЛУЧШАТЬ ПРЕДСКАЗАНИЕ ЗАВИСИМОЙ ПЕРЕМЕННОЙ В СРАВНЕНИИ СО СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ F test MS(M) MS(R) p (F – test) < 0,05 МОДЕЛЬ «РАБОТАЕТ», т.е. предсказывает зависимую переменную лучше, чем средняя арифметическая ( H 0 )

Изображение слайда

Слайд 110

110 + E Bn – коэффициент регрессии / градиент - демонстрирует изменение значения зависимой переменной ( Y) при изменении предиктора (Х n ) на “1” ( единицу ) Статистическую значимость каждого коэффициента регрессии необходимо оценить H 0 : b1 = 0 Ha: b1 ≠ 0 ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ СТАТИСТИКА РЕГРЕССИОННОЙ МОДЕЛИ ( F – TEST ) демонстрирует статистическую значимость всего уравнения регрессии

Изображение слайда

Слайд 111

А) ЗАВИСИМАЯ ПЕРЕМЕННАЯ: количественная непрерывная (неограниченная) Б) НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ (ПРЕДИКТОРЫ): количественные непрерывные и дихотомические (0;1) В) ЛИНЕЙНАЯ СВЯЗЬ: Graphs – Scatter/Dot (можно проверить для простой регрессии) Г) ГОМОСКЕДАСТИЧНОСТЬ - предполагается, что дисперсия ошибки остается той же самой в любой точке на протяжении всей линейной связи Д) НЕЗАВИСИМЫЕ НАБЛЮДЕНИЯ ( DURBIN-WATSON ≈ 2 (DW ϵ [1;3] )) Е) НОРМАЛЬНО РАСПРЕДЕЛЕННЫЕ ОСТАТКИ ( residuals) Ж) НЕ Д.Б. МУЛЬТИКОЛЛИНЕАРНОСТИ ( R > 0,8 – проблема; VIF > 10 - проблема ) 111 УСЛОВИЯ ПРИМЕНЕНИЯ ( ASSUMPTIONS) ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА

Изображение слайда

Слайд 112

OUTLIER: случаи, значительно влияющие на тренд ( >2,58 – проблема) INFLUENTIAL CASES: случаи, заметно влияющие на модель (ее значимость) COOK’S DISTANCE – д.б. < 1 – мера влияния случая на модель MAHALANOBIS – разница м/д случаем и средней арифметической N = 500 – д.б. < 25 N = 100 – д.б. < 15 N = 30 – д.б. < 11 112 УСЛОВИЯ ПРИМЕНЕНИЯ ( ASSUMPTIONS) ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА

Изображение слайда

Слайд 113

113 ПРИМЕР ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ ПОЛ ПАЦИЕНТА ДОХОД ПАЦИЕНТА ВОЗРАСТ ПАЦИЕНТА

Изображение слайда

Слайд 114: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

114 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) простая средняя арифметическая предсказывает исход лучше, чем модель регрессии Hа (альтернативная гипотеза) модель регрессии предсказывает исход лучше, чем простая средняя арифметическая 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%)

Изображение слайда

Слайд 115: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

115 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ зависимая переменная: количественная непрерывная ПОЛ ПАЦИЕНТА: дихотомическая предикторы: количественная непрерывная / дихотомическая ВОЗРАСТ ПАЦИЕНТА: к оличественная непрерывная BMI ПАЦИЕНТА : количественная непрерывная ПОДХОДИТ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ

Изображение слайда

Слайд 116: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

116 Ho: F- статистика модели стат.незначима Ha: F- статистика модели стат.значима формулируем H 0 и H а 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% МОДЕЛЬ РЕГРЕССИИ «РАБОТАЕТ» (описывает данные лучше, чем средняя арифметическая)

Изображение слайда

Слайд 117: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

117 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ МОДЕЛЬ ОБЪЯСНЯЕТ 8,1% ДИСПЕРСИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ

Изображение слайда

Слайд 118: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

118 Ho: t- статистика b стат.незначима Ha: t- статистика b стат.значима формулируем H 0 и H а для t- статистики коэффициентов b 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ

Изображение слайда

Слайд 119: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ

119 Y = расходы на медикаменты B0 = CONSTANT = 551,1 B1 = ВОЗРАСТ = 3 0, 9 B 2 = ПОЛ = -478, 3 (для мужчин) ДЛЯ 50-ЛЕТНЕГО МУЖЧИН ВЕЛИЧИНА РАСХОДОВ НА МЕДИКАМЕНТЫ РАСХОДЫ = 551, 1 + 3 0,9 × 50 – 478,3 = 1617,8 руб. + ERROR

Изображение слайда

Последний слайд презентации: 1 КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ

КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ ПЕРЕМЕННЫХ

Изображение слайда

1 КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ — презентация

Первый слайд презентации

Слайд 2: ПЛАН

Слайд 3: ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ

Слайд 4

Слайд 5: ПРИМЕР: ФАКТИЧЕСКАЯ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

Слайд 6

Слайд 7: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

Слайд 8: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА

Слайд 9: 2 ВИДА АЛЬТЕРНАТИВНЫХ ГИПОТЕЗ

Слайд 10: ТЕСТИРОВАНИЕ ГИПОТЕЗ

Слайд 11: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

Слайд 12: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ

Слайд 13: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 14: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 15: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 16: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 17: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 18

Слайд 19: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

Слайд 20: ВЫБОР КОНКРЕТНОГО СТАТИСТИЧЕСКОГО МЕТОДА ПРИ СРАВНЕНИИ СРЕДНИХ ВЕЛИЧИН ОПРЕДЕЛЯЕТСЯ:

Слайд 21: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 22: Independent Samples T-test ( Student test) Т- тест Стьюдента

Слайд 23: 2-Independent Samples test (Mann-Whitney U test ) U -тест Манна-Уитни

Слайд 24: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 25: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 26: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 27: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 28: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 29: 2-Independent Samples test (Mann-Whitney U test) тест Манна-Уитни

Слайд 30: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г

Слайд 31: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 32: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 33: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 34: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 35: Independent Samples T-test (Student test) тест Стьюдента

Слайд 36: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН

Слайд 37: Paired Samples T- test тест Стьюдента для парных выборок

Слайд 38: 2-Related Samples test (Wilcoxon) тест Вилкоксона

Слайд 39: ПРИМЕР: УРОВЕНЬ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ В ГРУППЕ ПАЦИЕНТОВ, ПРИНИМАЮЩИХ АНТИГИПЕРТЕНЗИВНЫЙ ПРЕПАРАТ

Слайд 40: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 41: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 42: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 43: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 44: 2-Related Samples test (Wilcoxon) тест Вилкоксона

Слайд 45: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 46: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 47: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 48: Paired Samples T- test тест Стьюдента для парных выборок

Слайд 49: СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

Слайд 50: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

Слайд 51: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

Слайд 52: СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН

Слайд 53: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 54: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса

Слайд 55

Слайд 56: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 57: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 58: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 59: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 60: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 61

Слайд 62

Слайд 63: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса

Слайд 64: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 65: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 66: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

Слайд 67: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

Слайд 68: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ

Слайд 69: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 70: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 71

Слайд 72: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 73: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 74: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ

Слайд 75

Слайд 76: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 77: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 78: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ

Слайд 79: КОРРЕЛЯЦИОННЫЙ АНАЛИЗ