Первый слайд презентации
1 КРАТКИЙ ОБЗОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА КОЛИЧЕСТВЕННЫХ ПЕРЕМЕННЫХ МОРДОВСКИЙ ЭДГАР АРТУРОВИЧ К.М.Н., ДОЦЕНТ
Слайд 2: ПЛАН
ОБЩИЕ ТРЕБОВАНИЯ К ВЫПОЛНЕНИЮ СТАТИСТИЧЕСКИХ ТЕСТОВ СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН КОРЕЛЛЯЦИОННЫЙ АНАЛИЗ ОСНОВЫ РЕГРЕССИОННОГО АНАЛИЗА
Слайд 4
ПЕРЕМЕННЫЕ 4 КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL) ТИП ПЕРЕМЕННОЙ ОПРЕДЕЛЯЕТ НАБОР МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА
5 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 лет SD = 15,4 N = 2021 X = 61, 4 лет SD = 15,9 N = 2027
Слайд 6
6 СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ВЫБОРКИ ( X / m) СРЕДНЕЕ АРИФМЕТИЧЕСКИЕ ДЛЯ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ (M) X ( женщины) = 73,3 SD = 15,4 N = 2021 X (мужчины) = 61, 4 SD = 15,9 N = 2027
Слайд 7: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА
7 ГИПОТЕЗА ( HYPOTHESIS ) – предположение о свойстве популяции (параметре…) ФОРМУЛИРУЕМ ДВЕ ВЗАИМОИСКЛЮЧАЮЩИЕ ГИПОТЕЗЫ: ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) Распределение признака СЛУЧАЙНОЕ (категориальные переменные) НЕТ отличий в сравниваемых величинах (количественные непрерывные переменные) Hа (альтернативная гипотеза) Распределение признака НЕСЛУЧАЙНОЕ (категориальные переменные) ЕСТЬ отличия в сравниваемых величинах (количественные непрерывные переменные)
Слайд 8: НУЛЕВАЯ И АЛЬТЕРНАТИВНАЯ ГИПОТЕЗА
8 ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) Распределение признака СЛУЧАЙНОЕ НЕТ отличий в сравниваемых величинах Hа (альтернативная гипотеза) Распределение признака НЕСЛУЧАЙНОЕ ЕСТЬ отличия в сравниваемых величинах X ( женщины) = 73,3 года SD = 15,4 N = 2021 X (мужчины) = 61, 4 года SD = 15,9 N = 2027 ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин (т.е. 73,3 = 61,4 в популяции) Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин (т.е. 73,3 ≠ 61,4 в популяции)
Слайд 9: 2 ВИДА АЛЬТЕРНАТИВНЫХ ГИПОТЕЗ
9 ГИПОТЕЗЫ ФОРМУЛИРОВКА Двусторонняя альтернатива ( two-tailed hypothesis) H0: X ( женщины) = X ( мужчины) H а: X ( женщины) ≠ X ( мужчины) Односторонняя альтернатива ( one-tailed hypothesis) H0: X ( женщины) ≥ X ( мужчины) H а: X ( женщины) < X ( мужчины)
Слайд 10: ТЕСТИРОВАНИЕ ГИПОТЕЗ
10 ИСТИНА H0 - ВЕРНА H а - ВЕРНА МЫ ПРИНИМАЕМ H0 ПРАВИЛЬНЫЙ РЕЗУЛЬТАТ это чувствительность теста (1- α ) ОШИБКА 2 ТИПА ( β ) (вероятность НЕ найти то, чего ЕСТЬ) МЫ ОТВЕРГАЕМ H 0 (ПРИНИМАЕМ H а ) ОШИБКА 1 ТИПА ( α ) (уровень значимости – significance (Sig.) “p” (вероятность найти то, чего НЕТ) ПРАВИЛЬНЫЙ РЕЗУЛЬТАТ это «мощность теста» (1- β )
Слайд 11: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ
СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические расчеты, позволяющие оценить ВЕРОЯТНОСТЬ ОШИБКИ 1 ТИПА ( p / significance (Sig.)) СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ (методы статистического анализа) – математические расчеты, результаты которых позволяют c определенной долей вероятности принять нулевую гипотезу ( accept ) или ее отвергнуть ( reject ) «Приемлемая» вероятность ошибки 1 типа ( α -ошибки) = 0.05 (5%) «КОНСЕНСУС ФИШЕРА» ЭТО ОТНОСИТЕЛЬНАЯ ВЕЛИЧИНА !!!!!!!!! 11
Слайд 12: СТАТИСТИЧЕСКАЯ ОБРАБОТКА ДАННЫХ
ПОЧЕМУ ВАЖНО ??? 12 А) ПРАВИЛЬНО РАССЧИТАТЬ ОБЪЕМ ВЫБОРКИ ДО НАЧАЛА ИССЛЕДОВАНИЯ ??? ЧТОБЫ МИНИМИЗИРОВАТЬ ВЕРОЯТНОСТЬ ОШИБКИ 1 ТИПА Б) ПРАВИЛЬНО СФОРМИРОВАТЬ ВЫБОРКУ И ПРАВИЛЬНО ВЫБРАТЬ СТАТИСТИЧЕСКИЙ МЕТОД АНАЛИЗА ( СТАТИСТИЧЕСКИЙ КРИТЕРИЙ) ЧТОБЫ МИНИМИЗИРОВАТЬ ВЕРОЯТНОСТЬ ОШИБКИ 2 ТИПА
13 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин
Слайд 14: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
14 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%) «КОНСЕНСУС ФИШЕРА » p < 0.05 «достаточно», если имеем дело с социологическими исследованиями, «ориентировочными» исследованиями, «пилотными» исследованиями В клинических испытаниях “p” устанавливается индивидуально (в зависимости от клинической значимости искомого результата) – в т.ч. устанавливается в « SD »
Слайд 15: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
15 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ ОПРЕДЕЛЯЕТСЯ НАБОРОМ ПАРАМЕТРОВ !!! И СТРОГО ИНДИВИДУАЛЬНО 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ СТАТИСТИЧЕСКИЕ ПРОГРАММЫ ( IBM SPSS, STATA, STATISTICA, PASW, R)
Слайд 16: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
16 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ПРИНИМАЕМ H0 / ОТВЕРГАЕМ Ha (если “p” < 0.05) ПРИНИМАЕМ H а / ОТВЕРГАЕМ Н0 (если “p” ≥ 0.05) + ОЦЕНИВАЕМ ВОЗМОЖНОСТЬ ЭКСТРАПОЛЯЦИИ ПОЛУЧЕННЫХ РЕЗУЛЬТАТОВ НА ГЕНЕРАЛЬНУЮ СОВОКУПНОСТЬ + ОЦЕНИВАЕМ СТАТИСТИЧЕСКУЮ МОЩНОСТЬ РЕЗУЛЬТАТА + ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ
Слайд 18
ПЕРЕМЕННЫЕ 18 КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL) СРЕДНИЕ ВЕЛИЧИНЫ МОЖНО ВЫЧИСЛИТЬ ТОЛЬКО ДЛЯ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ВЕЛИЧИН
Слайд 19: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г
19 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027
20 УСЛОВИЕ 1 КОЛИЧЕСТВО СРАВНИВАЕМЫХ ГРУПП 2 / 3+ 2 РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ГРУПП нормальное или скошенное 3 ТИП ВЫБОРКИ зависимые выборки («до и после») / независимые выборки (простое сравнение) 4 ДИПЕРСИЯ СРЕДНЕЙ ВЕЛИЧИНЫ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ГРУПП равны или не равны ПОПРАВКА БОНФЕРРОНИ: 2 / 3+ групп ГОМОГЕННОСТЬ / ГОМОСКЕДАСТИЧНОСТЬ ДИСПЕРСИИ: не Критичное требование; При равенстве ОБЪЕМОВ выборок «Почти некритичное»
Слайд 21: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК (РАЗНИЦЫ ПРИЗНАКА В ПАРАХ ДО-ПОСЛЕ) СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ 2 СРАВНИВАЕМЫХ ВЫБОРКАХ (РАЗНИЦЫ ПРИЗНАКА В ПАРАХ ДО-ПОСЛЕ) НЕЗАВИСИМЫЕ ВЫБОРКИ Independent Samples T-test (Student T-test) тест Стьюдента для независимых выборок 2- Independent Samples test (Mann-Whitney U test) тест Манна-Уитни для независимых выборок ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) Dependent ( Paired Samples) T-test тест Стьюдента для парных выборок 2- Related Samples test (Wilcoxon signed-rank test) тест Вилкоксона для парных выборок 21
Слайд 22: Independent Samples T-test ( Student test) Т- тест Стьюдента
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в каждой из выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Равенство дисперсий Levene’s test for Equality of Variances (sig. (p) ≥ 0,05) Если дисперсии не равны ( p < 0,05) = проблема БЕРЕНСА-ФИШЕРА 22 Ho: ν 1 = ν 2 Ha: ν 1 ≠ ν 2
Слайд 23: 2-Independent Samples test (Mann-Whitney U test ) U -тест Манна-Уитни
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение данных в одной или обеих сравниваемых выборок ВНИМАНИЕ: несмотря на то, что распределение скошенное, тест Манна-Уитни оценивает именно СРЕДНИЕ АРИФМЕТИЧЕСКИЕ, А НЕ МЕДИАНЫ !!! Test Shapiro-Wilk / Kolmogorov-Smirnov ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ 23
Слайд 24: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
24 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( женщины) = X (мужчины) средняя продолжительность жизни женщин НЕ отличается от средней продолжительности жизни мужчин Hа (альтернативная гипотеза) X ( женщины) ≠ X (мужчины) средняя продолжительность жизни женщин ОТЛИЧАЕТСЯ от средней продолжительности жизни мужчин 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5 %)
Слайд 25: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
25 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) < 0,0001 p ( мужчины ) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%
Слайд 26: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
26 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА 2-Independent Samples test (Mann-Whitney U test) U -тест Манна-Уитни
Слайд 27: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
27 Ho: m1 = m2 ( средняя продолжительность жизни мужчин не отличается от средней продолжительности жизни женщин) Ha: m1 ≠ m2 ( средняя продолжительность жизни мужчин отличается от средней продолжительности жизни женщин ) p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% формулируем H 0 и H а для теста Манна-Уитни 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ
Слайд 28: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
28 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ + ОЦЕНИВАЕМ ПРАКТИЧЕСКУЮ ЗНАЧИМОСТЬ РЕЗУЛЬТАТОВ Средняя продолжительность жизни мужчин меньше, чем средняя продолжительность жизни женщин на 11,9 лет X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027
Слайд 29: 2-Independent Samples test (Mann-Whitney U test) тест Манна-Уитни
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») Х ( мужчины) = 61,4 лет ( 95% ДИ: 60,7 – 62,1) Х ( женщины) = 73, 3 лет (95 % ДИ: 72,6 – 74,0) Различия являются статистически значимыми ( p < 0,0001) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р» ( необходимо продемонстрировать вероятность ошибки) 29
Слайд 30: ПРИМЕР: СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ В ВЫБОРКЕ МУЖЧИН И ЖЕНЩИН, - ЖИТЕЛЕЙ АРХАНГЕЛЬСКОЙ ОБЛАСТИ, УМЕРШИХ В 2012 Г
30 ЖЕНЩИНЫ МУЖЧИНЫ X = 73,3 SD = 15,4 N = 2021 X = 61, 4 SD = 15,9 N = 2027
Слайд 31: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
31 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) = 0, 298 p ( мужчины ) = 0, 345 т.е. НЕ МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) = 29, 8 % и 34,5% ,298 ,345
Слайд 32: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
32 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Independent Samples T-test (Student test) Т- тест Стьюдента ,298 ,345
Слайд 33: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
33 Ho: m1 = m2 ( средняя продолжительность жизни мужчин не отличается от средней продолжительности жизни женщин) Ha: m1 ≠ m2 ( средняя продолжительность жизни мужчин отличается от средней продолжительности жизни женщин ) формулируем H 0 и H а для теста Стьюдента 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ
Слайд 34: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
34 Ho: σ 1 = σ 2 ( дисперсия средней продолжительности жизни мужчин не отличается от дисперсии средней продолжительности жизни женщин) Ha: σ 1 ≠ σ 2 ( дисперсия средней продолжительности жизни мужчин отличается от дисперсии средней продолжительности жизни женщин ) формулируем H 0 и H а для теста ЛЕВЕНЕ (тест равенства дисперсий) 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ
Слайд 35: Independent Samples T-test (Student test) тест Стьюдента
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ Х (мужчины) = 61,4 лет ( 95% ДИ: 60,7 – 62,1) Х (женщины) = 73, 3 лет (95% ДИ: 72,6 – 74,0) Средняя продолжительность жизни мужчин на 11,9 лет меньше ( 95% ДИ: 11,9 – 12,9), чем женщин ( p < 0,0001) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ «р» ( необходимо продемонстрировать вероятность ошибки) 35
Слайд 36: СРАВНЕНИЕ 2-Х СРЕДНИХ ВЕЛИЧИН
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ 2 СРАВНИВАЕМЫХ ВЫБОРКАХ НЕЗАВИСИМЫЕ ВЫБОРКИ Independent Samples T-test (Student T-test) тест Стьюдента 2- Independent Samples test (Mann-Whitney U test) тест Манна-Уитни ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) Dependent ( Paired Samples) T-test тест Стьюдента для парных выборок 2- Related Samples test (Wilcoxon signed-rank test) тест Вилкоксона для парных выборок 36
Слайд 37: Paired Samples T- test тест Стьюдента для парных выборок
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. зависимыми (одни и те же участники, но в разное время) см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение разности между значениями изучаемого признака в парах (до-после) Test Shapiro-Wilk / Kolmogorov-Smirnov 37 ДО ПОСЛЕ РАЗНОСТЬ 167 134 -33 156 160 4 177 129 -48 … … …
Слайд 38: 2-Related Samples test (Wilcoxon) тест Вилкоксона
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. зависимыми (одни и те же участники в разное время) см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение разности между значениями изучаемого признака Test Shapiro-Wilk / Kolmogorov-Smirnov 38 ДО ПОСЛЕ РАЗНОСТЬ 167 134 -33 156 160 4 177 129 -48 … … …
Слайд 39: ПРИМЕР: УРОВЕНЬ АРТЕРИАЛЬНОГО ДАВЛЕНИЯ В ГРУППЕ ПАЦИЕНТОВ, ПРИНИМАЮЩИХ АНТИГИПЕРТЕНЗИВНЫЙ ПРЕПАРАТ
39 X = 172,1 SD = 1 3, 9 N = 174 X = 15 6,7 SD = 15, 2 N = 174 ДО НАЧАЛА ПРИЕМА ПРЕПАРАТА ЧЕРЕЗ 1 МЕСЯЦ ПОСЛЕ НАЧАЛА ПРИЕМА ПРЕПАРАТА
Слайд 40: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
40 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( ДО) = X (ПОСЛЕ) средний уровень артериального давления в группе пациентов до начала приема препарата НЕ отличается от среднего уровня артериального давления в группе пациентов после начала приема препарата Hа (альтернативная гипотеза) X ( ДО) ≠ X (ПОСЛЕ) средний уровень артериального давления в группе пациентов до начала приема препарата ОТЛИЧАЕТСЯ от среднего уровня артериального давления в группе пациентов после начала приема препарата 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (И ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.0 1 / 0.05 (1% / 5%)
Слайд 41: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
41 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( женщины) < 0,0001 p ( мужчины ) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%
Слайд 42: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
42 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА 2-Related Samples test (Wilcoxon) тест Вилкоксона
Слайд 43: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
43 Ho: m1 = m2 ( среднее АД до начала приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата) Ha: m1 ≠ m2 ( среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата ) формулируем H 0 и H а для теста Вилкоксона 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%
Слайд 44: 2-Related Samples test (Wilcoxon) тест Вилкоксона
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») M (до) = 172,1 мм рт.ст. M (после) = 156,7 мм рт.ст. Различия являются статистически значимыми ( p < 0,00 01 ) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ « p » 44
Слайд 45: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
45 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ РАЗНИЦЫ СРЕДНИХ ВЕЛИЧИН (ДО-ПОСЛЕ) В ВЫБОРКЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( мужчины ) = 0,298 т.е. НЕ МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% ,298
Слайд 46: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
46 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ,298 Paired Samples T- test тест Стьюдента для парных выборок
Слайд 47: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
47 Ho: m1 = m2 ( среднее АД до начала приема препарата не отличается от среднего АД через 1 месяц после начала приема препарата) Ha: m1 ≠ m2 ( среднее АД до начала приема препарата отличается от среднего АД через 1 месяц после начала приема препарата ) формулируем H 0 и H а для парного теста Стьюдента 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ
Слайд 48: Paired Samples T- test тест Стьюдента для парных выборок
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») M (до) = 172,1 мм рт.ст. M (после) = 156,7 мм рт.ст. Различия являются статистически значимыми ( p < 0,00 01 ) РЕКОМЕНДУЕТСЯ УКАЗЫВАТЬ ТОЧНОЕ ЗНАЧЕНИЕ « p » 48
Слайд 50: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН
50 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543
Слайд 51: СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН
51 СРАВНЕНИЕ 2-х СРЕДНИХ ВЕЛИЧИН СРАВНЕНИЕ 3-х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 X = 65,9 SD = 1 6, 1 N = 1627 X = 70,1 SD = 1 7, 3 N = 1543 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ СРЕДНЕЕ ОБРАЗОВАНИЕ Почему нельзя сравнить группы попарно с помощью t - критерия Стьюдента? ЭФФЕКТ МНОЖЕСТВЕННЫХ СРАВНЕНИЙ При уровне значимости α = 0,05 вероятность ошибиться хотя бы в одном из k сравнений Р ошибки =1-(1-0,05) k Р ошибки =1-(1-0,05) k = 1-( 1-0,05) 3 = 1 4,3% ВЫПОЛНЯЯ СЕРИЮ ПОПАРНЫХ СРАВНЕНИЙ, В КАЖДОМ СЛУЧАЕ МЫ УМЕНЬШАЕМ ОБЪЕМ ВЫБОРКИ !!!
Слайд 52: СРАВНЕНИЕ 3-Х И БОЛЕЕ СРЕДНИХ ВЕЛИЧИН
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ В КАЖДОЙ ИЗ СРАВНИВАЕМЫХ ВЫБОРОК СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ В 1 ИЛИ БОЛЕЕ СРАВНИВАЕМЫХ ВЫБОРОК НЕЗАВИСИМЫЕ ВЫБОРКИ РУС.ВЕРСИЯ ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ K - Independent Samples test ( Kruskall -Wallis H test) Тест Крускелла-Уоллиса ЗАВИСИМЫЕ ВЫБОРКИ (ПОВТОРНЫЕ ИЗМЕРЕНИЯ) РУС.ВЕРСИЯ REPEATED MEASURES ANOVA (GLM-4) Дисперсионный анализ для повторных измерений Friedman’s test (Friedman’s ANOVA) Дисперсионный анализ Фридмана 52 НО ! Считается, что нарушение нормальности распределения не оказывает существенного влияния на результаты ) НО ! Считается, что нарушение равенства дисперсии выборок оказывает значимое влияние в том случае, если сравниваемые выборки отличаются по численности)
Слайд 53: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 3 и более выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в сравниваемых группах Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Равенство дисперсий изучаемого признака в сравниваемых группах ( гомоскедастичность ) Levene’s test for Equality of Variances (Sig. (p) ≥ 0,05) Если дисперсии не равны ( p < 0,05) = поправки Brown-Forsythe / Welch 53
Слайд 54: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса
ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 3 и более выборок см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Скошенное распределение данных хотя бы в одной из сравниваемых выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 54 ДИСПЕРСИЯ НЕ ПРОВЕРЯЕТСЯ
Слайд 55
55 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543
Слайд 56: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
56 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) X ( высшее) = X ( ср.спец.) = X (среднее) средняя продолжительность жизни не зависит от уровня образования Hа (альтернативная гипотеза) X ( высшее) ≠ X ( ср.спец.) X ( высшее) ≠ X (среднее) X ( ср.спец.) ≠ X (среднее) мы отвергаем Н0 гипотезу если верна хотя бы одна из частных На 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста « статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%)
Слайд 57: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
57 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА
Слайд 58: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
58 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( высшее) < 0,0001 p ( сред.спец.) < 0,0001 p ( среднее) < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа < 0,1% ( ошибочно принять На - найти то, чего нет) K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса
Слайд 59: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
59 Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 формулируем H 0 и H а для теста Краскелла-Уоллиса 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%
Слайд 60: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
60 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ ПРОЦЕДУР ТЕСТА МАННА-УИТНИ H 0 : m1 = m2 Ha: m1 ≠ m2 H 0 : m1 = m 3 Ha: m1 ≠ m 3 H 0 : m 2 = m 3 Ha: m 2 ≠ m 3 1 2 3
Слайд 61
61 H 0 : m1 = m2 Средняя продолжительность жизни лиц с высшим образованием не отличается от средней продолжительности жизни лиц со средним специальным образованием H а : m1 ≠ m 3 Средняя продолжительность жизни лиц с высшим образованием отличается от средней продолжительности жизни лиц со средним образованием H а : m 2 ≠ m 3 Средняя продолжительность жизни лиц со средним специальным образованием отличается от средней продолжительности жизни лиц со средним образованием ПОПРАВКА БОНФЕРРОНИ: критический уровень “ p ” < 0.05/3 = < 0.017
Слайд 62
62 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543
Слайд 63: K-Independent Samples test ( Kruskall -Wallis H test) Тест Краскелла-Уоллиса
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») m1 = 66,9 ( 95% ДИ: 65,7 – 68,2) m2 = 6 5, 9 (95% ДИ: 65,1 – 66,7) m 3 = 70, 1 (95% ДИ: 69,2 – 70,9) 63 «…средняя продолжительность жизни зависит от уровня образования человека ( H = 79, 6; p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной» ПОПРАВКА БОНФЕРРОНИ: ОШИБКА 1 ТИПА: α / n = 0.05/3 = 0,017
Слайд 64: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
64 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА Ho: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ НЕ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО Ha: РАСПРЕДЕЛЕНИЕ ПРИЗНАКА В ГРУППАХ ОТЛИЧАЕТСЯ ОТ НОРМАЛЬНОГО p ( высшее) = 0, 298 p ( сред.спец.) < 0, 345 p ( среднее) < 0, 455 т.е. ОТКЛОНЯЕМ Ha вероятность ошибки 1 типа > 5% ,298 ,345 , 455 ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
Слайд 65: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
ЦЕЛЬ: с помощью ДА исследуют влияние одной (одномерный анализ) или нескольких (многомерный анализ) независимых переменных на одну зависимую переменную или на несколько зависимых переменных Независимые переменные КАК ПРАВИЛО принимают только дискретные значения (относятся к номинальной или порядковой шкале ) - это ФАКТОРНЫЙ АНАЛИЗ Если независимые переменные принадлежат к интервальной шкале или к шкале отношений, то их называют ковариациями - это КОВАРИАЦИОННЫЙ АНАЛИЗ 65
Слайд 66: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ
66 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Оценка общей дисперсии по разбросу МЕЖДУ группами средние в каждой группе общее среднее число групп MS B – mean square between groups оценка расстояния между средними в группах размер группы
Слайд 67: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ
67 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Оценка общей дисперсии по разбросу ВНУТРИ групп сумма квадратов стандартных отклонений внутри групп число групп df W = n G - k
Слайд 68: ДИСПЕРСИОННЫЙ АНАЛИЗ: ОСНОВНАЯ ИДЕЯ
68 SD = σ = СТАНДАРТНОЕ ОТКЛОНЕНИЕ ВЫСШЕЕ СРЕД.СПЕЦ. СРЕДНЕЕ 34 32 43 56 44 56 76 57 43 46 87 35 89 91 53 51 43 47 60 74 48 67 73 40 76 68 44 43 35 46 54 63 56 71 49 80 80 21 16 24 67 37 59 78 50 … … … 66,9 65,9 70,1 Расчет F- статистики ANOVA F = оценка дисперсии между группами оценка дисперсии внутри групп
Слайд 69: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
69 Ho: σ 1 = σ 2 = σ 3 ( дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования равны между собой) Ha: σ 1 ≠ σ 2 ≠ σ 3 ( дисперсии средней продолжительности жизни в группах лиц в зависимости от уровня образования НЕ равны между собой) формулируем H 0 и H а для теста ЛЕВЕНЕ (тест равенства дисперсий) 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ NB: НЕОБХОДИМА ПОПРАВКА БРОУНА-ФОРСИТА / УЭЛЧА
Слайд 70: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
70 Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 формулируем H 0 и H а для ANOVA 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1%
Слайд 71
71 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543 В КАКОЙ ИМЕННО ПАРЕ СРЕДНЯЯ ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ ОТЛИЧАЕТСЯ ??? Ho: m1 = m2 = m3 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3
Слайд 72: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
72 Ha: m1 ≠ m2 / m1 ≠ m3 / m2 ≠ m3 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ POST HOC тестов H 0 : m1 = m2 Ha: m1 ≠ m2 H 0 : m1 = m 3 Ha: m1 ≠ m 3 H 0 : m 2 = m 3 Ha: m 2 ≠ m 3 1 2 3
Слайд 73: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ СОБЛЮДЕНО Bonferroni – если число групп не более 5 Tukey – если число групп более 5 УСЛОВИЕ О РАВЕНСТВЕ ДИСПЕРСИЙ НЕ СОБЛЮДЕНО Games-Howell – если группы равны, большие группы 73 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ ДАЛЕЕ НЕОБХОДИМА СЕРИЯ POST HOC тестов
Слайд 74: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
74 ПРОБЛЕМА БОНФЕРРОНИ: необходимо внести поправку на количество групп ОШИБКА 1 ТИПА: α / n = 0.05/3 = 0,017
Слайд 75
75 ИССЛЕДОВАТЕЛЬСКИЙ ВОПРОС: УРОВЕНЬ ОБРАЗОВАНИЯ ВЛИЯЕТ НА ПРОДОЛЖИТЕЛЬНОСТЬ ЖИЗНИ? X = 66,9 SD = 1 4, 7 N = 515 ВЫСШЕЕ ОБРАЗОВАНИЕ СРЕДНЕЕ СПЕЦИАЛЬНОЕ ОБРАЗОВАНИЕ X = 65,9 SD = 1 6, 1 N = 1627 СРЕДНЕЕ ОБРАЗОВАНИЕ X = 70,1 SD = 1 7, 3 N = 1543
Слайд 76: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
КАК ПРЕДСТАВИТЬ РЕЗУЛЬТАТ («АКАДЕМИЧЕСКАЯ ВЕРСИЯ») m1 = 66,9 ( 95% ДИ: 65,7 – 68,2) m2 = 6 5, 9 (95% ДИ: 65,1 – 66,7) m 3 = 70, 1 (95% ДИ: 69,2 – 70,9) 76 «…средняя продолжительность жизни зависит от уровня образования человека ( F = 25,4 (Welch) ; p < 0,0001). Продолжительность жизни лиц, имевших среднее образование, была статистически значимо выше, чем у лиц, имевших высшее и среднее специальное образование »; средняя продолжительность жизни лиц, имевших высшее и среднее специальной образование, была равной
Слайд 77: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
77 «доля объяснённой вариабельности» 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости SS - суммы квадратов отклонений ( sum of squares ): SS B - средних в группах от общего среднего = Effect SS W – измерений от средних в группах = Error R 2 = 0. 0 1 – «незначительный» эффект R 2 = 0. 06 – «средний» эффект R 2 = 0. 1 4 – «значительный» эффект
Слайд 78: ONE-WAY ANOVA ДИСПЕРСИОННЫЙ АНАЛИЗ
78 «практическая значимость» результата: f = 0, 1 – «незначительный» эффект f = 0.25 – «средний» эффект f = 0.4 – «значительный» эффект Общая дисперсия по разбросу ВНУТРИ групп 5 ЭТАП: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ / оценка практической значимости
Слайд 80: Математическая зависимость величин
80 Наличие математической зависимости / корреляции НЕ ОЗНАЧАЕТ наличия ПРИЧИННО-СЛЕДСТВЕННОЙ взаимосвязи между переменными НАПРАВЛЕНИЕ ЗАВИСИМОСТИ: Положительная Отрицательная СИЛА ЗАВИСИМОСТИ: - Отсутствует Слабая Средняя Сильная Абсолютная
Слайд 81: ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ
81 ЗАДАНИЕ: ОПРЕДЕЛИТЬ НАПРАВЛЕНИЕ И СИЛУ ЗАВИСИМОСТИ ПЕРЕМЕННЫХ
Слайд 82: МНОЖЕСТВО КОРРЕЛЯЦИОННЫХ ПОЛЕЙ
82 Множество корреляционных полей. https://ru.wikipedia.org/wiki/ Корреляция
Слайд 83: Как можно количественно выразить математическую зависимость 2-х величин ?
83 КОВАРИАЦИЯ КОРРЕЛЯЦИЯ КОВАРИАЦИЯ – это степень согласованности отклонений двух переменных cov ( x,y ) = Σ [( x - среднее x )( y - среднее y )] Смысл: если 1 варианта отклоняется от средней, можно ожидать, что 2-я отклонится в ту же сторону КОРРЕЛЯЦИЯ – это ковариация стандартизованных переменных r = cov ( x,y ) / SDxy Смысл : отношение наблюдаемой ковариации двух стандартизованных переменных к максимально возможной ковариации
Слайд 84: Корреляция
КОРРЕЛЯЦИЯ – это двумерное измерение силы и направления математической взаимосвязи между двумя переменными 84 0 +1 -1 случайная связь абсолютная положителная линейная связь а бсолютная негативная линейная связь
Слайд 85: КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ
Непрерывные Порядковые Дихотомические Непрерывные Pearson's r Spearman's rho Kendall's tau Spearman's rho Kendall's tau Polyserial correlation Polyserial correlation Point- biserial correlation ( истинная дихотомия) Biserial correlation ( ложная дихотомия) Порядковые Spearman's rho Kendall's tau Polyserial correlation Spearman's rho Kendall's tau Polychoric correlation Rank biserial correlation Дихотомические Polyserial correlation Point- biserial correlation (истинная дихотомия) Biserial correlation ( ложная дихотомия) Rank biserial correlation Polychoric correlation ( tetrachoric correlation) phi 85 Единственный параметрический критерий
Слайд 86: Пример расчета коэффициента корреляции Пирсона
86 N Содержание тестостерона в крови, нг / дл (X) Процент мышечной массы, % ( Y) 1. 951 83 2. 874 76 3. 957 84 4. 1084 89 5. 903 79 1 ЭТАП. Расчет суммы значений переменных X и Y: Σ(X ) = 951 + 874 + 957 + 1084 + 903 = 4769 Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441 http://medstatistic.ru/theory/pirson.html
Слайд 87: Пример расчета коэффициента корреляции Пирсона
87 N Содержание тестостерона в крови, нг / дл (X) Процент мышечной массы, % ( Y) 1. 951 83 2. 874 76 3. 957 84 4. 1084 89 5. 903 79 2 ЭТАП. Расчет средних арифметических для X и Y: Mx = Σ(X) / n = 4769 / 5 = 953.8 My = Σ(Y) / n = 441 / 5 = 82.2 http://medstatistic.ru/theory/pirson.html
Слайд 88: Пример расчета коэффициента корреляции Пирсона
88 3 ЭТАП. Расчет для каждого значения сопоставляемых показателей величину отклонения от среднего арифметического dx = X - Mx dy = Y - My N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) 1. 951 83 -2.8 0.8 2. 874 76 -79.8 -6.2 3. 957 84 3.2 1.8 4. 1084 89 130.2 6.8 5. 903 79 -50.8 -3.2 http://medstatistic.ru/theory/pirson.html
Слайд 89: Пример расчета коэффициента корреляции Пирсона
89 4 ЭТАП. Возвести в квадрат каждое значение отклонения dx и dy N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) d x 2 d y 2 1. 951 83 -2.8 0.8 7.84 0.64 2. 874 76 -79.8 -6.2 6368.04 38.44 3. 957 84 3.2 1.8 10.24 3.24 4. 1084 89 130.2 6.8 16952,04 46.24 5. 903 79 -50.8 -3.2 2580,64 10.24 http://medstatistic.ru/theory/pirson.html
Слайд 90: Пример расчета коэффициента корреляции Пирсона
90 5 ЭТАП. Расчет для каждой пары анализируемых значений произведение отклонений dx x dy : N Содержание тестостерона в крови, нг/дл (X) Процент мышечной массы, % (Y) Отклонение содержания тестостерона от среднего значения (d x ) Отклонение % мышечной массы от среднего значения (d y ) d x 2 d y 2 d x x d y 1. 951 83 -2.8 0.8 7.84 0.64 -2.24 2. 874 76 -79.8 -6.2 6368.04 38.44 494.76 3. 957 84 3.2 1.8 10.24 3.24 5.76 4. 1084 89 130.2 6.8 16952,04 46.24 885.36 5. 903 79 -50.8 -3.2 2580,64 10.24 162.56 http://medstatistic.ru/theory/pirson.html
Слайд 91: Пример расчета коэффициента корреляции Пирсона
91 6 ЭТАП. Расчет значения суммы квадратов отклонений Σ(d x 2 ) и Σ(d y 2 ) Σ(d x 2 ) = 25918.8 Σ(d y 2 ) = 98.8 7 ЭТАП. Расчет значения суммы произведений отклонений Σ( d x x d y ) Σ( d x x d y ) = 1546.2 8 ЭТАП. Расчет значения коэффициента корреляции Пирсона r xy http://medstatistic.ru/theory/pirson.html
Слайд 92: Пример расчета коэффициента корреляции Пирсона
92 9 ЭТАП. Оценка достоверности результата – расчет t-критерия http://medstatistic.ru/theory/pirson.html Критическое значение t-критерия можно найти по специальной статистической таблице
Слайд 93: УСЛОВИЯ ПРИМЕНЕНИЯ КОРРЕЛЯЦИИ ПИРСОНА
93 ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное распределение изучаемого признака в каждой из выборок Test Shapiro-Wilk / Kolmogorov-Smirnov 5. Гомоскедастичность - предполагается, что дисперсия ошибки остается той же самой в любой точке на протяжении всей линейной связи (иначе коэффициент корреляции будет завышаться или, наоборот, занижаться) обычно не проверяется 6. Линейная связь Graphs – Scatter/Dot (точечный график) 7. Отсутствие «выбросов»
Слайд 94: коэффициент корреляции Пирсона
94 коэффициент корреляции Пирсона Корреляция является симметричной, поэтому она не может говорить о направлении каузальной связи
Слайд 95: Коэффициент детерминации R 2
95 R 2 - коэффициент детерминации - доля дисперсии переменной X, объясняемая вариабельностью переменной Y r xy = 0,5 R 2 = 0, 2 5 Таким образом, вариабельность переменной Х объясняет 25% вариабельности переменной Y
Слайд 96: УСЛОВИЯ ПРИМЕНЕНИЯ КОЭФФИЦИЕНТА РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА, КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ КЕНДАЛЛА (тау)
96 ASSUMPTIONS / УСЛОВИЯ ПРИМЕНЕНИЯ КАК ПРОВЕРИТЬ? 1. Сравниваем 2 выборки см. характеристики собранных данных 2. Выборки д.б. независимыми см. характеристики собранных данных 3. Количественный непрерывный / порядковый тип данных в каждой из сравниваемых выборок см. тип данных 4. Нормальное / скошенное распределение изучаемого признака можно не проверять
Слайд 97: ОСНОВНОЙ НЕДОСТАТОК КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Коэффициент корреляции демонстрирует А) направление взаимосвязи переменных Б) силу взаимосвязи переменных 97 НО коэффициент корреляции бесполезен, если мы х отим ПРЕДСКАЗАТЬ значение переменной X по значению переменной Y РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 99: КОРРЕЛЯЦИЯ vs. регрессия
99 МЕЖДУ ПЕРЕМЕННЫМИ ЕСТЬ ЗАВИСИМОСТЬ? КОРРЕЛЯЦИОННЫЙ АНАЛИЗ – демонстрирует лишь направление взаимосвязи переменных и силу взаимосвязи переменных ИССЛЕДОВАТЕЛЯ МОГУТ ДОПОЛНИТЕЛЬНО ИНТЕРЕСОВАТЬ ВОПРОСЫ: 1) как сильно влияет на зависимую (1) переменную А) другая (1) независимая переменная? Б) одновременно 2 и > независимых переменных? 2) какие именно переменные влияют на зависимую переменную (отсеять из набора переменных «лишние»)? 3) какие именно переменные влияют одновременно на 2 и более зависимых переменных из набора ? 4) можно ли по значениям одной (нескольких) переменных ПРЕДСКАЗАТЬ значение другой (других) переменных
Слайд 100: Регрессия: ОСНОВНАЯ ИДЕЯ
Y = f(X) 100 Зависимость между переменными может быть выражена УРАВНЕНИЕМ ОСНОВНАЯ ИДЕЯ РЕГРЕССИИОННОГО АНАЛИЗА: математически рассчитать параметры УРАВНЕНИЯ РЕГРЕССИИ (с какой силой / в каком направлении переменные влияют на зависимую переменную)
Слайд 101: Регрессия: ОСНОВНАЯ ПРОБЛЕМА
101 Какая форма зависимости одной переменной от другой переменной ? Какая форма зависимость одной переменных от нескольких переменных ? линейная зависимость нелинейная зависимость ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ НЕЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 102: ВЫБОР МОДЕЛИ РЕГРЕССИОННОГО АНАЛИЗА
ДИХОТОМИЧЕСКАЯ ЗАВИСИМАЯ ПЕРЕМЕННАЯ НЕПРЕРЫВНАЯ КАТЕГОРИАЛЬНАЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ БИНАРНАЯ ЛОГИСТИЧЕСКАЯ МУЛЬТИНОМИАЛЬНАЯ ЛОГИСТИЧЕСКАЯ ПОРЯДКОВАЯ ОРДИНАЛЬНАЯ ЛОГИСТИЧЕСКАЯ КАТЕГОРИАЛЬНАЯ LOG-LINEAR ANALYSIS +++ другие методы регрессионного анализа (напр., регрессия Пуассона…)
Слайд 103: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
103 ПРОСТАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ Y – зависимая переменная / переменная отклика B0 – константа Bn – коэффициент регрессии / градиент E - ошибка + E
Слайд 104: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
104 Идея LRA : построить прямую, наиболее точно предсказывающую значение зависимой переменной от предиктора (- ов ) (и рассчитать ее параметры, т.е. ФОРМУЛУ ) – «линейный» анализ В ЭТОМ «МИНУС» ЛРА – в природе нет линейной зависимости (тем более 1 зависимой переменной от нескольких) ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 105: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
105 H0 (LRA): - Зависимая переменная лучше всего описывается средней арифметической Ha (LRA): - Зависимая переменная лучше всего описывается некоторой линейной моделью Далее программа (по методу «наименьших квадратов») «подбирает» линию (модель), которая наилучшим образом «предсказывает» зависимую переменную по значению независимого предиктора ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 106: SS т общая сумма различий между фактическими данными и средней арифметической
106 СНАЧАЛА ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ ( H 0) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ : ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 107: ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
107 SS R общая сумма различий между фактическими данными и моделью ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО МОДЕЛЬ ( H а ) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 108: SS М = SS т – SS R ПОКАЗЫВАЕТ УЛУЧШЕНИЕ В ПРЕДСКАЗАТЕЛЬНОЙ СИЛЕ МОДЕЛИ В СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ
108 - показывает количество дисперсии, которая объясняется моделью = ERROR ДАЛЕЕ ПРОГРАММА АНАЛИЗИРУЕТ, НАСКОЛЬКО ХОРОШО МОДЕЛЬ ( H а ) ПРЕДСКАЗЫВАЕТ ЗАВИСИМУЮ ПЕРЕМЕННУЮ В СРАВНЕНИИ С ПРОСТОЙ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ ( H0) ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ
Слайд 109
109 ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ ПРОГРАММА РАССЧИТЫВАЕТ СТАТИСТИКУ РЕГРЕССИОННОЙ МОДЕЛИ ( F – TEST ) СПОСОБНОСТЬ МОДЕЛИ УЛУЧШАТЬ ПРЕДСКАЗАНИЕ ЗАВИСИМОЙ ПЕРЕМЕННОЙ В СРАВНЕНИИ СО СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ F test MS(M) MS(R) p (F – test) < 0,05 МОДЕЛЬ «РАБОТАЕТ», т.е. предсказывает зависимую переменную лучше, чем средняя арифметическая ( H 0 )
Слайд 110
110 + E Bn – коэффициент регрессии / градиент - демонстрирует изменение значения зависимой переменной ( Y) при изменении предиктора (Х n ) на “1” ( единицу ) Статистическую значимость каждого коэффициента регрессии необходимо оценить H 0 : b1 = 0 Ha: b1 ≠ 0 ЛИНЕЙНЫЙ РЕГРЕССИОННЫЙ АНАЛИЗ СТАТИСТИКА РЕГРЕССИОННОЙ МОДЕЛИ ( F – TEST ) демонстрирует статистическую значимость всего уравнения регрессии
Слайд 111
А) ЗАВИСИМАЯ ПЕРЕМЕННАЯ: количественная непрерывная (неограниченная) Б) НЕЗАВИСИМЫЕ ПЕРЕМЕННЫЕ (ПРЕДИКТОРЫ): количественные непрерывные и дихотомические (0;1) В) ЛИНЕЙНАЯ СВЯЗЬ: Graphs – Scatter/Dot (можно проверить для простой регрессии) Г) ГОМОСКЕДАСТИЧНОСТЬ - предполагается, что дисперсия ошибки остается той же самой в любой точке на протяжении всей линейной связи Д) НЕЗАВИСИМЫЕ НАБЛЮДЕНИЯ ( DURBIN-WATSON ≈ 2 (DW ϵ [1;3] )) Е) НОРМАЛЬНО РАСПРЕДЕЛЕННЫЕ ОСТАТКИ ( residuals) Ж) НЕ Д.Б. МУЛЬТИКОЛЛИНЕАРНОСТИ ( R > 0,8 – проблема; VIF > 10 - проблема ) 111 УСЛОВИЯ ПРИМЕНЕНИЯ ( ASSUMPTIONS) ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА
Слайд 112
OUTLIER: случаи, значительно влияющие на тренд ( >2,58 – проблема) INFLUENTIAL CASES: случаи, заметно влияющие на модель (ее значимость) COOK’S DISTANCE – д.б. < 1 – мера влияния случая на модель MAHALANOBIS – разница м/д случаем и средней арифметической N = 500 – д.б. < 25 N = 100 – д.б. < 15 N = 30 – д.б. < 11 112 УСЛОВИЯ ПРИМЕНЕНИЯ ( ASSUMPTIONS) ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА
Слайд 113
113 ПРИМЕР ЛИНЕЙНОГО РЕГРЕССИОННОГО АНАЛИЗА ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ ПОЛ ПАЦИЕНТА ДОХОД ПАЦИЕНТА ВОЗРАСТ ПАЦИЕНТА
Слайд 114: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
114 1 ЭТАП: ФОРМУЛИРУЕМ Н0 и На ГИПОТЕЗЫ ФОРМУЛИРОВКА H0 (нулевая гипотеза) простая средняя арифметическая предсказывает исход лучше, чем модель регрессии Hа (альтернативная гипотеза) модель регрессии предсказывает исход лучше, чем простая средняя арифметическая 2 ЭТАП: ОПРЕДЕЛЯЕМ УСЛОВИЯ, ПРИ КОТОРЫХ ПРИМЕМ На (ОТВЕРГНЕМ Н0 ) БУДЕМ считать результаты теста «статистически значимыми» (т.е. примем Ha) при вероятности ошибки 1 типа ( α -ошибки) менее 0.05 (5%)
Слайд 115: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
115 3 ЭТАП: ВЫБОР СТАТИСТИЧЕСКОГО КРИТЕРИЯ / МЕТОДА ВЕЛИЧИНА РАСХОДОВ ПАЦИЕНТОВ НА МЕДИКАМЕНТЫ зависимая переменная: количественная непрерывная ПОЛ ПАЦИЕНТА: дихотомическая предикторы: количественная непрерывная / дихотомическая ВОЗРАСТ ПАЦИЕНТА: к оличественная непрерывная BMI ПАЦИЕНТА : количественная непрерывная ПОДХОДИТ МНОЖЕСТВЕННАЯ ЛИНЕЙНАЯ РЕГРЕССИЯ
Слайд 116: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
116 Ho: F- статистика модели стат.незначима Ha: F- статистика модели стат.значима формулируем H 0 и H а 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ p < 0,0001 т.е. МОЖЕМ принять Ha вероятность ошибки 1 типа ( ошибочно принять На - найти то, чего нет) < 0,1% МОДЕЛЬ РЕГРЕССИИ «РАБОТАЕТ» (описывает данные лучше, чем средняя арифметическая)
Слайд 117: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
117 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ МОДЕЛЬ ОБЪЯСНЯЕТ 8,1% ДИСПЕРСИИ ЗАВИСИМОЙ ПЕРЕМЕННОЙ
Слайд 118: ПОРЯДОК ТЕСТИРОВАНИЯ СТАТИСТИЧЕСКОЙ ГИПОТЕЗЫ
118 Ho: t- статистика b стат.незначима Ha: t- статистика b стат.значима формулируем H 0 и H а для t- статистики коэффициентов b 4 ЭТАП: МАТЕМАТИЧЕСКИЕ РАССЧЕТЫ
Слайд 119: ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ
119 Y = расходы на медикаменты B0 = CONSTANT = 551,1 B1 = ВОЗРАСТ = 3 0, 9 B 2 = ПОЛ = -478, 3 (для мужчин) ДЛЯ 50-ЛЕТНЕГО МУЖЧИН ВЕЛИЧИНА РАСХОДОВ НА МЕДИКАМЕНТЫ РАСХОДЫ = 551, 1 + 3 0,9 × 50 – 478,3 = 1617,8 руб. + ERROR