Первый слайд презентации
1 ОСНОВЫ СТАТИСТИКИ МОРДОВСКИЙ ЭДГАР АРТУРОВИЧ К.М.Н., ДОЦЕНТ
Слайд 2: ПЛАН
Статистика & Биостатистика Информационная база системы здравоохранения Типы переменных Способы презентации результатов исследований Относительные величины Анализ динамических рядов
Слайд 4: КАДРЫ И КОНТРОЛЬ РЕШАЮТ ВСЁ…» !
4 В.И. ЛЕНИН (1870 – 1924) КОНТРОЛЬ ВОЗМОЖЕН ПРИ НАЛИЧИИ У ВРАЧА НАВЫКА АНАЛИЗА СТАТИСТИЧЕСКИХ ДАННЫХ : ЭТО ФУНДАМЕНТАЛЬНАЯ ОСНОВА ОБОСНОВАННЫХ УПРАВЛЕНЧЕСКИХ И КЛИНИЧЕСКИХ РЕШЕНИЙ
Слайд 7: ЛИТЕРАТУРА
7 А. Наследов SPSS 19. Профессиональный статистический анализ данных
Слайд 8: ЛИТЕРАТУРА
8 п/р В.И. Покровского Общая эпидемиология с основами доказательной медицины
Слайд 9: СТАТИСТИКА
отрасль знаний, в которой излагаются общие вопросы сбора, измерения и анализа массовых статистических ( количественных или качественных) данных 9 «СТАТИСТИКА» (от лат. « status » - состояние, положение ) « государствоведение » Впервые термин применил Готфрид Ахенвалль (сер. XVIII в.) при описании состояния государства ( нем. s tatistik, от итал. stato - государство )
Слайд 10: СТАТИСТИКА
изучает КОЛИЧЕСТВЕННУЮ СТОРОНУ массовых общественных явлений в неразрывной связи с их КАЧЕСТВЕННОЙ СТОРОНОЙ 10 ДАННЫЕ ИНФОРМАЦИЯ ОБОСНОВАННЫЕ КЛИНИЧЕСКИЕ, УПРАВЛЕНЧЕСКИЕ РЕШЕНИЯ
Слайд 12: Закон больших чисел
ЗАКОН БОЛЬШИХ ЧИСЕЛ: количественные закономерности массовых явлений проявляются лишь на достаточно большом числе единиц наблюдения 12 2 следствия
Слайд 13: Закон больших чисел
ЭКОЛОГИЧЕСКАЯ ОШИБКА ( ecological fallacy) – результаты, полученные на выборке, нельзя экстраполировать на единицу наблюдения АТОМИСТИЧЕСКАЯ ОШИБКА ( atomistic fallacy) – данные, полученные на единице наблюдения, нельзя экстраполировать на выборку 13 с ледствие 1 Закономерности, обнаруженные на выборке, не могут являться императивом действий с конкретным человеком (пациентом) Мнение одного эксперта не должно быть руководством для действий на выборке
Слайд 14: Закон больших чисел
14 с ледствие 2 Манипулируйте единицами наблюдения и получайте КАКИЕ УГОДНО результаты «…цифры обманчивы, особенно когда я сам ими занимаюсь; по этому поводу справедливо высказывание, приписываемое Дизраэли: «существует три вида лжи: ложь, наглая ложь и статистика». Марк Твен, 5 июля 1907 г.
Слайд 15: СТАТИСТИЧЕСКИЕ МЕТОДЫ
15 Статистические методы - методы анализа статистических данных методы прикладной статистики специальные методы статистики применяются во всех областях научных исследований применяются в отдельных областях научных исследований + ПЛАНИРОВАНИЕ ЭКСПЕРИМЕНТОВ
Слайд 16: СТАТИСТИЧЕСКИЕ МЕТОДЫ
16 СПЕЦИАЛЬНЫЕ СТАТИСТИЧЕСКИЕ МЕТОДЫ ЭКОНОМИКА / «ЭКОНОМЕТРИКА» МЕДИЦИНА и БИОЛОГИЯ / «БИОМЕТРИКА» = БИОСТАТИСТИКА СОЦИОЛОГИЯ / «СОЦИОМЕТРИКА»
Слайд 17: БИОМЕТРИКА или БИОСТАТИСТИКА
17 Биометрия (биологическая статистика / биостатистика ) — научная отрасль на стыке биологии и вариационной статистики, связанная с разработкой и использованием статистических методов в научных исследованиях (как при планировании количественных экспериментов, так и при обработке экспериментальных данных и наблюдений) в биологии, медицине, здравоохранении и эпидемиологии БИОСТАТИСТИКА КЛИНИЧЕСКИЕ ИСПЫТАНИЯ ЭПИДЕМИОЛОГИЧЕСКИЕ ИССЛЕДОВАНИЯ ЗДРАВООХРАНЕНИЕ : ПЛАНИРОВАНИЕ, УПРАВЛЕНИЕ, КОНТРОЛЬ
Слайд 18: МЕДИЦИНСКАЯ СТАТИСТИКА (отечественный подход)
Медицинская статистика (санитарная статистика, статистика в медицине и здравоохранении, медико-санитарная статистика, статистический метод в медицине и здравоохранении) — отрасль статистики, изучающая явления и процессы в области здоровья населения и здравоохранения 18 СТАТИСТИКА ЗДОРОВЬЯ СТАТИСТИКА ЗДРАВООХРАНЕНИЯ
Слайд 19: БИОСТАТИСТИКА» vs. «МЕДИЦИНСКАЯ СТАТИСТИКА»
19 БИОСТАТИСТИКА МЕДИЦИНСКАЯ СТАТИСТИКА КЛИНИЧЕСКИЕ ИСПЫТАНИЯ ЭПИДЕМИОЛОГИЧЕСКИЕ ИССЛЕДОВАНИЯ ЗДРАВООХРАНЕНИЕ : ПЛАНИРОВАНИЕ, УПРАВЛЕНИЕ, КОНТРОЛЬ СТАТИСТИКА ЗДОРОВЬЯ СТАТИСТИКА ЗДРАВООХРАНЕНИЯ ???
Слайд 23: Статистическая система здравоохранения. ИНФОРМАЦИОННАЯ БАЗА (1). ФЕДЕРАЛЬНЫЕ СТАТИСТИЧЕСКИЕ НАБЛЮДЕНИЯ
Статистическое наблюдение – это массовое, планомерное, научно-организованное наблюдение за явлениями социальной и экономической жизни, которое заключается в регистрации отобранных признаков у каждой единицы совокупности Федеральное статистическое наблюдение - сбор первичных статистических данных и административных данных субъектами официального статистического учета 23 Федеральный закон от 29.11.2007 N 282-ФЗ ( ред. от 23.07.2013) "Об официальном статистическом учете и системе государственной статистики в Российской Федерации"
Слайд 24: Статистическая система здравоохранения. ИНФОРМАЦИОННАЯ БАЗА (1). ФЕДЕРАЛЬНЫЕ СТАТИСТИЧЕСКИЕ НАБЛЮДЕНИЯ
24 ФЕДЕРАЛЬНЫЙ ПЛАН СТАТИСТИЧЕСКИХ РАБОТ содержит перечни субъектов официального статистического учета и выполняемых ими работ по формированию официальной статистической информации с указанием периодичности выполнения каждой работы, уровня агрегирования официальной статистической информации (по Российской Федерации в целом, по субъектам Российской Федерации, по муниципальным образованиям), группировки этой информации согласно классификационным признакам и сроков ее предоставления пользователям официальной статистической информацией или распространения Федеральный закон от 29.11.2007 N 282-ФЗ ( ред. от 23.07.2013) "Об официальном статистическом учете и системе государственной статистики в Российской Федерации"
Слайд 25: Статистическая система здравоохранения. ИНФОРМАЦИОННАЯ БАЗА (1). ФЕДЕРАЛЬНЫЕ СТАТИСТИЧЕСКИЕ НАБЛЮДЕНИЯ
25 ОТЧЕТНОСТЬ (организаций, учреждений, предприятий) СПЕЦИАЛЬНО ОРГАНИЗОВАННОЕ СТАТИСТИЧЕСКОЕ НАБЛЮДЕНИЕ (переписи, единовременные учеты) РЕГИСТРЫ ОРГАНИЗАЦИОННЫЕ ФОРМЫ (ТИПЫ) СТАТИСТИЧЕСКОГО НАБЛЮДЕНИЯ:
Слайд 26: Статистическая система здравоохранения: ИНФОРМАЦИОННАЯ БАЗА (2)
26 Недооцененный источник статистических данных (в России) Основной источник статистических данных за рубежом ПРИЧИНА: дефицит знаний, дорогие стат.программы
Слайд 27: СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ
СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ — это научно организованный по единой программе сбор, сводка и анализ данных (фактов) о социально-экономических, демографических и других явлениях и процессах общественной жизни в государстве с регистрацией их наиболее существенных признаков в учетной документации 27
Слайд 28: СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ
28 формулирование научной проблемы постановка цели и задач исследования составление программы исследования идентификация единицы наблюдения и типа статистической совокупности сбор материала контроль качества материала с татистическая обработка материала п одведение итогов ф ормулирование методических рекомендаций / управленческих решений НАУЧНАЯ ПРОБЛЕМА РЕКОМЕНДАЦИИ / РЕШЕНИЕ
Слайд 29: СТАТИСТИЧЕСКОЕ ИССЛЕДОВАНИЕ: где нужны знания статистики ???
29 формулирование научной проблемы составление программы исследования сбор материала с татистическая обработка материала п одведение итогов ф ормулирование методических рекомендаций / управленческих решений а нализ имеющихся данных о научной проблеме р асчет объема выборки контроль качества данных ( quality control ) + контроль стат.мощности результатов сопоставление полученных результатов с аналогами
Слайд 31: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
ЗАДАЧА: идентифицировать: единицу наблюдения тип статистической совокупности 31 ПОПУЛЯЦИЯ = ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ ВЫБОРКА = ВЫБОРОЧНАЯ СОВОКУПНОСТЬ ЕДИНИЦЫ НАБЛЮДЕНИЯ
Слайд 32: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
ЕДИНИЦА НАБЛЮДЕНИЯ - каждый первичный элемент статистической совокупности ЕДИНИЦА НАБЛЮДЕНИЯ наделена: признаками сходства признаками и различия 32
Слайд 33: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
33 ПРИЗНАКИ СХОДСТВА ПРИЗНАКИ РАЗЛИЧИЯ (УЧЕТНЫЕ ПРИЗНАКИ) Основание для объединения единиц в совокупность Составляют предмет исследования «человек» «цвет кожи»
Слайд 34: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ - группа, состоящая из всех относительно однородных элементов (единиц наблюдения) отобранная в соответствии с характеристиками поставленной цели 34 ПОПУЛЯЦИЯ = ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ
Слайд 35: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
ВЫБОРОЧНАЯ СОВОКУПНОСТЬ - отобранная для исследования часть генеральной совокупности и предназначенная для характеристики всей генеральной совокупности ВЫБОРОЧНАЯ СОВОКУПНОСТЬ должна быть: количественно репрезентативна к ачественно репрезентативна генеральной совокупности 35 ВЫБОРКА = ВЫБОРОЧНАЯ СОВОКУПНОСТЬ
Слайд 36: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
КАЧЕСТВЕННАЯ РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ - структура выборки должна соответствовать таковой генеральной совокупности КАЧЕСТВЕННАЯ РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ - обеспечивается организаторами исследования (необходимы детальные сведения о структуре изучаемой популяции) 36
Слайд 37: 1 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: составление программы исследования
КОЛИЧЕСТВЕННАЯ РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ - объем выборки должен обеспечивать достаточную мощность получаемых результатов (результаты, полученные на выборке, должны быть достаточно «мощными», чтобы их экстраполировать на генеральную совокупность) 37 ОБЪЕМ ВЫБОРКИ РАСЧИТЫВАЕТСЯ ПО СПЕЦИАЛЬНЫМ ФОРМУЛАМ (СТАТ.ПРОГРАММЫ) В ЗАВИСИМОСТИ ОТ ТОГО, КАКИЕ ИМЕННО ВЕЛИЧИНЫ ПРЕДСТОИТ СРАВНИТЬ И С КАКОЙ ТОЧНОСТЬЮ
Слайд 38: Для расчета объема выборки пользуйтесь стат.калькуляторами, напр. WinPepi
38 powerandsamplesize.com
Слайд 39: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ : 3 ФАКТОРА Оценочная распространенность изучаемого явления Желаемый уровень точности ( confidence level) Приемлемый предел ошибки ( margin of error ) n = 39 n = объем выборки t = уровень точности (для 95% = 1.96) p = оценочная распространенность изучаемого явления m = предел ошибки (при 5% = 0.05)
Слайд 40: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
ПРИМЕР: В проекте « Al Haouz » в Марокко установлено, что около 30% детей сельских районов страдают от хронического недоедания. Рассчитать объем выборки для популяционного исследования в сфере питания ( nutrition survey), имеющего своей целью анализ данной медико-социальной проблемы (изучения особенностей питания детей) 1 ЭТАП: n = 40 ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
Слайд 41: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
2 ЭТАП : УЧЕТ ЭФФЕКТА ДИЗАЙНА Исследование основано на кластерной выборке (кластер – случайно выбранная, репрезентативная генеральной совокупности, деревня). Следует скорректировать объем выборки на ЭФФЕКТ ДИЗАЙНА ( D ) 41 N = ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
Слайд 42: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
3 ЭТАП : ПОПРАВКА НА ОТКЛИК РЕСПОНДЕНТОВ В предыдущих исследованиях установлено, что 5% участников отказываются от участия в исследовании на одном из этапов 42 SS = ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ ИССЛЕДОВАНИЙ
Слайд 43: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ (СОЦИОЛОГИЧЕСКИХ) ИССЛЕДОВАНИЙ
43 Вид исследования Желаемая точность исследования t = 2; p=0.95 t = 2.5; p=0.98 t = 3.0; p=0.99 Ориентировочное знакомство 0.3 44 69 100 Исследование средней точности 0,4 100 156 225 Исследование повышенной точности 0,5 400 625 900
Слайд 44: ОБЪЕМ ВЫБОРКИ ДЛЯ ПОПУЛЯЦИОННЫХ (СОЦИОЛОГИЧЕСКИХ) ИССЛЕДОВАНИЙ
44 ОШИБКА ВЫБОРКИ ОБЪЕМ ВЫБОРКИ ± 11% 100 ± 8% 200 ± 6% 400 ± 5% 600 ± 4,5% 750 ± 4% 1000 ± 3% 1500 ± 2% 4000 ВЫБОРКА ВЦИОМ / ИНСТИТУТА ГЭЛЛАПА ДЛЯ НАЦИОНАЛЬНЫХ ИССЛЕДОВАНИЙ ОЦЕНКА ОБЩЕСТВЕННОГО МНЕНИЯ
Слайд 45: ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ)
45 ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ) n = ( Za + Zb × и – дисперсии признака в обеих группах Δ – минимальная ( клинически значимая ) величина различий, которую необходимо обнаружить Za и Zb – критические значения нормального стандартного распределения для заданных α и β ( односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам
Слайд 46: ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ)
46 ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ) = ( Za + Zb × Уровень знач. 0,005 0,01 0,012 0,02 0,025 0,05 0,1 0,15 0,2 0,25 0,3 Одностор. тест 2,567 2,326 2,257 2,054 1,96 1,645 1,282 1,036 0,842 0,674 0,524 Двусторон. тест 2,807 2,576 2,513 2,326 2,242 1,960 1,645 1,440 1,282 1,150 1,036 Критические значения Z стандартного нормального распределения
Слайд 47: ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ)
47 ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ КОЛИЧЕСТВЕННОГО ПОКАЗАТЕЛЯ В ДВУХ ГРУППАХ ( РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ) = П о финансовым, этическим или другим причинам исследователь м.б. ограничен в возможностях набрать группу достаточной численности Если известна фиксированная численность одной выборки (n1), то численность другой определяется по формуле: и – дисперсии признака в обеих группах Δ – минимальная ( клинически значимая ) величина различий, которую необходимо обнаружить Za и Zb – критические значения нормального стандартного распределения для заданных α и β ( односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам
Слайд 48: ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ ДОЛЕЙ (ЧАСТОТ ВСТРЕЧАЕМОСТИ ПРИЗНАКА) В ДВУХ РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ ГРУППАХ
48 ОБЪЕМ ВЫБОРКИ ДЛЯ СРАВНЕНИЯ ДОЛЕЙ (ЧАСТОТ ВСТРЕЧАЕМОСТИ ПРИЗНАКА) В ДВУХ РАВНОВЕЛИКИХ НЕЗАВИСИМЫХ ГРУППАХ = ( Za + Zb × p1 и p2 – доли, частоты встречаемости номинального признака Δ – минимальная ( клинически значимая ) величина различий, которую необходимо обнаружить Za и Zb – критические значения нормального стандартного распределения для заданных α и β ( односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам Как крайний случай можно выбрать p1 = 0,5 и p2 = 0,5, при этом численность выборки будет неоправданно завышена
Слайд 49: ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ
49 ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ = N – объем генеральной совокупности Δ – ошибка выборки ( min. = 0,05) Za – критические значения нормального стандартного распределения для заданной α (односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам – дисперсия признака
Слайд 50: ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ
50 ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ КОЛИЧЕСТВЕННЫХ ПРИЗНАКОВ = Δ – ошибка выборки ( min. = 0,05) Za – критические значения нормального стандартного распределения для заданной α (односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам – дисперсия признака ЕСЛИ ЧИСЛЕННОСТЬ ПОПУЛЯЦИИ НЕИЗВЕСТНА
Слайд 51: ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ НОМИНАЛЬНЫХ И ПОРЯДКОВЫХ ПРИЗНАКОВ
51 ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ НОМИНАЛЬНЫХ И ПОРЯДКОВЫХ ПРИЗНАКОВ = q = (1 – p) – объем генеральной совокупности p – подбирается случайным путем ( p « min ». = 0,05) Za – критические значения нормального стандартного распределения для заданной α (односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам N – объем генеральной совокупности
Слайд 52: ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ НОМИНАЛЬНЫХ И ПОРЯДКОВЫХ ПРИЗНАКОВ
52 ОБЪЕМ ВЫБОРКИ ДЛЯ ЭПИДЕМИОЛОГИЧЕСКИХ ИССЛЕДОВАНИЙ (СЛУЧАЙНАЯ ВЫБОРКА) – ДЛЯ НОМИНАЛЬНЫХ И ПОРЯДКОВЫХ ПРИЗНАКОВ = q = (1 – p) – объем генеральной совокупности p – подбирается случайным путем ( p « min ». = 0,05) Za – критические значения нормального стандартного распределения для заданной α (односторонний или двусторонний тест, в зависимости от формулировки альтернативной гипотезы ), определяются по таблицам N – объем генеральной совокупности ЕСЛИ ЧИСЛЕННОСТЬ ПОПУЛЯЦИИ НЕИЗВЕСТНА
Слайд 53: ОБЪЕМ ВЫБОРКИ
ПОПРАВКА НА ОТКЛИК РЕСПОНДЕНТОВ РАССЧИТАННЫЕ НА ПРЕДЫДУЩИХ ЭТАПАХ ОБЪЕМЫ ВЫБОРКИ НЕОБХОДИМО ДОПОЛНИТЬ ПОПРАВКОЙ НА ОТКЛИК РЕСПОНДЕНТОВ 53 SS = ОБЪЕМ ВЫБОРКИ
Слайд 55: 2 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: сбор материала
СБОР МАТЕРИАЛА - процесс регистрации, заполнения существующих или специально разработанных учетных документов (анкет, статистических карт) СБОР МАТЕРИАЛА следует сопровождать КОНТРОЛЕМ КАЧЕСТВА собранного материала ЦЕЛЬ: обеспечить ВАЛИДНОСТЬ ( validity) получаемых данных 55
Слайд 56: 2 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: сбор материала
КОНТРОЛЬ КАЧЕСТВА ( quality assurance & quality control) 56 QUALITY ASSURANCE QUALITY CONTROL Организуется ДО начала исследования: ЗАДАЧА: предотвратить (минимизировать) систематические ( systematic) и случайные ( random) ошибки Организуется ВО ВРЕМЯ исследования: ЗАДАЧА: минимизировать вероятность смещений ( bias) результатов; повысить достоверность ( reliability) результатов, выводов
Слайд 57
57 КОНТРОЛЬ КАЧЕСТВА ( QUALITY CONTROL ) Тип переменных Показатель Валидность Достоверность КАТЕГОРИАЛЬНЫЕ Чувствительность / специфичность Статистика Йодена ( J) Процент согласия ( percent agreement) Процент положительного согласия ( percent positive agreement) Статистика Каппа ( Kappa statistic) ++ ++ + + + + ++ ++ ++ НЕПРЕРЫВНЫЕ Точечные графики ( scatter plot) Коэффициент корреляции Пирсона Коэффициент корреляции Спирмена Среднее внутрипарное различие ( mean within-pair difference) Коэффициент дисперсии График Бланда -Альтмана + + + + ++ + + ++ ++ ++
Слайд 58
58 КОНТРОЛЬ КАЧЕСТВА ( QUALITY CONTROL ) Контроль «выбросов» ( outlier) ОШИБКА ЗАПОЛНЕНИЯ ФОРМ ??? ОСОБЕННЫЙ СЛУЧАЙ ???
Слайд 60: 3 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: обработка данных
Включает следующие последовательно выполняемые исследователем действия: шифровка группировка сводка данных в статистические таблицы вычисление статистических показателей и статистическая обработка материала 60
Слайд 62: 4 ЭТАП СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ: оформление полученных результатов (сведение данных в информацию)
Полученные в ходе исследования данные оформляются в виде ТАБЛИЦ и ГРАФИКОВ 62 ОФОРМЛЕНИЕ СТАТЕЙ, МЕТОДИЧЕСКИХ РЕКОМЕНДАЦИЙ …
Слайд 64
ПЕРЕМЕННЫЕ 64 КОЛИЧЕСТВЕННЫЕ КАТЕГОРИАЛЬНЫЕ ДИСКРЕТНЫЕ (DISCRETE) НЕПРЕРЫВНЫЕ (CONTINUOUS) ПОРЯДКОВЫЕ (ORDINAL) НОМИНАЛЬНЫЕ (NOMINAL) ТИП ПЕРЕМЕННЫХ ОПРЕДЕЛЯЕТ НАБОР СТАТИСТИЧЕСКИХ МЕТОДОВ АНАЛИЗА ЧИСЛОВОЕ ОБОЗНАЧЕНИЕ ИМЕЕТ СОДЕРЖАТЕЛЬНЫЙ СМЫСЛ ЧИСЛОВОЕ ОБОЗНАЧЕНИЕ НЕ ИМЕЕТ СОДЕРЖАТЕЛЬНЫЙ СМЫСЛ
Слайд 65: КОЛИЧЕСТВЕННЫЕ НЕПРЕРЫВНЫЕ ПЕРЕМЕННЫЕ
МОГУТ ПРИНИМАТЬ ЛЮБЫЕ ЗНАЧЕНИЯ [ В НЕКОТОРОМ ЗАДАННОМ ИНТЕРВАЛЕ ] 65 0,6 3,5 10,0 19,3 30,2 50,8 78,2 ПРИМЕРЫ: Возраст Масса Рост АД Биохимические показатели НАИБОЛЕЕ «ПЕРСПЕКТИВНЫЕ» : - м.б. трансформированы в любые другие переменные - максимальное количество статистических методов
Слайд 66: КОЛИЧЕСТВЕННЫЕ ДИСКРЕТНЫЕ ПЕРЕМЕННЫЕ
ЯВЛЯЮТСЯ ЗНАЧЕНИЯМИ ПРИЗНАКА, КОТОРЫЕ МОГУТ БЫТЬ ПОДСЧИТАНЫ С ПОМОЩЬЮ НАТУРАЛЬНЫХ ЧИСЕЛ 66 ПРИМЕРЫ: Число беременностей Паритет Число детей Число вызовов «03» «МАЛОПЕРСПЕКТИВНЫЕ» : относительно редко используются в статистике м ожно УСЛОВНО считать непрерывными, если N > 20 (700)
Слайд 67: КАТЕГОРИАЛЬНЫЕ НОМИНАЛЬНЫЕ ПЕРЕМЕННЫЕ
ДАННЫЕ, ДЛЯ КОТОРЫХ НЕТ СОДЕРЖАТЕЛЬНОГО ИНТЕРПРЕТИРУЕМОГО ПОРЯДКА 67 ПРИМЕРЫ: Пол Профессия Расовая принадлежность «ПЕРСПЕКТИВНЫЕ» : все чаще используются в статистике – идет развитие соответствующих методов, в т.ч. регрессионного анализа «1» «0»
Слайд 68: КАТЕГОРИАЛЬНЫЕ ПОРЯДКОВЫЕ ПЕРЕМЕННЫЕ
ДАННЫЕ, ДЛЯ КОТОРЫХ ЕСТЬ СОДЕРЖАТЕЛЬНЫЙ ИНТЕРПРЕТИРУЕМЫЙ ПОРЯДОК 68 ПРИМЕРЫ: Уровень образования «ПЕРСПЕКТИВНЫЕ» : все чаще используются в статистике – идет развитие соответствующих методов, в т.ч. регрессионного анализа «1» «2» «3» «4» «4» - не в 4 раза лучше, чем « 1 »
Слайд 69: ПРАВИЛА ОФОРМЛЕНИЯ БАЗЫ ДАННЫХ
69 ПРАВИЛА ОФОРМЛЕНИЯ БАЗЫ ДАННЫХ 1 СТРОКА = 1 ЕДИНИЦА НАБЛЮДЕНИЯ В 1 ЯЧЕЙКЕ = 1 ЧИСЛО / ЗНАЧЕНИЕ ПЕРЕМЕННОЙ
Слайд 70: СПОСОБЫ ПРЕЗЕНТАЦИИ ДАННЫХ В СТАТИСТИКЕ (ДИСКРИПТИВНАЯ / ОПИСАТЕЛЬНАЯ СТАТИСТИКА)
70
Слайд 71: СПОСОБЫ ПРЕЗЕНТАЦИИ ДАННЫХ В СТАТИСТИКЕ (ДИСКРИПТИВНАЯ / ОПИСАТЕЛЬНАЯ СТАТИСТИКА)
71 ТИП ПЕРЕМЕННОЙ ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ СРЕДНИЕ ВЕЛИЧИНЫ ТАБЛИЦЫ / ГРАФИКИ НЕПРЕРЫВНЫЕ ( CONTINUOUS) + + + ДИСКРЕТНЫЕ ( DISCRETE) + - + ПОРЯДКОВЫЕ ( ORDINAL) + - + НОМИНАЛЬНЫЕ ( NOMINAL) + - +
Слайд 73: Частотное распределение переменной ( frequency distribution )
73 Частотное распределение переменной ( frequency distribution ) ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ ( frequency distribution) – обнаружение соответствия между значениями переменной и их вероятностями (частотой встречаемости)
Слайд 74: Частотное распределение ДИСКРЕТНОЙ, НОМИНАЛЬНОЙ И ПОРЯДКОВОЙ переменных
74 Частотное распределение ДИСКРЕТНОЙ, НОМИНАЛЬНОЙ И ПОРЯДКОВОЙ переменных
Слайд 75: ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ
МОГУТ ПРИНИМАТЬ ЛЮБЫЕ ЗНАЧЕНИЯ [ В НЕКОТОРОМ ЗАДАННОМ ИНТЕРВАЛЕ ] 75 0,6 3,5 10,0 19,3 30,2 50,8 78,2 ПРИМЕРЫ: Возраст Масса Рост АД Биохимические показатели
Слайд 76: ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ
76 ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ Упорядочить (по возрастанию) значения переменной ЭТАПЫ ПОСТРОЕНИЯ ЧАСТОТНОГО РАСПРЕДЕЛЕНИЯ 0,6 0,8 3,6 10,6 12,6 12,8 17,6 18,3 19,1 19,9
Слайд 77: ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ
77 ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ 2. Разбить выборку на группы по равным интервалам (по формуле Стерджесса ) n = 1 + 3.322lgN n – число групп N – количество единиц наблюдения ЭТАПЫ ПОСТРОЕНИЯ ЧАСТОТНОГО РАСПРЕДЕЛЕНИЯ n = 1 + 3.322lg 10 = 4
Слайд 78: ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ
78 ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ 3. Рассчитать границы интервалов 0-1 : 0,6 – 5,4 1-2: 5,4 – 10,2 2-3: 10,2 – 15,0 3-4: 15,0 – 19,9 ЭТАПЫ ПОСТРОЕНИЯ ЧАСТОТНОГО РАСПРЕДЕЛЕНИЯ 0,6 19,9 min max Δ = Δ =
Слайд 79: ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ
79 ЧАСТОТНОЕ РАСПРЕДЕЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ ГИСТОГРАММА – графическое представление частотного распределения, разбитого по интервалам ЧАСТОТЫ 4 группы Даже если нет единиц наблюдения, интервал обозначается на гистограмме
Слайд 81: ПРЕДСТАВЛЕНИЕ КОЛИЧЕСТВЕННЫХ НЕПРЕРЫВНЫХ ПЕРЕМЕННЫХ В ВИДЕ СРЕДНИХ ВЕЛИЧИН
81 ВАРИАЦИОННАЯ СТАТИСТИКА – раздел статистики, изучающая теорию и методы изучения свойств массовых явлений, а также вычисления и анализа их количественных характеристик АНАЛИЗОМ СРЕДНИХ ВЕЛИЧИН з анимается ВАРИАЦИОННАЯ СТАТИСТИКА
Слайд 82
82 СРЕДНЯЯ ВЕЛИЧИНА - это обобщающая характеристика размера изучаемого признака; позволяет одним числом количественно охарактеризовать качественно однородную совокупность
Слайд 83: ВИДЫ СРЕДНИХ ВЕЛИЧИН
МОДА - значение во множестве наблюдений, которое встречается НАИБОЛЕЕ ЧАСТО 83 В статистической совокупности м.б. НИ ОДНОЙ МОДЫ АМОДАЛЬНОЕ РАСПРЕДЕЛЕНИЕ НАЗНАЧЕНИЕ МОДЫ: ГЕНЕРИРОВАНИЕ ИССЛЕДОВАТЕЛЬСКИХ ГИПОТЕЗ
Слайд 84: ВИДЫ СРЕДНИХ ВЕЛИЧИН
МОДА - значение во множестве наблюдений, которое встречается НАИБОЛЕЕ ЧАСТО 84 В статистической совокупности м.б. ОДНА МОДА УНИМОДАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Слайд 85: ВИДЫ СРЕДНИХ ВЕЛИЧИН
МОДА - значение во множестве наблюдений, которое встречается НАИБОЛЕЕ ЧАСТО 85 В статистической совокупности м.б. НЕСКОЛЬКО МОД БИ- (МУЛЬТИ-) МОДАЛЬНОЕ РАСПРЕДЕЛЕНИЕ
Слайд 86: ВИДЫ СРЕДНИХ ВЕЛИЧИН
МЕДИАНА – варианта, делящая вариационный ряд на две равные половины ; остальные 50% - меньше медианы) 86 50 % единиц наблюдения имеют значение признака, меньшее медианы 50 % единиц наблюдения имеют значение признака, большее медианы При четном числе наблюдений: Me = (12,6 + 12,8 )/ 2 = 12, 7 Если имеется чётное количество случаев и два средних значения различаются, то медианой может служить любое число между ними
Слайд 87: ВИДЫ СРЕДНИХ ВЕЛИЧИН
МЕДИАНА – варианта, делящая вариационный ряд на две равные половины ; остальные 50% - меньше медианы) 87 50 % единиц наблюдения имеют значение признака, меньшее медианы 50 % единиц наблюдения имеют значение признака, большее медианы При нечетном числе наблюдений: Me = 12,6
Слайд 88: ВИДЫ СРЕДНИХ ВЕЛИЧИН
СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ ВЕЛИЧИНА ( X ) – одна из наиболее распространённых мер центральной тенденции, представляющая собой сумму всех зафиксированных значений, делённую на их количество СРЕДНЯЯ АРИФМЕТИЧЕСКАЯ ВЕЛИЧИНА ( X ) в отличие от моды и медианы опирается на все произведенные наблюдения 88
Слайд 89: ПРОБЛЕМА» СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ
89 = 11,6 Me = (12,6 + 12,8 )/2 = 12, 7
Слайд 90: ПРОБЛЕМА» СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ
90 = 20,1 Me = (12,6 + 12,8 )/2 = 12, 8 105,0 M M е 10 / 11 единиц наблюдения имеют значение признака (возраст) меньше, чем средняя арифметическая
Слайд 91: ПРИМЕНЕНИЕ СРЕДНИХ ВЕЛИЧИН
СРЕДНЯЯ ВЕЛИЧИНА ЛИШЬ ОПИСЫВАЕТ ЯВЛЕНИЕ 91 ПОМИМО САМОЙ СРЕДНЕЙ ВЕЛИЧИНЫ НЕОБХОДИМО ВЫБРАТЬ И РАССЧИТАТЬ КРИТЕРИЙ ЕЕ ТОЧНОСТИ
Слайд 92: ВИДЫ СРЕДНИХ ВЕЛИЧИН И МЕРА ИХ ТОЧНОСТИ
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ 92 ИСПОЛЬЗУЕМ: - СРЕДНЮЮ АРИФМЕТИЧЕСКУЮ - СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ ИСПОЛЬЗУЕМ: - МЕДИАНУ (Q2) - МЕЖКВАРТИЛЬНЫЙ ИНТЕРВАЛ ( Q1 – Q3)
Слайд 93
93 ЗНАЧЕНИЕ ПРИЗНАКА, напр. продолжительность жизни человека (годы) ЧИСЛО ЕДИНИЦ НАБЛЮДЕНИЙ, имеющих то или иное значение признака (чел.)
Слайд 95: Как определить, подчиняется ли вариационный ряд закону нормального распределения или нет ?
ТЕСТ ШАПИРО-УИЛКА ТЕСТ КОЛМОГОРОВА-СМИРНОВА 95 ТЕСТЫ – В БОЛЬШИНСТВЕ СТАТИСТИЧЕСКИХ ПРОГРАММ ( IBM SPSS, STATA, STATISTICA, PASW, R)
Слайд 97: ЕСЛИ РАСПРЕДЕЛЕНИЕ «НОРМАЛЬНОЕ»
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ 97 ИСПОЛЬЗУЕМ: - СРЕДНЮЮ АРИФМЕТИЧЕСКУЮ - СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ ИСПОЛЬЗУЕМ: - МЕДИАНУ (Q2) - МЕЖКВАРТИЛЬНЫЙ ИНТЕРВАЛ ( Q1 – Q3)
Слайд 98
Систолическое АД, мм. рт. ст. 116 118 119 121 122 125 127 128 130 X = 122,9 1 ШАГ : НАЙТИ СРЕДНЮЮ АРИФМЕТИЧЕСКУЮ (Х) СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Слайд 99
Систолическое АД, мм. рт. ст. d = ( V- Х ) 116 -6,9 118 -4,9 119 -3,9 121 -1,9 122 -0,9 125 2,1 127 4,1 128 5,1 130 7,1 Х = 122,9 2 ШАГ : ВЫЧЕСТЬ ИЗ ФАКТИЧЕСКОГО ЗНАЧЕНИЯ ПОКАЗАТЕЛЯ ( V) СРЕДНЮЮ АРИФМЕТИЧЕСКУЮ (d) СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Слайд 100: СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Систолическое АД, мм. рт. ст. d = (V- Х ) d 2 116 -6,9 47,6 118 -4,9 24,0 119 -3,9 15,2 121 -1,9 3,6 122 -0,9 0,8 125 2,1 4,4 127 4,1 16,8 128 5,1 26,0 130 7,1 50,4 Х = 122,9 100 3 ШАГ : ВОЗВЕСТИ В КВАДРАТ d (d 2 )
Слайд 101: СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Систолическое АД, мм. рт. ст. d = ( V- Х ) d 2 116 -6,9 47,6 118 -4,9 24,0 119 -3,9 15,2 121 -1,9 3,6 122 -0,9 0,8 125 2,1 4,4 127 4,1 16,8 128 5,1 26,0 130 7,1 50,4 Х = 122,9 101 4 ШАГ : РАССЧИТАТЬ СУММУ d2 188,8 СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Слайд 102: СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
102 N> 30 (50/100/500/5000) («большая выборка») N ≤ 30 («малая выборка») В нашем примере N =9 ( ≤ 30 ) – малая выборка СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Слайд 103: СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
103 SD = 4,8 ДИСПЕРСИЯ = ОСНОВА ДЛЯ ГРУППЫ СТАТИСТИЧЕСКИХ ПРИЕМОВ: т.н. «ДИСПЕРСИОННОГО АНАЛИЗА» ( ANOVA) СТАНДАРТНОЕ ОТКЛОНЕНИЕ ( STANDARD DEVIATION ) – мера разброса данных вокруг средней арифметической
Слайд 104: ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕЙ ВЕЛИЧИНЫ
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ - интервал, который покрывает неизвестный параметр с заданной надёжностью 104
Слайд 105: ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ СРЕДНЕЙ ВЕЛИЧИНЫ
Построение доверительного интервала для математического ожидания генеральной совокупности при известном стандартном отклонении 105
Слайд 106: РАСЧЕТ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА (95% - го )
РАССЧИТАТЬ ДИ С 95% ТОЧНОСТЬЮ: n = 25 X ( сред.арифм.) = 10 σ = 0,5 РЕШЕНИЕ: Верхняя граница: 10 + 1,96× 0,5 / √25 = 10,196 Нижняя граница: 10 - 1,96× 0,5 / √25 = 9, 804 Соответственно: X = 10,000 с 95% ДИ (9,804; 10,196) 106
Слайд 107: РАСЧЕТ ДОВЕРИТЕЛЬНОГО ИНТЕРВАЛА
107 ЛУЧШЕ ИСПОЛЬЗОВАТЬ БЕСПЛАТНЫЕ СТАТ.ПРОГРАММЫ: WINPEPI ЧЕМ ТОЧНЕЕ ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ, ТЕМ ОН ШИРЕ
Слайд 108: ЕСЛИ РАСПРЕДЕЛЕНИЕ «СКОШЕННОЕ»
НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ СКОШЕННОЕ РАСПРЕДЕЛЕНИЕ 108 ИСПОЛЬЗУЕМ: - СРЕДНЮЮ АРИФМЕТИЧЕСКУЮ - СРЕДНЕЕ КВАДРАТИЧЕСКОЕ ОТКЛОНЕНИЕ ИСПОЛЬЗУЕМ: - МЕДИАНУ (Q2) - МЕЖКВАРТИЛЬНЫЙ ИНТЕРВАЛ ( Q1 – Q3)
Слайд 111: ПРЕДСТАВЛЕНИЕ ДАННЫХ
ДЛЯ СРЕДНЕЙ АРИФМЕТИЧЕСКОЙ : 10,000 с 95% ДИ (9,804; 10,196 ) не рекомендуется указывать SD или V ДЛЯ МЕДИАНЫ: Q2 (Q1; Q3) 111
Слайд 113: Построение таблиц
В таблице различают подлежащее и сказуемое: СТАТИСТИЧЕСКОЕ ПОДЛЕЖАЩЕЕ – то, о чем говорится в таблице; обычно содержит основные признаки, являющиеся предметом исследования СТАТИСТИЧЕСКОЕ СКАЗУЕМОЕ – признаки характеризующие подлежащее 113
Слайд 114: СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ: ПРОСТЫЕ
Статистические таблицы разделяются на простые, групповые, комбинационные ПРОСТАЯ ТАБЛИЦА позволяет анализировать полученные данные, имеющие лишь один признак, - подлежащее (нет сказуемых) 114 ПОДЛЕЖАЩЕЕ
Слайд 115: СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ: ГРУППОВЫЕ
ГРУППОВАЯ ТАБЛИЦА - помимо подлежащего есть сказуемые (одно или более), группировки которых связаны (попарно) с группировками подлежащего 115 СКАЗУЕМЫЕ НЕ СВЯЗАНЫ МЕЖДУ СОБОЙ (ГРУППОВУЮ ТАБЛИЦУ МОЖНО РАЗДЕЛИТЬ НА ПРОСТЫЕ)
Слайд 116: СТАТИСТИЧЕСКИЕ ТАБЛИЦЫ: КОМБИНАЦИОННЫЕ
КОМБИНАЦИОННАЯ ТАБЛИЦА - есть два или несколько сказуемых, которые связаны не только с подлежащим, но и между собой 116 СКАЗУЕМЫЕ СВЯЗАНЫ МЕЖДУ СОБОЙ (КОМБИНАЦИОННУЮ ТАБЛИЦУ НЕЛЬЗЯ РАЗДЕЛИТЬ НА ПРОСТЫЕ)
Слайд 117: ГРАФИКИ / ДИАГРАММЫ
1. ДИАГРАММЫ - линейные - радиальные - столбиковые / внутристолбиковые - ленточные - секторные / кольцевые 2. КАРТОГРАММЫ 3. КАРТОДИАГРАММЫ 117
Слайд 118: ЛИНЕЙНЫЕ ДИАГРАММЫ
118 ДИНАМИКА процесса Равные временные интервалы на оси Х Указывать все значения признака на линиях Не более 3-4 кривых на одной диаграмме Рис. 1. Динамика показателей смертности и заболеваемости от состояния А на территории Б в 1990-2002 гг. (на 10.000 нас.)
Слайд 119: ЛИНЕЙНЫЕ ДИАГРАММЫ
119 Рис. 1. Средняя ожидаемая продолжительность населения приарктических регионов Европейского Севера России в 1991 – 2009 гг., оба пола, в годах ЛИНЕЙНЫЕ ДИАГРАММЫ
Слайд 120: РАДИАЛЬНЫЕ ДИАГРАММЫ
120 Частный случай линейных диаграмм ДИНАМИКА процесса в замкнутый цикл времени (год, сутки) Указывать все значения признака на линиях Не более 3-4 кривых на одной диаграмме Рис. 2. Сезонные изменения показателя заболеваемости от состояния А на территории Б в 2015 г. (на 10.000 нас.)
Слайд 121: СТОЛБИКОВЫЕ ДИАГРАММЫ
121 ДИНАМИКА и СТАТИКА Не используйте объемные графики Указывать все значения признака на столбцах Рис. 1. Смертность населения в зависимости от пола в трудоспособном возрасте в приарктических регионах Европейской части России в 2008 году ( на 1000 человек соотв. пола и возраста)
Слайд 122: СТОЛБИКОВЫЕ ДИАГРАММЫ
122 Рис. 1. Смертность от болезней системы кровообращения в приарктических регионах Европейского Севера России в 1992-2010 гг., оба пола (на 100.000 нас.)
Слайд 123: СЕКТОРНЫЕ ДИАГРАММЫ
123 СТРУКТУРА явления Используются редко На «прочие» должно приходится не более 10% (иначе структура явления считается неизученной)
Слайд 125: ГРАФИКИ ОТОБРАЖЕНИЯ ДИНАМИКИ СТРУКТУРЫ
125 Рис. 1. Распределение умерших мужчин в г. Архангельске в 10-летних возрастных группах в зависимости от места наступления смерти (в %)
Слайд 126: ВНУТРИСТОЛБИКОВЫЕ / ВНУТРИЛЕНТОЧНЫЕ ДИАГРАММЫ
126 СТРУКТУРА явления Сравнение структуры явлений Рис. 1. Распределение умерших от травм, отравлений и других последствий действия внешних причин в зависимости от обстоятельства смерти и обнаруженной на вскрытии концентрации этанола в крови (в %)
Слайд 127: СКАТТЕРОГРАММА
127 Взаимосвязь (корреляция) 2-х величин (в т.ч. относительных) Рис. 1. Корреляция веса (в кг) и роста (в см) в выборке
Слайд 129: КАРТОГРАММЫ
129 Отображение значения статистической величины на определенной территории цветовой индикацией Необходим графический редактор
Слайд 130: КАРТОДИАГРАММЫ
130 Отображение значения статистической величины на определенной территории (цветовая индикация) + использование диаграмм Необходим графический редактор
Слайд 133: ВИДЫ СТАТИСТИЧЕСКИХ ВЕЛИЧИН
ПРОПОРЦИЯ – статистическая величина, демонстрирующая, какую долю в совокупности занимают единицы наблюдения с определенными характеристиками × 100% ПРОПОРЦИЯ м.б. рассчитана для порядковых, количественных и номинальных переменных a – единицы наблюдения заданными характеристиками b – единицы наблюдения с прочими характеристиками ( a + b ) - популяция
Слайд 134: ВИДЫ СТАТИСТИЧЕСКИХ ВЕЛИЧИН
ОТНОШЕНИЕ – отношение числа единиц наблюдения с заданными характеристиками к числу единиц наблюдения с прочими характеристиками отношение
Слайд 135: ВИДЫ СТАТИСТИЧЕСКИХ ВЕЛИЧИН
ЧАСТОТА – число событий в популяции за единицу времени частота
Слайд 138: ЭКСТЕНСИВНЫЕ КОЭФФИЦИЕНТЫ
ЭКСТЕНСИВНЫЕ КОЭФФИЦИЕНТЫ – характеризуют распределение явления на его составные части, его внутреннюю структуру или отношение частей к целому (удельный вес ) 138 эк = × 100% При анализе экстенсивный показатель следует помнить, что им пользуются только для характеристики состава (структуры) явления в данный момент времени и в данном месте Примеры: структура населения по полу, возрасту, социальному положению; структура заболеваний по нозологии; структура причин смерти
Слайд 139: ИНТЕНСИВНЫЕ КОЭФФИЦИЕНТЫ
ИНТЕНСИВНЫЕ КОЭФФИЦИЕНТЫ – характеризуют силу, частоту ( степень интенсивности, уровень) распространения явления в среде, в которой оно происходит и с которой оно непосредственно связано 139 Выбор числового основания (100 ; 1000; 10000 … и т.д.) зависит от распространенности явления - чем реже встречается изучаемое явление, тем большее основание ик = × 100 / 1000 / 10000 / 100000
Слайд 140: ИНТЕНСИВНЫЕ КОЭФФИЦИЕНТЫ
ПРИМЕР РАСЧЕТА ИНТЕНСИВНОГО КОЭФФИЦИЕНТА РОЖДАЕМОСТИ В г. «А» общее число родившихся живыми за год составило 6.700 чел. Среднегодовая численность населения: 570.000 чел. 6.700 – 570.000 Х – 1.000 Х = (6.700 × 1.000) / 570.000 = 11,75 Т.о., коэффициент рождаемости составил 11,75 на 1000 нас. 140
Слайд 141: КОЭФФИЦИЕНТЫ СООТНОШЕНИЯ
КОЭФФИЦИЕНТЫ СООТНОШЕНИЯ – характеризуют численное соотношение двух, не связанных непосредственно между собой, независимых совокупностей, сопоставляемых только логически 141 Если интенсивные коэффициенты характеризуют частоту явлений, происходящих в данной среде (т.е. непосредственно связанных с этой средой), то коэффициенты соотношения указывают на числовое соотношение двух явлений, непосредственно между собой не связанных ик = × 100 / 1000 / 10000 / 100000
Слайд 142: КОЭФФИЦИЕНТЫ НАГЛЯДНОСТИ
КОЭФФИЦИЕНТЫ НАГЛЯДНОСТИ – применяются с целью более наглядного и доступного сравнения рядов абсолютных, относительных или средних величин. Они представляют технический прием преобразования цифровых показателей Этот коэффициент получают путем преобразования ряда величин по отношению к одной из них – базисной (любой, не обязательно начальной). Эта базисная величина принимается за 1; 100; 1000 и т.п., а остальные величины ряда, при помощи обычной пропорции, пересчитываются по отношению к ней 142 Годы Интенсивный коэффициент Коэффициенты наглядности ( уровень рождаемости в 1997 году принят за 100%) 1997 2000 8,6 8,3 100,0% 96,5% Рождаемость в России за 1997 и 2000 гг. (на 1000 нас.)
Слайд 145: Медицинская статистика
ВРАЧУ НЕОБХОДИМО: анализировать происходящие ВО ВРЕМЕНИ изменения в состоянии здоровья отдельных групп населения, в деятельности медицинских учреждений, в экспериментальных исследованиях Выявление основной тенденции изучаемого явления вне влияния "случайных" факторов позволяет определять ЗАКОНОМЕРНОСТИ изменений явления и на этой основе осуществлять ПРОГНОЗИРОВАНИЕ 145
Слайд 146: Динамический ряд
ДИНАМИЧЕСКИЙ РЯД — это ряд однородных статистических величин, показывающих изменение явления во времени 146 Год Рождаемость Смертность 2009 12,3 14,1 2010 12,5 14,2 2011 12,6 13,5 2012 13,3 13,3 2013 13,3 13,1 Коэффициенты рождаемости и смертности в России в 2009-2013 гг. (на 1000 нас.) Величины, составляющие динамический ряд, называются УРОВНЯМИ РЯДА
Слайд 147: Уровни динамического ряда
УРОВНИ ДИНАМИЧЕСКОГО РЯДА МОГУТ БЫТЬ ПРЕДСТАВЛЕНЫ: А) АБСОЛЮТНЫМИ ВЕЛИЧИНАМИ 147 Год Население 2009 142,785,344 2010 142,849,472 2011 142,960,908 2012 143,201,700 2013 143,502,097 Численность населения России в 2009-2013 гг.
Слайд 148: Уровни динамического ряда
УРОВНИ ДИНАМИЧЕСКОГО РЯДА МОГУТ БЫТЬ ПРЕДСТАВЛЕНЫ: Б) ОТНОСИТЕЛЬНЫМИ ВЕЛИЧИНАМИ 148 Коэффициенты рождаемости и смертности в России в 2009-2013 гг. (на 1000 нас.) Не рекомендуется сравнивать в динамике ЭКСТЕНСИВНЫЕ ВЕЛИЧИНЫ (удельный вес), так как величина их изменения зависит от соотношения внутри совокупности Год Рождаемость Смертность 2009 12,3 14,1 2010 12,5 14,2 2011 12,6 13,5 2012 13,3 13,3 2013 13,3 13,1
Слайд 149: Уровни динамического ряда
УРОВНИ ДИНАМИЧЕСКОГО РЯДА МОГУТ БЫТЬ ПРЕДСТАВЛЕНЫ: В) СРЕДНИМИ ВЕЛИЧИНАМИ 149 Год Средняя продолжительность жизни, лет 2009 68,8 2010 68,9 2011 69,8 2012 70,2 2013 70,8 Средняя продолжительность жизни населения России в 2009-2013 гг., лет
Слайд 150: ПОКАЗАТЕЛИ ДИНАМИЧЕСКИХ РЯДОВ
АБСОЛЮТНЫЙ ПРИРОСТ представляет собой разность между последующим и предыдущим уровнем. Измеряется в тех же единицах, в которых представлены уровни ряда 150 Год Средняя продолжительность жизни, лет АБСОЛЮТНЫЙ ПРИРОСТ 2009 68,8 - 2010 68,9 = 68,9 – 68,8 = 0,1 2011 69,8 = 69,8 – 68,9 = 0,9 2012 70,2 = 70,2 – 69,8 = 0,4 2013 70,8 = 70,8 – 70,2 = 0,6
Слайд 151: ПОКАЗАТЕЛИ ДИНАМИЧЕСКИХ РЯДОВ
ТЕМП РОСТА – процентное отношение последующего уровня к предыдущему СРАВНЕНИЕ МАСШТАБОВ ЯВЛЕНИЯ 151 Год Средняя продолжительность жизни, лет ТЕМП РОСТА 2009 68,8 - 2010 68,9 = (68,9 / 68,8) × 100% = + 100,14% 2011 69,8 = (69,8 / 68,9) × 100% = + 101,31% 2012 70,2 = (70,2 / 69,8) × 100% = + 100,57% 2013 70,8 = (70,8 / 70,2) × 100% = + 100,85%
Слайд 152: ПОКАЗАТЕЛИ ДИНАМИЧЕСКИХ РЯДОВ
ТЕМП ПРИРОСТА – процентное отношение абсолютного прироста к предыдущему уровню ДИНАМИКА ЯВЛЕНИЯ 152 Год Средняя продолжительность жизни, лет АБСОЛЮТНЫЙ ПРИРОСТ ТЕМП ПРИРОСТА 2009 68,8 - - 2010 68,9 = 68,9 – 68,8 = 0,1 = (0,1 / 68,8) × 100% = + 0,14% 2011 69,8 = 69,8 – 68,9 = 0,9 = (0,9 / 68,9) × 100% = + 1,31% 2012 70,2 = 70,2 – 69,8 = 0,4 = (0,4 / 70,2) × 100% = + 0,57% 2013 70,8 = 70,8 – 70,2 = 0,6 = (0,6 / 70,8) × 100% = + 0,85%
Слайд 153: ПОКАЗАТЕЛИ ДИНАМИЧЕСКИХ РЯДОВ
СОДЕРЖАНИЕ 1% ПРИРОСТА – отношение абсолютного прироста к темпу прироста ПЛАНОВЫЕ ПОКАЗАТЕЛИ 153 Год Средняя продолжительность жизни, лет АБСОЛЮТНЫЙ ПРИРОСТ ТЕМП ПРИРОСТА СОДЕРЖАНИЕ 1% ПРИРОСТА 2009 68,8 - - 2010 68,9 0,1 0,14% = (0,1 / 0,14%) = 0,71 2011 69,8 0,9 1,31% = (0,9 / 1,31%) = 0,69 2012 70,2 0,4 0,57% = (0,4 / 0,57%) = 0,70 2013 70,8 0,6 0,85% = (0,6 / 0,85%) = 0,71
Слайд 155: ВЫРАВНИВАНИЕ ДИНАМИЧЕСКОГО РЯДА
Если числовые значения признака динамического ряда имеют значительные колебания, что затрудняет выявление закономерностей развития явления, производится ВЫРАВНИВАНИЕ ДИНАМИЧЕСКОГО РЯДА 155
Слайд 156: МЕТОДЫ ВЫРАВНИВАНИЯ ДИНАМИЧЕСКОГО РЯДА
156 1) УКРУПНЕНИЕ ИНТЕРВАЛА путем суммирования уровней ряда за смежные периоды 2) ВЫЧИСЛЕНИЕ ГРУППОВОЙ СРЕДНЕЙ (суммируются смежные уровни соседних периодов, а затем полученную сумму делят на число слагаемых ) 3) ВЫЧИСЛЕНИЕ СКОЛЬЗЯЩЕЙ СРЕДНЕЙ (позволяет каждый уровень заменить на среднюю величину данного уровня и двух соседних с ними ) 4) МЕТОД НАИМЕНЬШИХ КВАДРАТОВ
Слайд 157: МЕТОД УКРУПНЕНИЯ ИНТЕРВАЛОВ (ПЕРИОДОВ)
Укрупнение периодов применяется, когда явление в интервальном ряду выражено в АБСОЛЮТНЫХ ВЕЛИЧИНАХ, уровни которых суммируются по более крупным периодам. Применение возможно при КРАТНОМ ЧИСЛЕ ПЕРИОДОВ 157 Годы Число случаев на 100 рабочих Укрупнение интервала 2008 57,0 2009 58,0 57+58=115 2010 64,0 2011 48,0 64+48=112 2012 36,0 2013 57,0 36+57=93 2014 44,0 2015 49,0 44+49=93 Таблица 1 Первичная заболеваемость болезнью N на комбинате в 2008 – 2015 гг. (на 100 работающих)
Слайд 158: ВЫЧИСЛЕНИЕ ГРУППОВОЙ СРЕДНЕЙ
Вычисление групповой средней применяется, когда уровни интервального ряда выражены в АБСОЛЮТНЫХ, СРЕДНИХ ИЛИ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИНАХ, которые суммируются, а затем делятся на число слагаемых. Способ применяется при КРАТНОМ ЧИСЛЕ ПЕРИОДОВ 158 Годы Число случаев на 100 рабочих Групповая средняя 2008 57,0 2009 58,0 (57+58)/2=57,5 2010 64,0 2011 48,0 (64+48)/2=56,0 2012 36,0 2013 57,0 (36+57)/2=46,5 2014 44,0 2015 49,0 (44+49)/2=46,5 Таблица 1 Первичная заболеваемость болезнью N на комбинате в 2008 – 2015 гг. (на 100 работающих)
Слайд 159: ВЫЧИСЛЕНИЕ СКОЛЬЗЯЩЕЙ СРЕДНЕЙ
Расчет скользящей средней применяется, когда уровни явлений любого ряда выражены в АБСОЛЮТНЫХ, СРЕДНИХ ИЛИ ОТНОСИТЕЛЬНЫХ ВЕЛИЧИНАХ. Данный метод применяется при наличии НЕКРАТНОГО ЧИСЛА ВРЕМЕННЫХ ПЕРИОДОВ (7, 11, 13, 17, 19) достаточно ДЛИННОГО ДИНАМИЧЕСКОГО РЯДА. Путем вычисления групповой средней значений 3 периодов, а в последующем переходя на определенный уровень и два соседних с ним, осуществляется "скольжение" по периодам. Каждый уровень заменяется на среднюю величину (из данного уровня и двух соседних с ним ) 159 Годы Число случаев на 100 рабочих Скользящая средняя 2008 57,0 – 2009 58,0 (57+58+64)/3=57,5 2010 64,0 (58+64+48)/3=57,0 2011 48,0 (64+48+36)/3=49,0 2012 36,0 (48+36+57)/3=47,0 2013 57,0 (36+57+44)/3=45,7 2014 44,0 (57+44+49)/3=50,0 2015 49,0 – Таблица 1 Первичная заболеваемость болезнью N на комбинате в 2008 – 2015 гг. (на 100 работающих)
Слайд 160: Анализ динамического ряда предусматривает:
1) выравнивание динамического ряда (при необходимости ) 2) расчет показателей динамического ряда 3) графическое изображение показателей динамического ряда 4) анализ полученных результатов 160 С РАЗВИТИЕМ СТАТИСТИЧЕСКОГО ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ( STATA, SPSS, STATISTICA, R …) ТЕХНИКА «РУЧНОГО» АНАЛИЗА ДИНАМИЧЕСКОГО РЯДА БОЛЕЕ НЕ ИСПОЛЬЗУЕТСЯ ВВИДУ ВОЗМОЖНОСТИ ПОЛУЧИТЬ ИСКАЖЕННЫЕ РЕЗУЛЬТАТЫ