Группировка данных и гистограммы — презентация
logo
Группировка данных и гистограммы
  • Группировка данных и гистограммы.
  • Группировка данных и гистограммы
  • Атмосферное давление летом 2019 г. в Москве
  • Группированные данные, шаг 4 мм рт. ст.
  • Давление в Москве летом 2019 г. (гистограмма)
  • Группировка данных и гистограммы
  • Длительность телефонных разговоров. Распределение. Шаг 2 секунды
  • Длительность телефонных разговоров. Распределение. Шаг 200 секунд
  • Длительность телефонных разговоров. Распределение. Шаг 25 секунд
  • Разминка
  • Задание 1
  • Задание 1 (продолжение)
  • Задание 1 (продолжение)
  • Задание 1 (продолжение)
  • Задание 1 (продолжение)
  • Домашнее задание:
1/16

Первый слайд презентации: Группировка данных и гистограммы

Изображение слайда

Слайд 2

Часто наборы данных представляют собой обширные массивы. Среди них встреча­ются очень близкие друг к другу значения, но полное совпадение встречается крайне редко, даже если данных очень много. Чтобы понять, насколько плотно распределе­ны значения на каждом участке числовой прямой, применяют группировку данных. Чтобы сгруппировать данные, нужно разбить числовую прямую на одинаковые промежутки – интервалы группировки. Длина интервала называется шагом группи­ровки. Затем нужно подсчитать, сколько значений или какая доля значений попа­ла в каждый интервал, и построить диаграмму. По внешнему виду диаграммы часто можно увидеть, где именно находится среднее значение, медиана, заметить другие особенности распределения данных.

Изображение слайда

Слайд 3: Атмосферное давление летом 2019 г. в Москве

Всего значений 92, повторяющихся среди них мало. Наименьшее значение 730,5, наи­большее – 758,1 мм рт. ст. Шаг группировки выберем 4 мм рт. ст., а первый интервал возьмём 726 – 730 мм рт. ст. В него не попадает ни одно значение. Последний интервал тоже сделаем пустым. 749,4 753,0 746,1 756,8 740,2 738,2 740,3 746,0 740,3 750,3 751,6 756,7 747,3 752,8 745,8 751,7 743,3 742,4 744,6 741,2 736,5 745,8 754,5 754,8 750,8 752,3 748,7 739,3 740,8 743,5 749,1 742,2 740,1 746,5 754,3 752,2 755,2 751,2 749,6 730,5 735,4 745,6 748,3 739,7 744,2 746,2 758,1 752,1 753,7 755,9 749,2 736,8 738,1 745,3 744,7 736,9 742,3 747,1 753,0 754,1 749,4 749,1 741,3 738,4 743,9 745,1 742,9 735,4 746,8 757,0 754,3 747,5 752,4 738,9 735,7 742,6 748,3 741,0 741,8 743,4 755,8 753,8 748,4 753,7 739,8 735,4 740,1 748,9 738,9 746,6 750,1 751,9

Изображение слайда

Слайд 4: Группированные данные, шаг 4 мм рт. ст

Если значение попадает на границу двух интервалов, можно отнести его к любому I из них — это вопрос договорённости. Мы относим граничное значение к левому ин­тервалу. Например, значение 746,0 мы включили в интервал 742 – 746. Получается таблица группировки. № п/п Интервал, мм рт. ст. Колличество попаданий в интервал Частота 1 726 – 730 0 0 2 730 – 734 1 0,011 3 734 – 738 7 0,076 4 738 – 742 18 0,196 5 742 – 746 18 0,196 6 746 – 750 19 0,207 7 750 – 754 17 0,185 8 754 – 758 11 0,120 9 758 – 762 1 0,011 10 762 – 766 0 0 Всего 92 1,000

Изображение слайда

Слайд 5: Давление в Москве летом 2019 г. (гистограмма)

Получилось 10 интервалов. Долю значений, попадающих в каждый из интервалов, называют частотой попадания в интервал, поскольку она показывает, как часто значение попадает в этот интервал. Частоты находятся в правом столбце таблицы. Частоты выражают в долях единицы. Важно! Сумма всех частот равна единице. Чтобы отобразить полученную информацию наглядно, построим гистограмму, то есть диаграмму частот

Изображение слайда

Слайд 6

Гистограммой называется диаграмма частот. Гистограмма позволяет наглядно представить характер изменчивости данных. На гистограмме видно, что больше всего дней, когда давление было в пределах от 738 до 754 мм рт. ст. Дней, когда давление было ниже 738 мм рт. ст. или выше 754 мм рт. ст., было мало – сумма частот соответствующих интервалов невелика. Данных немного, но видна общая закономерность: очень малые и очень большие зна­чения редки, в основном значения концентрируются около среднего. От этого гисто­грамма напоминает горку с двумя склонами.

Изображение слайда

Слайд 7: Длительность телефонных разговоров. Распределение. Шаг 2 секунды

Рассмотрим длительность разговоров по мобильному телефону. Мы собрали данные о длительности всех разговоров одного абонента в течение месяца. Всего разговоров за месяц было 387. Самый короткий разговор длился всего секунду. Самый длинный – более 15 минут (924 секунды). Интересно посмотреть на частоты разговоров разной длительности. Построим гистограмму по имеющимся данным. Нужно выбрать подходящую группировку. Если шаг слишком малый, то интервалов очень много, и характер изменчивос­ти плохо виден из – за «прыгающих» столбиков. Вроде бы информации много, а общую картину не видно. Мы даже не стали изображать всю получившуюся гисто­грамму – она слишком длинная. Данная диаграмма неудачная – слишком мал шаг группировки.

Изображение слайда

Слайд 8: Длительность телефонных разговоров. Распределение. Шаг 200 секунд

Если шаг слишком большой, то интервалов мало, и картинка получается очень грубая – слишком много полезной информации теряется. Данная диаграмма малоинфор­мативна из – за слишком большого шага.

Изображение слайда

Слайд 9: Длительность телефонных разговоров. Распределение. Шаг 25 секунд

Шаг группировки нужно выбрать так, чтобы, с одной стороны, диаграмма была достаточно подробной, а с другой – отражала бы общую тенденцию и хорошо пока­зывала характер случайной изменчивости данных. При шаге 25 секунд (для простоты на оси абсцисс отмечены только правые концы интервалов) гистограмма достаточно подробная, и хорошо видна убывающая тенден­ция – чем длительнее разговоры, тем таких разговоров меньше. Гистограмма имеет совершенно другую форму по сравнению с гистограммой частот атмосферного давления. Это означает, что и характер изменчивости совсем другой.

Изображение слайда

Слайд 10: Разминка

3600 – 3150 = 450 (рублей)

Изображение слайда

Слайд 11: Задание 1

В таблице приведены данные о населении всех городов Московской обла­сти (данные 2019 г.).

Изображение слайда

Слайд 12: Задание 1 (продолжение)

Изображение слайда

Слайд 13: Задание 1 (продолжение)

№/п Интервал Количество №/п Интервал Количество 1 10 – 20 тыс.чел. 14 140 – 150 тыс.чел. 2 20 – 30 тыс.чел. 15 150 – 160 тыс.чел. 3 30 – 40 тыс.чел. 16 160 – 170 тыс.чел. 4 40 – 50 тыс.чел. 17 170 – 180 тыс.чел. 5 50 – 60 тыс.чел. 18 180 – 190 тыс.чел. 6 60 – 70 тыс.чел. 19 190 – 200 тыс.чел. 7 70 – 80 тыс.чел. 20 200 – 210 тыс.чел. 8 80 – 90 тыс.чел. 21 210 – 220 тыс.чел. 9 90 – 100 тыс.чел. 22 220 – 230 тыс.чел. 10 100 – 110 тыс.чел. 23 230 – 240 тыс.чел. 11 110 – 120 тыс.чел. 24 240 – 250 тыс.чел. 12 120 – 130 тыс.чел. 25 250 – 260 тыс.чел. 13 130 – 140 тыс.чел. 26 ВСЕГО 70

Изображение слайда

Слайд 14: Задание 1 (продолжение)

№/п Интервал Количество №/п Интервал Количество 1 10 – 20 тыс.чел. 9 14 140 – 150 тыс.чел. 1 2 20 – 30 тыс.чел. 17 15 150 – 160 тыс.чел. 1 3 30 – 40 тыс.чел. 6 16 160 – 170 тыс.чел. 0 4 40 – 50 тыс.чел. 3 17 170 – 180 тыс.чел. 1 5 50 – 60 тыс.чел. 3 18 180 – 190 тыс.чел. 0 6 60 – 70 тыс.чел. 5 19 190 – 200 тыс.чел. 0 7 70 – 80 тыс.чел. 6 20 200 – 210 тыс.чел. 1 8 80 – 90 тыс.чел. 1 21 210 – 220 тыс.чел. 0 9 90 – 100 тыс.чел. 1 22 220 – 230 тыс.чел. 2 10 100 – 110 тыс.чел. 5 23 230 – 240 тыс.чел. 0 11 110 – 120 тыс.чел. 3 24 240 – 250 тыс.чел. 0 12 120 – 130 тыс.чел. 2 25 250 – 260 тыс.чел. 1 13 130 – 140 тыс.чел. 2 26 ВСЕГО 70

Изображение слайда

Слайд 15: Задание 1 (продолжение)

а) Найдите три подмосковных города, где численность населения значительно отличается от численности населения большинства городов в ту или другую сторону. б) Удалите из таблицы три найденных в пункте а) города. Найдите наимень­шее и наибольшее значения после удаления этих трёх городов. в) После удаления из таблицы городов Балашихи, Подольска и Вереи нужно сгруппировать оставшиеся данные. г) Сколько интервалов группировки получится, если сделать начальное значе­ние 10 тыс. чел. при шаге группировки 10 тыс. чел.? д) Сколько городов из таблицы попадает в интервал 90 – 120 тыс. чел.? е) Какова частота попадания в интервал 90 – 120 тыс. чел.? ОТВЕТ: 25 ОТВЕТ: 9 ОТВЕТ: 0,13

Изображение слайда

Последний слайд презентации: Группировка данных и гистограммы: Домашнее задание:

Для таблицы задания № 1 выполнить: Сколько интервалов группировки получится, если сделать начальное значе­ние 0 тыс. чел., а шаг группировки 25 тыс. чел.? Сколько городов из таблицы 78 попадает в интервал 90 – 120 тыс. чел.? Какова частота попадания в интервал 90 – 120 тыс. чел.? Какой из этих двух способов группировки вы бы предпочли? Постройте гистограмму.

Изображение слайда

Похожие презентации

Ничего не найдено