Это такое значение признака которое разделяет ранжированный ряд распределения на две равные части
Мода и медиана
Медиана в статистке
Медиана — это такое значение признака, которое разделяет ранжированный ряд распределения на две равные части — со значениями признака меньше медианы и со значениями признака больше медианы. Для нахождения медианы, нужно отыскать значение признака, которое находится на середине упорядоченного ряда.
Посмотреть решение задачи на нахождение моды и медианы Вы можете здесь
В ранжированных рядах несгруппированные данные для нахождения медианы сводятся к поиску порядкового номера медианы. Медиана может быть вычислена по следующей формуле:
где Хm — нижняя граница медианного интервала;
im — медианный интервал;
Sme— сумма наблюдений, которая была накоплена до начала медианного интервала;
fme — число наблюдений в медианном интервале.
Свойства медианы
Графическое определение медианы
Для определения медианы графическим методом используют накопленные частоты, по которым строится кумулятивная кривая. Вершины ординат, соответствующих накопленным частотам, соединяют отрезками прямой. Разделив поп олам последнюю ординату, которая соответствует общей сумме частот и проведя к ней перпендикуляр пересечения с кумулятивной кривой, находят ординату искомого значения медианы.
Определение моды в статистике
Мода — значение признака, имеющее наибольшую частоту в статистическом ряду распределения.
Определение моды производится разными способами, и это зависит от того, представлен ли варьирующий признак в виде дискретного или интервального ряда.
Нахождение моды и медианы в контрольных по статистике происходит путем обычного просматривания столбца частот. В этом столбце находят наибольшее число, характеризующее наибольшую частоту. Ей соответствует определенное значение признака, которое и является модой. В интервальном вариационном ряду модой приблизительно считают центральный вариант интервала с наибольшей частотой. В таком ряду распределения мода вычисляется по формуле:
где ХМо — нижняя граница модального интервала;
imo — модальный интервал;
fм0, fм0-1,, fм0+1 — частоты в модальном, предыдущем и следующем за модальным интервалах.
Модальный интервал определяется по наибольшей частоте.
Мода широко используется в статистической практике при анализе покупательного спроса, регистрации цен и т. д.
Соотношения между средней арифметической, медианой и модой
Для одномодального симметричного ряда распределения средняя арифметическая, медиана и мода совпадают. Для асимметричных распределений они не совпадают.
К. Пирсон на основе выравнивания различных типов кривых определил, что для умеренно асимметричных распределений справедливы такие приближенные соотношения между средней арифметической, медианой и модой:
Структурные характеристики вариационного ряда распределения
8.2. Медиана, квартили, децили
Значения изучаемого признака всех единиц статистической совокупности можно расположить в порядке возрастания (или убывания). В этом случае мы получим ранжированный ряд. Если число единиц совокупности нечетное, то значение признака, находящееся в середине ранжированного ряда, будет являться медианой. Если число единиц совокупности четное, то медианой будет средняя величина из двух значений признака, находящихся в середине ряда.
Пример 8.5. Имеются следующие данные о результатах сдачи экзамена по статистике в студенческой группе:
Номер студента | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
---|---|---|---|---|---|---|---|---|---|---|---|
Оценка по статистике | 3 | 4 | 2 | 3 | 4 | 4 | 4 | 3 | 4 | 5 | 5 |
Представим их в виде ранжированного ряда:
Номер студента | 3 | 1 | 4 | 8 | 2 | 5 | 6 | 7 | 9 | 10 | 11 |
---|---|---|---|---|---|---|---|---|---|---|---|
Оценка по статистике | 2 | 3 | 3 | 3 | 4 | 4 | 4 | 4 | 4 | 5 | 5 |
Пример 8.6. Имеются данные о цене антоновских яблок в шести магазинах города. Представим их сразу в виде ранжированного ряда:
Название магазина | «Огонек» | «Маяк» | «Заря» | «Татьяна» | «Ночной» | «Любимый» |
---|---|---|---|---|---|---|
Цена яблок, руб. за кг | 40 | 41 | 42 | 44 | 44 | 45 |
В середине ранжированного ряда находятся цены двух магазинов, причем они разные. Медиана определяется как средняя величина из этих значений признака. Она равна 43 руб. [(42 + 44) : 2 = 43].
Способы расчета рассматриваемых структурных показателей зависят от вида вариационного ряда. Рассмотрим их подробнее.
8.2.1. Определение структурных средних в дискретных вариационных рядах
Для определения медианы в дискретных вариационных рядах:
Пример 8.7. Определим медианный стаж сотрудников страховой компании на основе следующих данных:
Время работы, лет, xi | Число сотрудников, чел., fi | Накопленная частота, Si |
---|---|---|
1 | 5 | 5 |
2 | 7 | 12 |
3 | 4 | 16 |
4 | 9 | 25 |
5 | 13 | 38 |
6 | 10 | 48 |
7 | 16 | 64 |
8 | 13 | 77 |
Итого | 77 | — |
Номер медианы равен
Квартили и децили определяют аналогично медиане: сначала находят их номер, затем среди накопленных частот ищут такую, которая первая равна или превышает порядковый номер показателя, ей соответствует варианта, которая является искомым показателем. Номера квартилей рассчитываются по формулам:
Порядковые номера децилей исчисляются следующим образом:
Определим квартили по данным примера 8.7. Их номера равны:
Аналогично определяются децили. Например, восьмой дециль вычисляется следующим образом:
8.2.2. Определение структурных средних в интервальном вариационном ряду
В интервальных рядах сначала определяют медианный интервал. Для этого так же, как и в дискретных рядах, рассчитывают порядковый номер медианы
Накопленной частоте, которая равна номеру медианы или первая его превышает, в интервальном вариационном ряду соответствует медианный интервал. Обозначим эту накопленную частоту SМе. Непосредственно расчет медианы проводят по формуле:
Пример 8.8. По следующим данным определим медианное значение суммы выданных банками кредитов:
Сумма выданных кредитов, млн ден. ед. | Количество банков, fi | Накопленная частота, Si. |
---|---|---|
20-40 | 8 | 8 |
40-60 | 15 | 23 |
60-80 | 21 | 44 |
80-100 | 12 | 56 |
100-120 | 9 | 65 |
120-140 | 7 | 72 |
140-160 | 4 | 76 |
Итого | 76 | — |
т.е. у 50% банков сумма выданных кредитов не превышает 74,286 млн ден. ед.
Далее произведем расчет квартилей и децилей в интервальном вариационном ряду.
Для приведенного интервального ряда необходимо определить:
тогда ей соответствует интервал «40-60», в котором находится первый квартиль;
тогда ей соответствует интервал «100-120», в котором находится третий квартиль;
т.е. у 25% банков сумма выданных кредитов не превышает 54,7 млн ден. ед.;
т.е. у 75% банков сумма выданных кредитов не превышает 102,2 млн ден. ед.
Аналогично квартилям определяем децили. Формулы, используемые в ходе расчетов, поместим в таблицу.
Номер шестого дециля равен: В статистике для характеристики степени неоднородности совокупности часто используют коэффициенты дифференциации (квартильные и децильные). Децильный коэффициент дифференциации представляет собой отношение девятого дециля к первому: Данный коэффициент показывает, во сколько раз варианта, выше которой находятся 10% единиц совокупности, имеющих самые большие значения признака, больше варианты, ниже которой находятся 10% единиц совокупности с самыми маленькими значениями признака. Аналогично квартильный коэффициент дифференциации определяется как отношение третьего квартиля к первому. В заключение отметим, что приблизительное равенство средней арифметической, моды и медианы, рассчитанных по отношению к одному и тому же ряду, говорит о том, что значения признака в изучаемой совокупности имеют нормальный закон распределения (или приближаются к нему). Медиана может быть определена графически по кумуляте. Для этих целей на оси ординат, где отмечаются накопленные частоты, находится точка, соответствующая полусумме всех частот (т.е. порядковому номеру медианы). Из нее проводится прямая параллельно оси абсцисс до пересечения с графиком (кумулятой распределения). Абсцисса точки пересечения соответствует медиане данного ряда распределения.
Медиану используют как наиболее надежный показатель типичного значения неоднородной совокупности, так как она нечувствительна ккрайним значениям признака, которые могут значительно отличаться отосновного массива его значений. Кроме этого, медиана находитпрактическое применение вследствие особого математического свойства: Данные приведены в таблице 5.2. Мода выбирается по максимальному значению частоты: при nmax = 14 Mo=4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Мода определяется следующим образом: • По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным. • Внутри модального интервала значение моды вычисляется по формуле: Для расчета медианы в интервальных рядах используется следующий подход: • По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу. • Внутри медианного интервала значение Me определяется по формуле: В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотностьраспределения: Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3. • Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет. • Моду рассчитаем по формуле: Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала). • По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Meможно использовать любую из них. Расчет проведем по 3-ей группе: Такое же значение Me можно получить при её расчете по 4-ой группе: Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения. Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой. Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль– это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей: • квартили • децили • перцентели— значения признака, делящие совокупность на 100 равных частей. Рассчитаем квартили для ряда распределения рабочих участка по стажу работы: Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака, мода, медиана. При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций: • для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых • для неустойчивых процессов положение центра распределения характеризуется с помощьюMo или Me. Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой. Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса. Из математической статистики известно, что при увеличении объема статистической совокупности В статистике различают следующие виды кривых распределения: • одновершинные кривые; • многовершинные кривые. Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки. Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные. Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. В таких распределениях Для характеристики асимметрии используют коэффициенты асимметрии. Наиболее часто используются следующие из них: • Коэффициент асимметрии Пирсона Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия Чем ближе по модулю As к 1, тем асимметрия существеннее: Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии, рассчитанный на основе центрального момента 3-его порядка: Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины. Центральный момент k-ого порядка рассчитывается как: Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид: Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка: Для одновершинных распределений рассчитывается еще один показатель оценки его формы –эксцесс. Эксцессявляется показателем островершинности распределения. Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка При симметричных распределениях Ех=0. если Ех>0, то распределение относится костровершинным, если Ех
|