Количественная оценка тесноты связи по эмпирическим данным: эмпирический коэффициент детерминации, эмпирическое корреляционное отношение. Для нашего примера эмпирическое корреляционное отношение

3. Эмпирическое корреляционное отношение рассчитывается по формуле

Межгрупповая дисперсия, характеризующая величину из квадрат отклонения групповых средних от общего среднего результативного признака.

Общая дисперсия, показывающая среднюю величину из квадратов отклонений значения результативного признака от их среднего уровня.

Построим таблицу для вычисления общей дисперсии (см. табл.8)

Таблица 8

Таблица данных для определения общей дисперсии

N,п/п Расходы на продукты питания
1 21 441
2 16 256
3 26,1 681,21
4 28 784
5 26 676
6 22,5 506,25
7 27,6 761,76
8 35 1225
9 23,9 571,21
10 22,5 506,25
11 15 225
12 25,2 635,04
13 29 841
14 21,4 457,96
15 24,9 620,01
16 24,8 615,04
17 16 256
18 23,6 556,96
19 27,2 739,84
20 35 1225
21 17 289
22 23,8 566,44
23 22,6 510,76
24 25 625
25 27 729
26 30 900
27 35 1225
28 25,4 645,16
29 27,2 739,84
30 26,3 691,69
Всего 750 19502,42

Общая дисперсия результативного признака вычисляется по формуле:

=

Межгрупповая дисперсия вычисляется по формуле:

Построим вспомогательную таблицу для вычисления данных (см. табл.9)


Таблица 9

Таблица данных для расчета межгрупповой дисперсии

Номер группы Количество домохозяйств, шт Расходы на продукты питания, тыс.руб
Всего В среднем на одно домохозяйство
f
1 28-40 3 48 16 -9 81 243
2 40-52 5 105 21 -4 16 80
3 52-64 12 300 25 0 0 0
4 64-76 6 165 27,5 2,5 6,25 37,5
5 76-88 4 132 33 8 64 256
Всего 30 750 616,5

Вывод: связь между факторами весьма тесная, т.к. принимает значения от 0,9 до 0,99.

Коэффициент детерминации – это квадрат эмпирического корреляционного отношения. Следовательно,

(81,9%)

Вывод: выпуск продукции на данных предприятиях на 81,9% зависит от фондоотдачи и на 18,1 % от других факторов.

Задание 3

По результатам выполнения задания 1 с вероятностью 0,9543 определите:

1. Ошибку выборки среднего валового дохода на одного члена домохозяйства в год и границы, в которых будет он находиться в генеральной совокупности.

2. Ошибку выборки доли домохозяйств с уровнем валового дохода менее 52 тыс руб. и более млн. руб. и границы, в которых будет находиться генеральная доля.

1. Ошибка выборки для средней определяем по формуле:

, где

дисперсия выборочной совокупности;

n- численность выборки;

t- коэффициент доверия, который определяется по таблице значений интегральной функции Лапласа при заданной вероятности. В данном случае при Р=0,954 значение t=2.

N-число единиц в генеральной совокупности, N=6000 шт.

Рассчитаем дисперсию. Данные представим в виде таблицы (см. табл.11).

Таблица 11

Данные для расчета дисперсии уровня фондоотдачи

Номер группы Группировка домохозяйств по валовому доходу Количество домохозяйств, шт
f
1 28-40 3 34 -25,1 630,01 1890,03
2 40-52 5 46 -13,1 171,61 858,05
3 52-64 12 58 -1,1 1,21 14,52
4 64-76 6 70 10,9 118,81 712,86
5 76-88 4 82 22,9 524,41 2097,64
Всего 30 5573,1

Что понимается под внутригрупповой дисперсией для совокупности? Какова формула ее расчета? Приведите пример. Что понимается под межгрупповой дисперсией совокупности? Какова формула ее расчета? Приведите пример.

Внутригрупповая дисперсия () свидетельствует о случайной вариации, которая не зависит от признака, положенного в основу группировки.

, где

Средняя величина в группе

Средняя внутригрупповая дисперсия рассчитывается следующим образом: сначала рассчитываются дисперсии по отдельным группам (), затем рассчитывается средняя внутригрупповая дисперсия :

Характеризует систематическую вариацию, т.е. различия в величине исследуемого признака, который положен в основу группировки. Эта дисперсия рассчитывается по формуле

, где

Средняя величина по отдельной группе

n i - число единиц в группе

- общая средняя арифметическая всей исследуемой совокупности.

Все три вида дисперсии связаны между собой: общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Данное соотношение отражает закон, который называют правилом сложения дисперсий .

20.

Что понимается под общей дисперсией совокупности? Какова формула ее расчета? Влияет ли способ разделения на группы на значения общей дисперсии? Приведите пример.

Общая дисперсия () характеризует вариацию признака всей совокупности под влиянием всех тех факторов, которые обусловили данную вариацию. Эта величина определяется по формуле

, где

общая средняя арифметическая всей исследуемой совокупности.

С другой стороны общая дисперсия равна сумме средней внутригрупповой дисперсии и межгрупповой дисперсии:

Данное соотношение отражает закон, который называют правилом сложения дисперсий .. Благодаря правилу сложения дисперсий можно определить, какая часть общей дисперсии находится под влиянием признака-фактора, положенного в основу группировки.

Чем выше доля межгрупповой дисперсии в общей дисперсии , тем сильнее влияние факторного признака (разряда) на результативный (выработку).

Эта доля характеризуется эмпирическим коэффициентом детерминации:

Для качественной оценки тесноты связи между признаками пользуются соотношениями Чэддока .

0-0,2

0,2-0,3

0,3-0,5

0,5-0,7

0,7-0,9

0,9-0,99

Сила связи

отсутствует

очень слабая

слабая

умеренная

заметная

тесная

весьма тесная

функцио -

нальная

21.

Что показывает коэффициент детерминации? Какова формула его расчета? В каких единицах измеряется этот показатель? Каковы возможные значения этого показателя? Что показывает эмпирическое корреляционное отношение? Какова формула его расчета? В каких единицах измеряется этот показатель? Каковы возможные значения этого показателя?

Эмпирический коэффициент детерминации () характеризует долю межгрупповой дисперсии в общей дисперсии:

Принимает значения -1 до 1 и показывает, насколько вариация признака в совокупности обусловлена фактором группировки.

Межгрупповая дисперсия;

Общая дисперсия.

Определяется по формуле:

Принимает значения -1 до 1

Пример

Группа

Количество заводов в группе, шт.

Средняя валовая продукция в сопоставимых ценах , млн. руб.

Определим теперь среднее значение, общую дисперсию, и межгрупповую дисперсию валовой продукции в сопоставимых ценах заводов:

млн. руб.;

Млн. руб.2;

Млн. руб.2.

Коэффициент детерминации будет равен:

В результате эмпирическое корреляционное отношение будет равно:

Рассчитанное значение эмпирического корреляционного отношения свидетельствует о достаточно высокой статистической связи между валовой продукцией в сопоставимых ценах и среднегодовой стоимостью основных производственных фондов заводов.

22.

Как рассчитывается статистика критерия в однофакторном дисперсионном анализе? Каков закон ее распределения при справедливости основной гипотезы? Чем определяются параметры этого закона? Как принимается решение в однофакторном дисперсионном анализе по рассчитанному значению статистики критерия?

Задачей дисперсионного анализа является изучение влияния одного или нескольких факторов на рассматриваемый признак.

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений.

В качестве критерия необходимо воспользоваться критерием Фишера:

., где

Q 1 – сумма квадратов отклонений выборочных средних от общего среднего

Q 2 – сумма квадратов отклонений наблюдаемых значений от выборочной средней

Если расчетное значение критерия Фишера будет меньше, чем табличное значение – нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений (т.е. гипотеза не подтвердилась ). В противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (гипотеза справедлива ).

23-25.

1. При равных интервалах используют среднюю арифметическую простую:

где у - абсолютные уровни ряда;
n - число уровней ряда.
2. При неравных интервалах используют среднюю арифметическую взвешенную:

где у1 ,...,уn - уровни ряда динамики;
t1,... tn - веса, длительность интервалов времени.

Средний уровень моментного ряда динамики рассчитывается по формуле:
1. С равностоящими уровнями рассчитывается по формуле средней хронологической моментного ряда:

где у1 ,...,уn - уровни периода, за который делается расчет;
n - число уровней;
n-1 - длительность периода времени.
2. С неравностоящими уровнями рассчитывается по формуле средней хронологической взвешенной:

где у1 ,...,уn - уровни рядов динамики;
t - интервал времени между смежными уровнями

в задачах статистики

Средний абсолютный прирост определяется как среднее из абсолютных приростов за равные промежутки времени одного периода. Он рассчитывается по формулам: 1. По цепным данным об абсолютных приростах за ряд лет рассчитывают средний абсолютный прирост как среднюю арифметическую простую:

где n - число степенных абсолютных приростов в исследуемом периоде.
2. Средний абсолютный прирост рассчитывают через базисный абсолютный прирост в сл учае равных интервалов

где m - число уровней ряда динамики в исследуемом периоде, включая базисный .

Средний темп роста есть свободная обобщающая характеристика интенсивности изменения уровней ряда динамики и показывает, во сколько раз в среднем за единицу времени изменяется уровень ряда динамики.
В качестве основы и критерия правильности вычисления среднего темпа роста (снижения) применяется обобщающий показатель, который рассчитывается как произведение цепных темпов роста, равное темпу роста за весь рассматриваемый период. Если значение признака образуется как произведение отдельных вариантов, то используют среднюю геометрическую.
Так как средний темп роста представляет собой средний коэффициент роста, выражен в процентах, то для равностоящих рядов динамики расчеты по средней геометрической сводятся к вычислению средних коэффициентов роста из цепных по «цепному способу»:

где n - число цепных коэффициентов роста;
Кц - цепные коэффициенты роста;
Кб - базисный коэффициент роста за весь период.
Определение среднего коэффициента роста может быть упрощено, если будут ясны уровни динамического ряда. Так как произведение цепных коэффициентов роста равно базисному , то в подкоренное выражение подставляют базисный коэффициент роста.
Формула для определения среднего коэффициента роста для равностоящих рядов динамики по «базисному способу» будет такая:

36.

Какие Вам известны абсолютные показатели изменения уровня ряда?

Все эти показатели могут определяться базисным способом, когда уровень данного периода сравнивается с первым (базисным) периодом, либо цепным способом – когда сравниваются два уровня соседних периодов.

Напишите формулы расчета.

Базисное абсолютное изменение представляет собой разность конкретного и первого уровней ряда, определяется по формуле

Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше первого (базисного) уровня, и, следовательно, может иметь знак «+» (при увеличении уровней) или «–» (при уменьшении уровней).

Цепное абсолютное изменение представляет собой разность конкретного и предыдущего уровней ряда, определяется по формуле

Оно показывает, на сколько (в единицах показателей ряда) уровень одного (i-того) периода больше или меньше предыдущего уровня, и может иметь знак «+» или «–».

Поясните, как зависит способ расчета от выбора базы сравнения.

Какие Вам известны относительные показатели изменения уровня ряда? Напишите формулы расчета.

Базисное относительное изменение (базисный темп роста или базисный индекс динамики) представляет собой соотношение конкретного и первого уровней ряда, определяясь по формуле

Цепное относительное изменение (цепной темп роста или цепной индекс динамики) представляет собой соотношение конкретного и предыдущего уровней ряда, определяясь по формуле

Поясните, как зависит способ расчета от выбора базы сравнения.

Относительное изменение показывает во сколько раз уровень данного периода больше уровня какого-либо предшествующего периода (при i >1) или какую его часть составляет (при i <1). Относительное изменение может выражаться в виде коэффициентов, то есть простого кратного отношения(если база сравнения принимается за единицу), и в процентах (если база сравнения принимается за 100 единиц) путем домножения относительного изменения на 100%.

37.

Какие Вам известны средние показатели изменения уровня ряда? Напишите формулы расчета среднего абсолютного прироста, темпа роста и темпа прироста уровней ряда.

Средний абсолютный прирост определяется как среднее из абсолютных приростов за равные промежутки времени одного периода. Он рассчитывается по формулам: 1. По цепным данным об абсолютных приростах за ряд лет рассчитывают средний абсолютный прирост как среднюю арифметическую простую:

где n - число степенных абсолютных приростов в исследуемом периоде.

2. Средний абсолютный прирост рассчитывают через базисный абсолютный прирост в сл учае равных интервалов

где m - число уровней ряда динамики в исследуемом периоде, включая базисный .

Средний темп роста есть свободная обобщающая характеристика интенсивности изменения уровней ряда динамики и показывает, во сколько раз в среднем за единицу времени изменяется уровень ряда динамики.

В качестве основы и критерия правильности вычисления среднего темпа роста (снижения) применяется обобщающий показатель, который рассчитывается как произведение цепных темпов роста, равное темпу роста за весь рассматриваемый период. Если значение признака образуется как произведение отдельных вариантов, то используют среднюю геометрическую.

Так как средний темп роста представляет собой средний коэффициент роста, выражен в процентах, то для равностоящих рядов динамики расчеты по средней геометрической сводятся к вычислению средних коэффициентов роста из цепных по «цепному способу»:

где n - число цепных коэффициентов роста;

Кц - цепные коэффициенты роста;

Кб - базисный коэффициент роста за весь период.

Темп изменения (темп прироста) уровней – относительный показатель, показывающий, на сколько процентов данный уровень больше (или меньше) другого, принимаемого за базу сравнения. Он рассчитывается путем вычитания из относительного изменения 100%, то есть по формуле:

или как процентное отношение абсолютного изменения к тому уровню, по сравнению с которым рассчитано абсолютное изменение (базисный уровень), то есть по формуле:

.

Каким недостатком обладают эти показатели? В каких случаях целесообразно их использование? Как указанные недостатки могут быть устранены? Напишите формулы расчёта средних показателей, обеспечивающих сохранение суммарного значения ряда.

38.

Как по значениям показателей изменения уровней ряда определить вид основной тенденции? Приведите примеры.

Выявление общей тенденции ряда динамики можно произвести путем сглаживания ряда динамики с помощью метода скользящей средней. Сущность этого приема состоит в том, что по исходным уровням ряда (эмпирическим данным) определяют расчетные (теоретические) уровни.

Основное условие применения этого метода состоит в вычислении звеньев подвижной (скользящей) средней из такого числа уровней ряда, которое соответствует длительности наблюдаемых в ряду динамики циклов.

Эмпирическое корреляционное отношение измеряет, какую часть общей колеблемости результативного признака вызывает изучаемый фактор. Эмпирическое корреляционное среднее варьирует от 0 до 1.

Находят эмпирическое корреляционное отношение обычно в следующих типах задач:

  • 1) когда по двум рядам данным X и Y необходимо произвести аналитическую группировку
  • 2) группировка уже произведена, необходимо проверить правило сложения дисперсий
  • 3) по двум рядам данным X и Y необходимо найти уравнение регрессии и оценить его значимость

Формула дисперсии альтернативного признака

Исходя из изложенного выше, можно вывести формулу нахождения дисперсии альтернативного признака, если нам известна процентная доля такого признака в общем объеме выборки.

Изначально мы предполагаем, что признак принимает только два значения.

Таким образом, сумма доли элементов, в которых элементы статистического ряда имеют значение признака "нет" и элементов ряда, которые имеют значение признака "да" - равно единице.

Для нахождения среднего значения ряда, подставим значения альтернативных признаков (0 и 1) в формулу нахождения среднего взвешенного значения статистического ряда. Откуда, совершенно очевидно, в знаменателе будет единица, а в числителе - процентное значение элементов "1". То есть ровно процентное значение элементов с признаком "1". (Формула 2)

Формула дисперсии - это средневзвешенное значение квадратов отклонений каждого значения ряда данных. (Формула 3)

Поскольку в нашем ряду данные имеют только два типа значений - "0" и "1", то формула нахождения дисперсии для ряда, имеющего альтернативный признак сводится к Формуле 4. Пояснение. поскольку мы только что вывели, что среднее значение выборки равно р (Формула 2), то значение квадрата разности значения (0/1) и среднего значения, согласно Формулы 1, будет в первом случае (1-p)2 , а во втором случае (1-q)2 , теперь, применив следствие из первой формулы: q = 1 - p, p = 1- q . Получим p2 и q2 . Соответственно, доля значений "0" и "1" равна p и q, в результате в числителе и получается q2 p и p2 q. Сумма долей признаков значений "0" и "1" согласно Формуле 1 равна 1. В итоге Формула 4 и принимает значение pq, которое и будет равно значению дисперсии альтернативного признака. Исходя из найденного значения величины дисперсии альтернативного признака, найдем среднеквадратичное отклонение (Формула 5). Поставив значение из Формулы 1 в Формулу 5, получим формулу среднеквадратичного отклонения для дисперсии ряда с альтернативным признаком.

Величина 0,86 характеризует существенную связь между группировочным и результативным признаками.

Величина называется коэффициентом детерминации и показывает долю межгрупповой дисперсии в общей дисперсии.

Наряду с вариацией количественных признаков может наблюдаться и вариация качественных признаков. Такое изучение вариации достигается, как и для долей количественных признаков, посредством вычисления и анализа следующих видов дисперсий.

Внутригрупповая дисперсия доли определяется по формуле

. (3.17)

Средняя из внутригрупповых дисперсий рассчитывается как

. (3.18)

Формула межгрупповой дисперсии имеет следующий вид:

, (3.19)

где n i – численность единиц в отдельных группах;

–доля изучаемого признака во всей совокупности, которая определяется по формуле

. (3.20)

Общая дисперсия имеет вид

. (3.21)

Три вида дисперсии связаны между собой следующим образом:

. (3.22)

Пример 3.4

Определим групповые дисперсии, среднюю из групповых, межгрупповую и общую дисперсии по данным табл. 3.3.

Таблица 3.3

Численность и удельный вес одной из категорий крупного рогатого скота фермерских хозяйств района

Решение

Определим долю дойных коров в целом по трем хозяйствам:

;

Общая дисперсия доли дойных коров:

Внутригрупповые дисперсии:

; ;
.

Средняя из внутригрупповых дисперсий:

Межгрупповая дисперсия:

Используя правило сложения дисперсий, получаем: 0,1025+0,0031=0,1056. Пример решен правильно.

Пример 3.5

По данным выборочного обследования заработной платы работников бюджетной сферы получены следующие показатели (табл. 3.4).

Таблица 3.4

Определите:

    среднюю заработную плату по двум отраслям;

    дисперсии заработной платы:

а) среднюю из групповых дисперсий (отраслевых),

б) межгрупповую (межотраслевую),

    коэффициент детерминации;

    эмпирическое корреляционное отношение.

Решение

    Средняя заработная плата работников по двум отраслям рассчитывается по формуле (2.10):

руб.

    Дисперсии заработной платы:

а) средняя из групповых дисперсий по (3.14)

б) межгрупповая дисперсия согласно (3.12)

.

в) общая дисперсия, полученная на основании правила сложения дисперсий (3.15):

    Коэффициент детерминации равен величине

; (3.23)

т.е.
, или 44,24%.

Он показывает, что оплата труда на 44,24% зависит от отраслевой принадлежности работников и на 55,76% – от внутриотраслевых причин.

По формуле (3.16) эмпирическое корреляционное отношение
,

что свидетельствует о существенном влиянии на дифференциацию заработной платы отраслевых особенностей.

Эмпирический коэффициент детерминации широко используется в задачах статистики и является показателем, который представляет долю в общей дисперсии результативного признака и характеризует силу влияния группировочного признака на образование общей вариации. Он может быть рассчитан по формуле:

Данный коэффициент показывает долю вариации результативного признака у под влиянием фактора х. При отсутствии связи эмпирический коэффициент детерминации равен нулю, а при функциональной сильной связи - единице.

Представляется как корень квадратный из эмпирического коэффициента детерминации. Оно показывает тесноту связи между статистическими данными и определяется по формуле:

где числитель - дисперсия групповых средних;
знаменатель - общая дисперсия.

Корреляционное отношение равно нулю, если связи между данными нет. В таком случае все групповые средние будут равны между собой и межгрупповой вариации не будет.

Корреляционное отношение равно единице тогда, когда связь функциональная. В этом случае дисперсия групповых средних будет равна общей дисперсии, т. е. внутригрупповой вариации не будет.

Чем значения корреляционного отношения ближе к единице, тем сильнее, ближе к функциональной зависимости связь между признаками.

Вычисляется по формуле:

где fэ и fт - эмпирические и теоретические частоты.

С помощью критерия Пирсона по таблицам определяют вероятность P(х^2). Входами в таблицу являются значения х^2 и число степеней свободы k = n — р -1.

Если Р > 0,05, то считается, что эмпирические и теоретические распределения близки. При Р принадлежащим совпадение между ними удовлетворительное, а в других случаях - недостаточное.

Рассчитывается по формуле:

где числитель - центральный момент третьего порядка.

б^3 - куб среднего квадратичного отклонения.

Коэффициент асимметрии является безмерной величиной, что позволяет использовать его для различных распределений. При левосторонней асимметрии Mо > Mt > xср, при правосторонней - обратные соотношения. Это позволяет применять наиболее простой показатель асимметрии:

Эксцесс в статистике

Есть степень крутости эмпирического распределения по отношению к нормальному. Он определяется по формуле:

где числитель - центральный момент четвертого порядка

Когда распределение островершинное по отношению к нормальному, эксцесс будет положительным, если плосковершинное - отрицательным. Для нормального распределения Е = 0.

Похожие публикации