Исследование взаимозависимости между статистическими показателями. Теория статистики

Учебные цели:

1) изучить основные виды статистических взаимосвязей общественных явлений и основные методы их изучения;
2) показать использование корреляционно-регрессионного анализа для прогнозирования.

ИЗУЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ ОТНОШЕНИЙ В СТАТИСТИКЕ

Познание социально-экономических явлений предполагает всесторонний анализ существующих между ними взаимосвязей. Изучение взаимосвязей - одна из важнейших познавательных задач теории статистики. В основе исследования связей лежит общефилософское понятие о всеобщей связи явлений, которая познается путем изучения причинно-следственных отношений.

Причинно-следственными отношениями называют такие связи между явлениями и процессами, когда изменение одной из них (причины) ведет к изменению другого (следствия).

Статистика не занимается выяснением этих причин, этим занимаются специальные экономические дисциплины. Статистика выявляет наличие и направление связи, количественно оценивает воздействие каждой причины на вариацию конкретного признака, выражает связь аналитически, что позволяет учитывать указанное воздействие при принятии управленческих решений различного уровня.

Статистическое изучение общественных явлений позволяет количественно выражать сложные взаимосвязи, основываясь на результатах качественного анализа, который не только предшествует статистическому исследованию, но также является критерием оценки результатов.

Теоретический (качественный) анализ позволяет установить экономическую сущность явлений и процессов, вскрыть их существенные свойства, а также сходства и различия между собой. Это является важнейшим этапом изучения связей между явлениями и процессами.

В процессе исследования зависимостей вскрываются причинно- следственные отношения, что позволяет выявить факторы (причины), оказывающие существенное влияние на вариацию изучаемых явлений и процессов. Причина - это совокупность условий, обстоятельств, действие которых приводит к появлению следствия.

Таким образом, на основе проведения качественного анализа появляется возможность разделить признаки на два класса:

1) факторные признаки (факторы), которые обусловливают изменение других признаков;
2) результативные признаки, которые изменяются под действием факторных признаков.

Следует иметь в виду, что в разных случаях один и тот же показатель, например производительность труда, может выступать то как факторный, то как результативный признак. Например, производительность труда, с одной стороны, зависит от уровня автоматизации производства, стажа и квалификации работников. Здесь производительность труда является результативным признаком. С другой стороны, от уровня производительности труда зависит прибыль предприятия. В этом случае производительность труда является факторным признаком.

Виды связей. Связи между явлениями классифицируют по различным направлениям: характеру, степени тесноты, направлению, аналитическому выражению и т.д.

По характеру зависимости различают функциональную и стохастическую связь. Связь между признаками называют функциональной (детерминированной), если каждому значению одного из них соответствует одно (или несколько, в случае множественных связей) вполне определенное значение другого. Такая зависимость является строгой, точной, полной.

Схематично функциональную связь можно представить следующим образом: X => У.

В общем виде функциональную связь можно записать: y t = /(г,).

Такой вид связи достаточно часто проявляется в математике, физике, химии. В экономике примером функциональной связи может служить прямо пропорциональная зависимость между признаками. Например, производительность труда рабочего и затраченное им время на производство единицы продукции находятся в функциональной связи, в строго обратном отношении.

Характерной особенностью функциональных связей является то, что для таких связей всегда известен:

- механизм влияния, выраженный определенным уравнением (функцией).

Для социально-экономических явлений характерно то, что наряду с существенными факторами, определяющими в основном величину результативного признака, на него оказывают воздействие многие другие, в том числе и случайные факторы. Поэтому существующая зависимость не проявляется здесь в каждом отдельном случае, как при функциональных связях, а лишь в общем при большом числе наблюдений. Такая зависимость называется стохастической.

Зарождение стохастической теории статистики в России относят к 1880 г. Термин «стохастическая теория статистики» (от греч. stochastikos - предполагать) принадлежит Я. Бернулли. В научный оборот этот термин был введен В.И. Борткевичем, который указывал на то, что в реальной жизни мы практически всегда сталкиваемся с событиями, каждое из которых является следствием нескольких причин. Большой вклад в развитие стохастической теории статистики внес А.А. Чупров.

При стохастической зависимости изменение факторного признака приводит к изменению закона распределения результативного признака (рис. 6.1):

Рис. 6.1

Примером стохастической связи является следующая зависимость: при одном и том же стаже нескольких рабочих их часовая заработная плата является различной.

Особенностью стохастических связей является то, что для них не известен:

- полный перечень факторов, определяющих величину результативного признака;
- механизм влияния, выраженный определенным уравнением, функцией.

Частным случаем стохастической связи является корреляционная, при которой изменение среднего значения результативного признака обусловлено изменением факторного признака.

Корреляционная связь является неполной, нестрогой и проявляется лишь при достаточно большом числе случаев. Схематично ее можно представить следующим образом: X => F.

В общем виде корреляционную связь можно записать: у { = /(х,).

Корреляционная связь не существует без стохастической и служит важнейшей характеристикой последней. Очевидно, что если существует корреляционная связь, то, следовательно, и стохастическая, так как наличие средних - достаточное условие различия распределений. В то же время при наличии стохастической связи корреляционная связь может отсутствовать, так как различные распределения могут иметь одинаковые средние и отличаться другими свойствами, например иметь равную вариацию.

Корреляционная связь отличается от стохастической по форме проявления. Соотношение между ними аналогично соотношению между средней и рядом распределения. Ряд распределения дает наиболее полную характеристику совокупности. Средняя же не существует без ряда распределения и в то же время служит его важнейшей характеристикой.

Стохастическая связь дает наиболее полную характеристику взаимосвязи признаков.

По степени тесноты связи делятся на слабые, умеренные и сильные (тесные). Количественные критерии оценки тесноты связи дает статистика.

По направлению различают связи прямые и обратные. При прямой связи с увеличением (уменьшением) значений факторного признака происходит увеличение (уменьшение) значений результативного. Например, рост производительности труда приводит к увеличению прибыли. При обратной связи с ростом (снижением) факторного признака значения результативного уменьшаются (увеличиваются). Например, рост производительности труда приводит к снижению себестоимости.

По аналитическому выражению выделяют связи прямолинейные (линейные) и криволинейные (нелинейные). Линейной является статистическая связь, которая приближенно выражена уравнением прямой. Если связь выражается уравнением какой-либо кривой линии (параболы, гиперболы показательной и т.д.), то она является нелинейной.

В зависимости от количества факторов, влияющих на результат, различают парную и многофакторную (множественную) связь. Парная корреляция - частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных - с другой. Следовательно, парная связь - это связь двух признаков. Когда же требуется охарактеризовать связь всего множества независимых переменных с результативным признаком, то применяют множественную корреляцию. Следовательно, если несколько факторов влияет на результативный признак, то связь будет многофакторной.

Существуют также связи непосредственные, косвенные и ложные. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками.

Источники ложной корреляции выявил К. Пирсон. Ложная связь - это связь, установленная между признаками, не имеющими причинной связи друг с другом, являющейся следствием воздействия общей причины. Это связь, выявленная формально и, как правило, под- твержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна. Проявление ложной корреляции, которое привело к бессмысленным результатам, обнаружил английский статистик Эдни Дж. Юл при изменении корреляции между рядами динамики.

Основными задачами статистики по изучению взаимосвязей общественных явлений являются:

1) на основе теоретического анализа установление наличия и направления взаимосвязей;
2) количественное измерение тесноты связи факторного (или факторных) и результативного признаков;
3) выражение выявленной связи в виде определенного уравнения.

Основные методы изучения связей. К основным методам изучения функциональных связей относятся: графический, индексный, балансовый, аналитических группировок и др.

К методам изучения корреляционных связей относятся: графический, аналитических группировок, параллельных рядов и др., а также дисперсионный, корреляционный и регрессионный анализ и др.

Метод параллельных рядов основан на сопоставлении двух или нескольких рядов статистических величин. Простое сопоставление значений показателей дает возможность установить наличие связи и получить представление о ее характере.

Метод аналитических группировок позволяет установить наличие или отсутствие влияния двух или более факторов на изменение результативного признака, а также направление связи. С помощью данного метода можно охарактеризовать общие черты связи.

Основной принцип исследования взаимосвязей с помощью метода группировок заключается в том, что обычно в качестве группировоч- ного признака выбирают факторный. В сказуемом таблицы размещают абсолютные, относительные или средние значения результативного показателя. Далее изучается, как изменение факторного признака приводит к изменению результативного. Например, с помощью группировки можно установить, что с ростом производительности труда снижается себестоимость продукции, но количественно оценить эту связь нельзя.

Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы (табл. 6.1).

Таблица 6.1

Построение корреляционной таблицы

В основу группировки положены два изучаемых во взаимосвязи признака - X и Y. Частоты /, показывают количество соответствующих сочетаний Хи Y. Если /расположены в таблице беспорядочно, то можно говорить об отсутствии связи между переменными.

В случае образования какого-либо характерного сочетания / допустимо утверждать о связи между X и Y. При этом если/; концентрируется около одной из двух диагоналей, то имеет место прямая или обратная линейная связь. В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения - одно по X, другое по Y. Метод группировки позволяет не только определить тесноту связи, но и измерить ее тесноту на основе использования показателей вариации.

Графический метод позволяет изобразить взаимосвязь между признаками с помощью корреляционного поля («поля рассеяния»), которое является наглядным изображением корреляционной таблицы. В системе координат на оси абсцисс откладываются значения факторного признака, а на оси ординат - результативного (рис. 6.2-6.7).

По расположению точек, их концентрации в определенном направлении можно судить о наличии связи.

Из всех перечисленных методов корреляционно-регрессионный анализ является наиболее совершенным, так как он позволяет не только выявить, но и выразить имеющуюся связь в виде определенного математического уравнения, которое характеризует механизм взаимодействия между факторами и результативными признаками.

Рис. 6.3.

Рис. 6.4.

Рис. 6.5.

Рис. 6.7. График корреляционного поля Зависимость между Хи У отсутствует

Обязательными условиями применения корреляционного и регрессионного анализа являются следующие:

1) случайный отбор обследуемых единиц;
2) однородность совокупности по изучаемому признаку;
3) достаточно большое число обследуемых единиц;
4) все факторные признаки должны иметь количественное выражение.

Общественные явления, в том числе юридически значимые, взаимосвязаны между собой, зависят друг от друга и обусловливают друг друга. Имеющиеся взаимосвязи реализуются в форме причинности, функциональной связи, связи состояний и т. д. Особая роль во взаимосвязях общественных явлений принадлежит причинности, т. е. частице всемирной связи, но не субъективной, а объективно реальной. Эта объективно необходимая связь, в которой одно или несколько взаимосвязанных явлений, именуемых причиной (фактором), порождают другое явление, именуемое следствием (результатом), и может быть названа причинностью.

Юридические науки конкретизируют это понятие применительно к явлениям и процессам юридически значимого характера. Среди юридических дисциплин в изучении причинности дальше всего продвинулись криминология - наука о преступности, ее причинах и предупреждении, уголовное право, где установление причинной связи между действием и последствием - необходимое условие наступления уголовной ответственности . Но вопросы причинной связи важны и в административном, и в гражданском, и в других отраслях права.

Между причинностью в криминологии и в праве не только общность, но и существенные различия. Причинная связь между криминогенными факторами и совершением преступления (причинами и преступностью) по времени предшествует причинной связи между общественно опасным действием (бездействием) и преступными последствиями. Последней присущи главным образом динамические закономерности и функциональные связи, а между криминогенными факторами и преступным поведением в основном действуют статистические закономерности и корреляционные связи.

Любая закономерная связь предполагает повторяемость, последовательность и порядок в явлениях, но рассматриваемые связи проявляются по-разному: функциональные - в каждом единичном случае, а корреляционные - в большой массе явлений. Например, между ударом ножом и телесным повреждением существует прямая причинная функциональная связь (если, конечно, повреждение не осложнено заражением раны, неквалифицированной медицинской помощью и т. д.). Функциональная зависимость характеризуется тем, что изменение какого-либо одного признака, являющегося функцией, сопряжено с изменением другого признака. Эта взаимосвязь одинаково проявляется у всех единиц любой совокупности.

Если удар ножом вызывает ранение тела (мы абстрагируемся от вида ножа, силы удара, его места, характера раны и других конкретных обстоятельств), то кому бы этот удар ни был нанесен, зависимость между ним и раной будет проявляться повсюду. Установив ее единожды, мы пользуемся этой зависимостью во всех аналогичных случаях. На знании данной зависимости строятся медицинская и криминалистическая экспертизы. Отнесение зависимости между ударом ножом и ранением к функциональной связи достаточно условно. Подобная форма зависимости не идентична функциональной связи в физике или математике.

В точных науках функциональные связи обычно выражаются формулами. Например, в формуле S = кЯ 2 площадь круга S (результативный признак) прямо пропорциональна квадрату

его радиуса R (факторному признаку). Формула I = - расшиф-

ровывается сложнее: сила электрического тока (/) прямо пропорциональна напряжению (U) и обратно пропорциональна сопротивлению (R). В этом случае результативный признак определяется двумя факторными признаками с противоположным действием. Сила тока будет тем больше, чем выше напряжение или меньше сопротивление. Функциональная динамическая связь точно рассчитывается. Поэтому она является и полной, и точной. Она действует во всех автономных, мало зависящих от внешних воздействий системах с относительно небольшим числом элементов.

Юридические науки имеют дело главным образом с социально-правовыми явлениями и процессами, где нет таких жестких однозначно полных и точных связей. Причинная обусловленность преступления, и тем более преступности, как массового социального явления, связана с огромной совокупностью взаимозависимых обстоятельств, которые с изменением действия хотя бы одного из них могут изменить характер всего взаимодействия в целом. Число обстоятельств, которые влияют на совершение преступлений, достигает 450 и более .

Причинная зависимость между каждым признаком-фактором и признаком-следствием характеризуется неоднозначностью: тот или иной признак-следствие изменяется под воздействием комплекса признаков-факторов, а каждому значению признака-фактора соответствует (под влиянием других признаков-факторов) несколько значений признака-следствия. Поэтому связь между причиной (совокупностью причин) и следствием (преступлением или преступностью) многозначна и имеет вероятностный характер.

Многозначность заключается не только в том, что каждое правонарушение (и правонарушаемость в целом) есть результат действия многих причин, но и в том, что каждая причина, взаимодействуя с тем или иным набором других причин, может порождать не одно, а несколько следствий, в числе которых - различные виды противоправного и правомерного поведения.

Вероятностная сторона многозначности причинной связи в криминологии и социологии права «состоит в том, что при замене какого-либо условия, даже при одной и той же причине, получается иной результат» . Такая форма причинной связи, при которой причина определяет следствие не однозначно, а лишь с определенной долей вероятности, является неполной и называется корреляционной связью. Она отражает статистическую закономерность и действует во всех неавтономных, зависящих от постоянно меняющихся внешних условий системах с очень большим количеством элементов (факторов).

Причины преступления, например, «растворены» в общей массе позитивных воздействий, «распределены» в структуре деятельности человека и «растянуты» в течение всей его жизни. Поэтому действие той или иной причины можно обнаружить лишь в очень большой массе случаев. Но даже и на массовом статистическом уровне, где влияние случайных факторов как- то нивелируется путем взаимоуничтожения, обнаруженные зависимости не могут быть полными и точными, т. е. функциональными. Действие неучтенных, неизвестных, а часто и известных, но трудно уловимых факторов проявляется в том, что изучаемые связи оказываются не только неполными, но и приблизительными.

Обоснованно считается, что воспитание ребенка без одного или обоих родителей - это криминогенный фактор. Значит ли это, что каждый человек, воспитанный в таких условиях, совершит в будущем преступление? Никоим образом. За обобщенным фактором - воспитание без родителей - может скрываться огромное число иных факторов, криминогенных и антикри- миногенных, которые бывают разными для каждого ребенка. Но при изучении большой массы людей, воспитанных родителями и без родителей, во всех странах мира с закономерностью устанавливается статистическое отклонение: лица, воспитанные без одного или обоих родителей, намного чаще совершают преступления, чем воспитанные в полной семье.

Между криминогенными факторами и преступностью существует прямая корреляционная связь (со знаком «+»). Например, чем выше уровень алкоголизации в обществе, тем выше преступность, причем преступность специфичная («пьяная»). Между факторами антикриминогенными и преступностью действует обратная корреляционная зависимость (со знаком «-»). Например, чем выше социальный контроль в обществе, тем ниже преступность . И прямые, и обратные связи могут быть прямолинейными и криволинейными.

Прямолинейные (линейные) связи проявляются тогда, когда с увеличением значений признака-фактора происходит возрастание (прямая) или уменьшение (обратная) величины признака- следствия. Математически такая связь выражается уравнением прямой (уравнением регрессии):

где у - признак-следствие; а и b - соответствующие коэффициенты связи; х - признак-фактор.

Мы уже обращались к этой формуле при выравнивании динамического ряда по прямой.

Криволинейные связи имеют иной характер. Возрастание величины факторного признака оказывает неравномерное влияние на величину результирующего признака. Вначале эта связь может быть прямой, а затем - обратной. В юридической науке такие связи почти не изучались, а они наличествуют. Известный пример - связь преступлений с возрастом правонарушителей. Вначале криминальная активность лиц растет прямо пропорционально увеличению возраста правонарушителей (приблизительно до 30 лет), а затем с увеличением возраста преступная активность снижается. Причем вершина кривой распределения правонарушителей по возрасту сдвинута от средней влево (к более молодому возрасту) и является асимметричной.

Более сложный пример: с расширением социального контроля уровень противоправного поведения снижается, но дальнейшая тотализация контроля превращает его из антикримино- генного фактора в криминогенный. Поэтому «закручивание гаек» в обществе социально полезно лишь до определенного предела. Такие связи статистически описываются уравнениями кривых линий (гиперболы, параболы и т. д.).

Корреляционные прямолинейные связи могут быть однофакторными, когда исследуется связь между одним признаком- фактором и одним признаком-следствием (парная корреляция). Они могут быть многофакторными, когда исследуется влияние многих взаимодействующих между собой признаков-факторов на признак-следствие (множественная корреляция).

Парная корреляция давно находит применение в юридической статистике, а множественная корреляция практически не используется, хотя в криминологии, деликтологии и социологии права многофакторные связи, можно сказать, доминируют. Это обусловлено рядом трудностей: неналаженным учетом признаков-факторов, недостаточной математической, статистической и социологической подготовкой юристов и другими обстоятельствами объективного характера.

Корреляционные связи одних явлений с другими видны уже на первых стадиях статистической обработки данных. Сводка и группировка статистических показателей, исчисление относительных и средних величин, построение вариационных, динамических, параллельных рядов позволяет установить наличие взаимосвязи изучаемых явлений и даже ее характер (прямой и обратный). Если, построив вариационный ряд преступников по возрасту, мы обнаруживаем, что основные частоты группируются в интервале молодежного возраста, у нас есть достаточные основания полагать, что молодежный возраст - наиболее криминогенный. Хотя возраст (как мы установили в предыдущих главах) и выступает не в собственном значении, а лишь как интегрированный выразитель криминогенных условий, взаимодействующих с соответствующими возрастными изменениями человека.

Обратимся к состоянию опьянения, которое во всех странах мира считается криминогенным фактором и в связи с этим статистически отслеживается. В России в 1996 г. было зафиксировано: в состоянии опьянения правонарушителей совершено 39% всех учтенных преступлений, в том числе 77,6% - изнасилований, 73,5% - умышленных убийств, 69,8% - хулиганских действий, 59,7% - разбоев, 57,0% - грабежей, 37,7% - краж и 0% - взяточничества. Приведенные проценты свидетельствуют о прямой корреляционной связи преступлений с пьянством (кроме взяточничества). Поскольку эти цифры повторяются практически из года в год, они свидетельствуют не только о наличии данной связи, но в определенной мере и о степени влияния пьянства на различные виды деяний. Для более точного измерения связей статистика располагает большим набором различных методов.

См.: Кудрявцев В. Н. Причинность в криминологии. М., 1968; Церетели Т. В. Причинная связь в уголовном праве. М, 1963.
См.: Модель регионального криминологического и уголовно-правовогопрогноза. М., 1994.
Кудрявцев В. Н. Причинность в криминологии. С. 9.
См.: Лунеев В. В. Преступность XX века. Мировые, региональные и российские тенденции. С. 775-840.

Аннотация: Для большинства статистических исследований важно выявить существующие взаимосвязи между протекающими явлениями и процессами. Почти все наблюдаемые явления экономической жизни общества, какими бы независимыми они ни казались на первый взгляд, как правило, - следствие действия определенных факторов. Например, прибыль, получаемая предприятием, связана со множеством показателей: численностью работников, их образованием, стоимостью основных производственных фондов и т. п.

12.1. Понятие о функциональной и корреляционной связи

Между общественными и экономическими явлениями имеется два основных типа связи - функциональная и статистическая (называемая также стохастической, вероятностной или корреляционной). Перед тем как рассмотреть их подробнее, введем понятия независимых и зависимых признаков.

Независимыми, или факторными, называют признаки, которые вызывают изменения других, связанных с ними признаков. Признаки, изменение которых под воздействием определенных факторов требуется проследить, называют зависимыми, или результативными.

При функциональной связи изменение независимых переменных приводит к получению точно определенных значений зависимой переменной.

Наиболее часто функциональные связи проявляются в естественных науках, например в механике функциональной является зависимость расстояния, пройденного объектом, от скорости его движения и т. п.

При статистической связи каждому значению независимой переменной Х соответствует множество значений зависимой переменной Y, причем не известно заранее, какое именно. Например, мы знаем, что прибыль коммерческого банка определенным образом связана с размером его уставного капитала (этот факт не подлежит сомнению). Тем не менее, нельзя вычислить точную величину прибыли при заданном значении последнего показателя, так как она зависит еще и от множества других факторов, помимо размера уставного капитала, среди которых имеются и случайные. В нашем случае, скорее всего, мы определим лишь среднее значение прибыли, которое будет получено в целом по совокупности банков со сходным объемом уставного капитала. Таким образом, статистическая связь отличается от функциональной наличием действия на зависимую переменную большого числа факторов.

Заметим, что статистическая связь проявляется лишь "в общем и среднем" при большом числе наблюдений за явлением. Так, интуитивно мы можем предполагать, что существует зависимость между объемом основных фондов предприятия и получаемой им прибылью, а именно с увеличением первого размер прибыли возрастает. Но на это можно возразить и привести пример предприятия, обладающего достаточным количеством современного производственного оборудования, но тем не менее терпящего убытки. В данном случае мы имеем наглядный пример статистической связи, которая проявляется лишь в больших совокупностях, содержащих десятки и сотни единиц в отличие от функциональной, подтверждающейся для каждого наблюдения.

Корреляционной является статистическая связь между признаками, при которой изменение значений независимой переменной Х приводит к закономерному изменению математического ожидания случайной величины Y.

Пример 12.1. Предположим, что имеются данные по предприятиям о размере нераспределенной прибыли предыдущего года, объеме инвестиций в основной капитал и о суммах, выделенных на приобретение ценных бумаг (тыс. ден. ед.):

Таблица 12.1.

Номер предприятия	Нераспределенная прибыль предыдущего года	Приобретение ценных бумаг	Инвестиции в основные фонды
1	3 010	190	100
2	3 100	182	250
3	3 452	185	280
4	3 740	170	270
5	3 980	172	330
6	4 200	160	420
7	4 500	145	606
8	5 020	120	690
9	5 112	90	800
10	5 300	30	950

Из таблицы видно, что имеется прямое соответствие между нераспределенной прибылью предприятия и его инвестициями в основной капитал : при увеличении нераспределенной прибыли объем инвестиций также возрастает. Теперь обратим внимание на связь между показателем нераспределенной прибыли и объемом приобретенных ценных бумаг. Здесь она носит совершенно иной характер: увеличение первого показателя приводит к прямо противоположному эффекту - стоимость приобретенных ценных бумаг за редким исключением (что уже однозначно исключает наличие функциональной связи) уменьшается. Такой визуальный анализ данных , при котором наблюдения ранжируются по возрастанию или убыванию независимой величины х, а затем анализируется изменение значений зависимой величины у, называется методом приведения параллельных данных.

В рассмотренном примере в первом случае связь прямая, т.д. увеличение (уменьшение) одного показателя влечет увеличение (уменьшение) другого (наблюдается соответствие в изменениях показателей), а во втором - обратная, т.д. уменьшение одного показателя вызывает рост другого или же увеличение одного соответствует снижению другого.

Прямая и обратная зависимости характеризуют направление связи между признаками, которую можно проиллюстрировать графически с помощью поля корреляции. При его построении в прямоугольной системе координат на оси абсцисс располагают значения независимой переменной х, а на оси ординат - зависимой у. Пересечение координат обозначают точками, которые символизируют наблюдения. По форме рассеяния точек на корреляционном поле судят о форме и тесноте связи. На рисунке 12.1 приводятся корреляционные поля, соответствующие различным формам связи.

Рис. 12.1.

а - прямая (положительная) связь ;

б - обратная (отрицательная) связь ;

в - отсутствие связи

Раздел статистической науки, занимающийся исследованием причинных связей между социально-экономическими явлениями и процессами, имеющими количественное выражение , - это корреляционно-регрессионный анализ . По существу имеются два отдельных направления анализа - корреляционный и регрессионный. Однако в связи с тем, что на практике они применяются чаще всего комплексно (исходя из результатов корреляционного анализа проводят регрессионный), их объединяют в один вид.

Проведение корреляционно-регрессионного анализа предполагает решение следующих задач:

Из перечисленных задач первые две относят непосредственно к задачам корреляционного анализа, три последующие - к регрессионному анализу и только по отношению к количественным показателям.

12.1.1. Требования к статистической информации, исследуемой методами корреляционно-регрессионного анализа

Методы корреляционно-регрессионного анализа можно применить не ко всем статистическим данным. Перечислим основные требования, предъявляемые к анализируемой информации:

используемые для исследования наблюдения должны являться случайно выбранными из генеральной совокупности объектов. В противном случае исходные данные, представляющие собой определенную выборку из генеральной совокупности, не будут отражать ее характер, полученные по ним выводы о закономерностях развития окажутся бессмысленными и не имеющими никакой практической ценности;
требование независимости наблюдений друг от друга. Зависимость наблюдений друг от друга называется автокорреляцией, для ее устранения в теории корреляционно-регрессионного анализа созданы специальные методы;
исходная совокупность данных должна быть однородной, без аномальных наблюдений. И действительно, одно-единственное, резко выделяющееся наблюдение может привести к катастрофическим последствиям для регрессионной модели, ее параметры окажутся смещенными, выводы абсурдными;
желательно, чтобы исходные данные для анализа подчинялись нормальному закону распределения. Нормальный закон распределения используется для того, чтобы при проверке значимости коэффициентов корреляции и построении для них интервальных границ можно было использовать определенные критерии. Если же проверять значимость и строить интервальные оценки не требуется, переменные могут иметь любой закон распределения. В регрессионном анализе при построении уравнения регрессии требование нормальности распределения исходных данных предъявляется лишь к результативной переменной Y, независимые факторы рассматриваются как неслучайные величины и могут в действительности иметь любой закон распределения. Как и в случае корреляционного анализа, требование нормальности распределения нужно для проверки значимости регрессионного уравнения, его коэффициентов и нахождения доверительных интервалов;
число наблюдений, по которым устанавливается взаимосвязь признаков и строится модель регрессии, должно превышать количество факторных признаков хотя бы в 3-4 раза (а лучше в 8-10 раз). Как отмечалось выше, статистическая связь проявляется только при значительном числе наблюдений на основе действия закона больших чисел, причем, чем связь слабее, тем больше требуется наблюдений для установления связи, чем сильнее - тем меньше;
факторные признаки Х не должны находиться между собой в функциональной зависимости. Значительная связь независимых (факторных, объясняющих) признаков между собой указывает на мультиколлениарность. Ее наличие приводит к построению неустойчивых регрессионных моделей, "ложных" регрессий.

12.1.2. Линейная и нелинейная связи

Линейная связь выражается прямой линией, а нелинейная - какой-либо кривой линией. Линейная связь выражается уравнением прямой: y = a 0 + a i *x. Прямая наиболее привлекательна с точки зрения простоты расчета параметров уравнения. К ней прибегают всегда, в том числе и в случаях нелинейных связей, когда нет угрозы значительных потерь в точности оценок. Однако для некоторых зависимостей представление их в линейной форме приводит к большим ошибкам (ошибкам аппроксимации) и, как следствие, к ложным выводам. В этих случаях используют нелинейные регрессионные функции, которые в общем случае могут иметь любой произвольный вид, тем более что современное программное обеспечение позволяет быстро их построить. Чаще всего для выражения нелинейной связи используются следующие нелинейные уравнения: степенное, параболическое, гиперболическое, логарифмическое.

Параметры этих моделей, как и в случаях линейных зависимостей, оцениваются также на основе метода наименьших квадратов (см. п. 12.3.1).

12.2. Корреляционно-регрессионный анализ

Основными задачами корреляционного анализа являются определение наличия связи между отобранными признаками, установление ее направления и количественная оценка тесноты связи. Для этого в корреляционном анализе сначала оценивается матрица парных коэффициентов корреляции, затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации. После нахождения значений коэффициентов проверяют их значимость . Конечный результат корреляционного анализа - это отбор факторных признаков Х для дальнейшего построения уравнения регрессии, позволяющего количественно описать взаимосвязь.

Рассмотрим этапы корреляционного анализа подробнее.

12.2.1. Парные (линейные) коэффициенты корреляции

Корреляционный анализ начинается с расчета парных (линейных) коэффициентов корреляции.

Парный коэффициент корреляции представляет собой меру линейной зависимости между двумя переменными на фоне действия остальных переменных, входящих в модель.

В зависимости от того, какой порядок вычислений более удобен исследователю, расчет данного коэффициента проводят по одной из следующих формул:

Парный коэффициент корреляции изменяется в пределах от -1 до +1. Абсолютное значение, равное единице, свидетельствует о том, что связь функциональная: -1 - обратная (отрицательная), +1 - прямая (положительная). Нулевое значение коэффициента указывает на отсутствие линейной связи между признаками.

Качественную оценку полученным количественным значениям парных коэффициентов корреляции можно дать на основе шкалы, представленной в табл. 12.2.

Примечание: положительное значение коэффициента говорит о том, что связь между признаками прямая, отрицательное - обратная.

12.2.2. Оценка существенности связи

После того, как значения коэффициентов получены, следует проверить их значимость. Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются определенной выборкой из некоей генеральной совокупности объектов, исчисленные по этим данным парные коэффициенты корреляции будут выборочными. Таким образом, они лишь оценивают связь исходя из той информации, которую несут отобранные единицы наблюдения. Если исходные данные "хорошо" отражают структуру и закономерности генеральной совокупности, то и исчисленный по ним коэффициент корреляции будет показывать реальную связь, присущую в действительности всей исследуемой совокупности объектов. Если данные не "копируют" взаимосвязи совокупности в целом, то и рассчитанный коэффициент корреляции сформирует ложное представление о зависимости. В идеале, чтобы установить этот факт, требуется исчислить коэффициент корреляции на основе данных всей совокупности и сравнить его с исчисленным по отобранным наблюдениям. Однако на практике, как правило, этого сделать нельзя, так как зачастую неизвестна вся генеральная совокупность или же она слишком велика. Поэтому о том, насколько реально коэффициент представляет действительность, можно судить лишь приблизительно. На основе логики легко прийти к выводу, что, очевидно, с увеличением числа наблюдений (при ) доверие к исчисленному коэффициенту будет увеличиваться.

Значимость парных коэффициентов корреляции проверяется одним из двух способов: с помощью таблицы Фишера - Йейтса или по t-критерию Стьюдента. Рассмотрим способ проверки с помощью таблицы Фишера - Йейтса как наиболее простой.

В начале проверки задается уровень значимости (чаще всего обозначаемый буквой греческого алфавита "альфа" - ), который показывает вероятность принятия ошибочного решения. Возможность совершить ошибку вытекает из того факта, что для определения взаимосвязи используются данные не всей совокупности, а лишь ее части. Обычно принимает следующие значения: 0,05; 0,02; 0,01; 0,001. Например, если = 0,05, то это означает, что в среднем в пяти случаях из ста принятое решение о значимости (или незначимости) парных коэффициентов корреляции будет ошибочным; при = 0,001 - в одном случае из тысячи и т.д.

Вторым параметром при проверке значимости является число степеней свободы v, которое в данном случае вычисляется как v = n - 2. По таблице Фишера - Йейтса находится критическое значение коэффициента корреляции r кр. ( = 0,05, v = n - 2). Коэффициенты, значения которых по модулю больше найденного критического значения, считаются значимыми.

Пример 12.2. Предположим, что в первом случае имеется 12 наблюдений, и по ним вычислили парный коэффициент корреляции, который оказался равным 0,530, во втором - 92 наблюдения, и рассчитанный парный коэффициент корреляции составил 0,36. Но если мы проверим их значимость, в первом случае коэффициент окажется незначимым, а во втором - значимым, невзирая на то, что он по величине гораздо меньше. Оказывается, в первом случае слишком мало наблюдений, что повышает требования, и критическая величина парного коэффициента корреляции при уровне значимости = 0,05 составляет 0,576 (v = 12 - 2), а во втором - наблюдений значительно больше и достаточно превысить критическое значение 0,205 (v = 92 - 2), чтобы коэффициент корреляции при том же уровне оказался значимым. Таким образом, чем меньше наблюдений, тем всегда будет выше критическое значение коэффициента.

Проверка значимости по существу решает вопрос, случайны или нет полученные результаты расчетов.

12.2.3. Определение множественного коэффициента корреляции

Следующий этап корреляционного анализа связан с расчетом множественного (совокупного) коэффициента корреляции.

Множественный коэффициент корреляции характеризует тесноту линейной связи между одной переменной и совокупностью других переменных, рассматриваемых в корреляционном анализе.

Если изучается связь между результативным признаком y и лишь двумя факторными признаками х 1 и х 2 , то для вычисления множественного коэффициента корреляции можно использовать следующую формулу, компонентами которой являются парные коэффициенты корреляции:

где r - парные коэффициенты корреляции.

1. Виды и формы связей между явлениями.

2. Методы изучения взаимосвязей.

3. Корреляционно-регрессионное моделирование.

4. Оценка КРМ на адекватность.

1. Все явления объективного мира, в том числе и общественные, находятся в постоянной взаимосвязи и взаимодействии между собой, в непрерывном изменении и развитии. Важнейшей задачей статистики, наряду с оценкой состояния массовых явлений и выявлением закономерностей их развития, является изучение связей между ними.

Связи массовых общественных явлений устанавливают на основе теоретического анализа их сущности, изучения закономерностей и движущих сил развития, оценки условий их функционирования. При этом используются категории, понятия и накопленные ранее знания других наук. Задача статистики состоит в том, чтобы выявить само наличие связи в конкретных условиях, а также получить показатели, характеризующие ее силу, степень и характер.

Теоретический и практический интерес представляют в первую очередь причинно-следственные связи, когда одни явления (факторы) выступают причиной изменения других (результаты). Их анализ позволяет, во-первых, объяснить фактическое положение дел, а во-вторых, воздействуя на факторы, добиться изменения результатов в желаемом направлении.

Виды связей:

I. По характеру:

1) функциональные. Связь между явлениями называется функциональной , если изменению факторного показателя x на единицу соответствует строго определенное изменение результативного признака y. Такие связи выражают формулами, действительными во всех случаях. Примером может служить изменение заработной платы (при той же самой часовой ставке) в зависимости от числа отработанных часов, изменение затрат на топливо в зависимости от его расхода в натуральном выражении (при неизменных ценах) и т.д.

2) статистические (корреляционные). Статистическими (корреляционными) называют связи, при которых строго определенному изменению факторного признака x соответствует целый ряд (статистическое распределение) изменений результата y, не вполне определенных, подверженных случайным колебаниям. Эти связи проявляются лишь в среднем, в массовых явлениях; кроме изучаемого фактора на результат воздействуют и другие причины, в том числе носящие случайный характер. Например, при увеличении доз вносимых удобрений урожайность культур в среднем повышается, но не всегда и не на одну и ту же величину.

II. По форме выражения:

1) прямые - с возрастанием факторного признака увеличивается результативный (например, при увеличении стажа работника, как правило, производительность его труда повышается);

2) обратные - изменения идут в противоположном направлении (так, при повышении продуктивности животных и урожайности культур затраты на единицу продукции в среднем сокращаются).

III. По аналитическому выражению:

1) прямолинейные - с возрастанием одного признака при любом его исходном значении другой изменяется в среднем на одну и ту же величину;

2) криволинейные - эти изменения сами изменяются (увеличиваются, уменьшаются или даже меняют свой знак).

IV. В зависимости от количества факторных признаков, включенных в модель:

1) парные (однофакторные);

2) множественные (многофакторные).

2. Для изучения функциональных связей используют методы:

Балансовые связи. Он основан на простой функциональной зависимости между наличием какого-то ресурса на начало и конец периода, его поступлением и расходованием в течение этого периода. Если известны любые три из указанных показателей, четвертый определяется автоматически. Наличие на конец года = Наличие на начало года + Поступило – Выбыло.

Например, годовое потребление в хозяйстве продукции собственного производства можно рассчитать так:

Потребление = Наличие на начало года + Производство – Наличие на конец года.

Индексного анализа.

Для изучения корреляционных связей используют методы:

Сопоставление параллельных рядов;

Самый простой и наиболее распространенный прием – сопоставление параллельных рядов. Его сущность состоит в одновременном рассмотрении изучаемых признаков по единицам совокупности или по периодам (моментам) динамического ряда. Сопоставление производится чисто визуально, без специальных расчетов (табл 9.3).

В данном случае хорошо видно, что в динамике дозы внесения органических и минеральных удобрений вплоть до 1990 г. увеличиваются, а затем снижаются. Сходная тенденция наблюдается и по урожайности зерновых: рост до 1990 г. с последующим снижением. Напротив, по урожайности картофеля никакого параллелизма с показателями внесения удобрений не прослеживается.

Сопоставление параллельных рядов (его особенно удобно вести с помощью линейных графиков) позволяет установить наличие связи, ее направление и очень приблизительно – ее силу. Так, изменения доз органических и минеральных удобрений связаны очень тесно, их связь с урожайностью зерновых культур, хотя и слабая, также имеется, она носит прямой и линейный характер, а вот связь с урожайностью картофеля практически не прослеживается.

Главный недостаток данного приема – отсутствие каких-либо показателей связи. Сопоставление не решает также вопрос о причинно-следственных связях изучаемых явлений. Из теории, например, известно, что внесение удобрений приводит к росту урожайности. Но картофель возделывается в основном в хозяйствах населения, и его доля в структуре посевов невелика. Поэтому показатель внесения удобрений в среднем на 1 га всей посевной площади, и к тому же во всех категориях хозяйств, является слишком общим, чтобы могла обнаружиться какая-то связь с урожайностью картофеля.

Графический метод (метод корреляционного поля);

Состоит в нанесении точек графика на координатную плоскость, а также определении поля корреляции и направления связи между признаками.

Пример: Имеются данные:

Обратная зависимость.

Метод построения групповых корреляционных таблиц;

Имеются данные:

Границы групп для х:

Границы групп для у:

1 гр.: 18-21,2;

2 гр.: 21,2-24,4;

3 гр.: 24,4-27,6;

4 гр.: 27,6-30,8;

5 гр.: 30,8-34.

Таблица – Групповая корреляционная таблица

х	18-21,2	21,2-24,4	24,4-27,6	27,6-30,8	30,8-34
1-4		-	-	-	-
4-7			-	-	-
7-10	-			-	-
10-13	-	-		-	-
13-16	-	-		-
				-

Вывод: связь прямая однонаправленная (т.к. частоты расположены по диагонали).

Метод аналитических группировок;

Метод дисперсионного анализа;

Метод КРА;

Метод непараметрической оценки связей.

3. Метод корреляционно-регрессионного моделирования состоит из двух этапов:

I. Регрессия – поиск уравнения связи, которое наиболее полно характеризует зависимость между признаками, и определение параметров этого уравнения.

Условное начало, содержательной интерпретации не подлежит;

Коэффициенты регрессии, показывающие, на сколько единиц изменится результативный признак при изменении факторного признака на единицу при улови, что все прочие факторные признаки останутся неизменными.

II. Корреляция – определение показателей тесноты связи.

Чаще всего корреляцию характеризуют двумя показателями:

Коэффициент корреляции (характеризует степень тесноты связи между результативным и всеми факторными признаками; измеряется в интервале от 0 до 1 по модулю; чем ближе к 1, тем более тесная связь между признаками);

Коэффициент детерминации (показывает, на сколько процентов включенные в модель факторы объясняют вариацию результативного признака: измеряется в интервале от 0 до 100%).

корреляции

2. Коэф. парной детерминации

2. Эмперический коэф. детерми-

2. Коэф. множ. детерминации

коэффициент чистой регресс при i- том факторном признаке;

Ср. кВ. отклонения по i-тому факторному признаку.

Чтобы сделать коэффициенты регрессии сопоставимыми и определить влияние каждого в отдельности фактора на результативный признак, рассчитывают стандартизированные коэффициенты:

1) Коэффициенты эластичности:

Коэффициенты эластичности показывают, на сколько процентов изменится результативный признак, при увеличении факторного признака на 1%.

показывают, на сколько средний квадратических отклонений изменится результативный признак при увеличении факторного на свое среднее квадратическое отклонение.

3) Коэффициенты отдельного определения:

Коэффициенты отдельного определения определения показывают вклад каждого фактора в вариацию результативного признака.

4. Адекватность КРМ – это оценка построенной модели в действительности.

Оценка построенной модели на адекватность проводится с использованием F критерия Фишера:

n – объем совокупности;

k – число факторных признаков в уравнении;

Дисперсия выровненных значений результативного признака по уравнению регрессии.

Дисперсия отклонений фактических значений результативного признака от выровненных по уравнению регрессии.

По таблице значений F- критерия Фишера определяется табличное его значение при уровне значимости 0,01; 0,05; или 0,1 и числе степеней свободы n-k-1. Если - модель адекватна.

Значимость коэффициентов регрессии определяется с помощью критерия Стьюдента.

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому -- сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют

неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов . Если характеризуется связь двух признаков, то ее принято называть парной. Если изучаются более чем две переменные - множественной.

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь -- это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая -- регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительные процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле -- когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле -- когда исследуется сила связи -- и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на результативный признак:

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых, дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы--параметрические--и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.