Изследване на взаимозависимостта между статистическите показатели. Теория на статистиката

Цели на обучението:

  • 1) изучаване на основните видове статистически връзки социални явленияи основните методи за тяхното изследване;
  • 2) показват използването на корелационен и регресионен анализ за прогнозиране.

ИЗУЧВАНЕ НА ПРИЧИННО-СЛЕДСТВЕНИТЕ ВРЪЗКИ В СТАТИСТИКАТА

Познаването на социално-икономическите явления предполага цялостен анализ на връзките, съществуващи между тях. Изследването на връзките е една от най-важните познавателни задачи в теорията на статистиката. Изследването на връзките се основава на общата философска концепция за универсалната връзка на явленията, която се научава чрез изучаване на причинно-следствените връзки.

Причинно-следствени връзкинаричаме такива връзки между явления и процеси, когато промяната в един от тях (причина) води до промяна в другия (следствие).

Статистиката не се занимава с откриването на тези причини; с това се занимават специални икономически дисциплини. Статистиката разкрива наличието и посоката на връзката, определя количествено влиянието на всяка причина върху изменението на конкретна характеристика и изразява връзката аналитично, което позволява да се вземе предвид определеното въздействие при вземане на управленски решения на различни нива.

Статистическото изследване на социалните явления ни позволява да изразим количествено сложни взаимоотношения, въз основа на резултатите от качествен анализ, който не само предшества статистическото изследване, но е и критерий за оценка на резултатите.

Теоретичният (качествен) анализ ни позволява да установим икономическата същност на явленията и процесите, да разкрием техните съществени свойства, както и приликите и разликите между тях. Това е най-важният етап в изучаването на връзките между явленията и процесите.

В процеса на изучаване на зависимостите се разкриват причинно-следствени връзки, което позволява да се идентифицират фактори (причини), които оказват значително влияние върху вариацията на изследваните явления и процеси. причина -е съвкупност от условия, обстоятелства, действието на които води до възникването последствия.

По този начин, въз основа на качествен анализ, става възможно характеристиките да се разделят на два класа:

  • 1) факторни характеристики (фактори), които определят промените в други характеристики;
  • 2) ефективни характеристики, които се променят под влияние на факторни характеристики.

Трябва да се има предвид, че в различни случаи един и същ показател, например производителността на труда, може да действа или като фактор, или като резултатна характеристика. Например, производителността на труда, от една страна, зависи от нивото на автоматизация на производството, опита и квалификацията на работниците. Тук производителността на труда е ефективен признак. От друга страна печалбата на предприятието зависи от нивото на производителността на труда. В този случай производителността на труда е факторен атрибут.

Видове връзки. Връзките между явленията се класифицират по различни направления: природа, степен на близост, насоченост, аналитичен израз и др.

Природатазависимостите разграничават функционални и стохастични връзки. Връзката между характеристиките се нарича функционален (детерминиран),ако всяка стойност на един от тях съответства на една (или няколко, в случай на множество връзки) добре дефинирана стойност на другия. Такава зависимост е строга, точна, пълна.

Схематично функционалната връзка може да бъде представена по следния начин: х=> U.

IN общ изгледфункционалната връзка може да се напише: y t= /(g,).

Този тип връзка се среща доста често в математиката, физиката и химията. В икономиката пример за функционална връзка е пряко пропорционална връзка между характеристиките. Например, производителността на труда на работника и времето, което той е изразходвал за производството на единица продукция, са във функционална връзка, в строго обратна връзка.

Характерна особеност на функционалните връзки е, че за такива връзки винаги е известно:

  • - механизъм на влияние, изразен с определено уравнение (функция).

Характерно за социално-икономическите явления е, че наред със съществените фактори, които основно определят стойността на ефективния признак, той се влияе от много други, включително и случайни фактори. Следователно съществуващата зависимост не се появява тук във всеки отделен случай, както при функционалните връзки, а само като цяло с голямо числонаблюдения. Тази зависимост се нарича стохастичен.

Произходът на стохастичната теория на статистиката в Русия датира от 1880 г. Терминът „стохастична теория на статистиката“ (от гръцки stochastikos - предполагам) принадлежи на Й. Бернули. Този термин е въведен в научното обращение от V.I. Борткевич, който посочи, че в Истински животпочти винаги се сблъскваме със събития, всяко от които е следствие от няколко причини. А.А. има голям принос за развитието на стохастичната теория на статистиката. Чупров.

При стохастична зависимост промяната във факторна характеристика води до промяна в закона за разпределение на получената характеристика (фиг. 6.1):

Ориз. 6.1

Пример за стохастична връзка е следната зависимост: при еднакъв стаж на няколко работници почасовите им заплати са различни.

Особеността на стохастичните връзки е, че за тях не е известно:

  • - пълен списък на факторите, които определят стойността на получената характеристика;
  • - механизъм на влияние, изразен с определено уравнение, функция.

Специален случай на стохастично свързване е корелация,при които изменението на средната стойност на резултантния признак се дължи на изменение на факторния признак.

Корелацията е непълна, не е строга и се появява само в достатъчно голям брой случаи. Схематично може да се представи по следния начин: х=> Ф.

Най-общо корелационната връзка може да се напише: y ( = /(Х,).

Корелационната връзка не съществува без стохастичната и служи като най-важната характеристика на последната. Очевидно е, че ако има корелация, то тя следователно е стохастична, тъй като наличието на средни стойности е достатъчно условие за разликата в разпределенията. В същото време, при наличието на стохастична връзка, може да няма корелация, тъй като различните разпределения могат да имат еднакви средни стойности и да се различават по други свойства, например да имат еднаква вариация.

Корелационната връзка се различава от стохастичната връзка по своята форма на проявление. Връзката между тях е подобна на връзката между средната стойност и реда на разпределението. Серията на разпределение дава най-пълна характеристика на населението. Средната стойност не съществува без серия на разпределение и в същото време служи като нейна най-важна характеристика.

Стохастичната комуникация предоставя най-пълното описание на връзката между характеристиките.

Според степента на струпваневръзките се разделят на слаб, умеренИ силен (стегнат).Статистиката предоставя количествени критерии за оценка на близостта на връзката.

Къмразличават директни и обратни връзки. При правВъв връзка с увеличаване (намаляване) на стойностите на факторна характеристика възниква увеличение (намаляване) на стойностите на резултантната характеристика. Например повишаването на производителността на труда води до увеличаване на печалбата. При обратенвръзки с нарастването (намаляването) на факторната характеристика стойността на резултатната намалява (увеличава). Например, увеличаването на производителността на труда води до намаляване на разходите.

Чрез аналитичен изразВръзките се разграничават на праволинейни (линейни) и криволинейни (нелинейни). Линеене статистическа връзка, която приблизително се изразява чрез уравнението на права линия. Ако връзката е изразена чрез уравнението на която и да е крива линия (парабола, експоненциална хипербола и т.н.), тогава тя е нелинейни.

В зависимост от редица фактори,разграничават се влияещи върху резултата парна баняИ многофакторен (множествен)Връзка. Сдвоената корелация е специален случай на отразяване на връзката между определена зависима променлива, от една страна, и една от много независими променливи, от друга. Следователно връзката по двойки е връзка между две характеристики. Когато е необходимо да се характеризира връзката на целия набор от независими променливи с ефективна характеристика, тогава се използва множествена корелация. Следователно, ако няколко фактора влияят на ефективна характеристика, тогава връзката ще бъде многофакторна.

Има и връзки директен, косвенИ невярно.В първия случай факторите взаимодействат пряко един с друг. Непряката връзка се характеризира с участието на някаква трета променлива, която опосредства връзката между изследваните характеристики.

Източниците на фалшива корелация са идентифицирани от К. Пиърсън. Фалшивата връзка е връзка, установена между характеристики, които нямат причинно-следствена връзка помежду си, произтичащи от влиянието на обща причина. Това е връзка, идентифицирана формално и като правило потвърдена само от количествени оценки. Тя няма качествена основа или е безсмислена. Проявата на фалшива корелация, която води до безсмислени резултати, е открита от английския статистик Edney J. Yule при промяна на корелацията между времевите редове.

Основните цели на статистиката за изследване на взаимовръзките на социалните явления са:

  • 1) въз основа на теоретичен анализ, установяване на наличието и посоката на връзките;
  • 2) количествено измерване на близостта на връзката между фактор (или фактор) и резултантни характеристики;
  • 3) изразяване на идентифицираната връзка под формата на определено уравнение.

Основни методи за изследване на връзките. Основните методи за изследване на функционалните връзки включват: графични, индексни, балансови, аналитични групировки и др.

Методите за изследване на корелациите включват: графични, аналитични групировки, паралелни серии и др., както и дисперсионен, корелационен и регресионен анализ и др.

Метод на паралелни сериисе основава на сравнение на две или повече серии от статистически стойности. Простото сравнение на стойностите на индикатора дава възможност да се установи наличието на връзка и да се получи представа за нейното естество.

Метод на аналитичните групировкиви позволява да установите наличието или липсата на влияние на два или повече фактора върху промяната в получената характеристика, както и посоката на връзката. Използвайки този метод, е възможно да се характеризират общите характеристики на връзката.

Основният принцип на изучаване на връзките с помощта на метода на групиране е, че факторна характеристика обикновено се избира като групираща характеристика. В предиката на таблицата се поставят абсолютни, относителни или средни стойности на показателя за ефективност. След това изучаваме как промяната във факторен атрибут води до промяна в резултантния. Например, с помощта на групиране е възможно да се установи, че с увеличаване на производителността на труда производствените разходи намаляват, но тази връзка не може да бъде количествено определена.

Най-простата техника за идентифициране на връзката между две характеристики е конструирането корелационна таблица(Таблица 6.1).

Таблица 6.1

Изграждане на корелационна таблица

Групирането се основава на две характеристики, изследвани във взаимна връзка - хИ Y.Честоти /, показват броя на съответните комбинации Хи Й.Ако / са разположени произволно в таблицата, тогава можем да говорим за липса на връзка между променливите.

В случай на образуване на характерна комбинация /, е допустимо да се твърди връзка между хИ Y.Освен това, ако/; се концентрира близо до един от двата диагонала, тогава възниква пряка или обратна линейна връзка. Резултатите от корелационната таблица за редове и колони показват две разпределения - едно за Х,друго според Y.Методът на групиране позволява не само да се определи близостта на връзката, но и да се измери нейната близост въз основа на използването на вариационни индикатори.

Графичен методви позволява да изобразите връзката между характеристиките с помощта на корелационно поле („поле на разсейване“), което е визуално представяне на корелационната таблица. В координатната система стойностите на факторната характеристика са нанесени на абсцисната ос, а резултантната характеристика е нанесена на ординатната ос (фиг. 6.2-6.7).

По местоположението на точките и тяхната концентрация в определена посока може да се съди за наличието на връзка.

От всички изброени методи корелационно-регресионният анализ е най-напредналият, тъй като позволява не само да се идентифицират, но и да се изрази съществуващата връзка под формата на определено математическо уравнение, което характеризира механизма на взаимодействие между факторите и характеристиките на ефективността.

Ориз. 6.3.

Ориз. 6.4.

Ориз. 6.5.

Ориз. 6.7. Графика на корелационно поле Зависимост между Хи Уотсъстващ

Задължителните условия за използване на корелационен и регресионен анализ са следните:

  • 1) случаен избор на единици за изследване;
  • 2) хомогенност на съвкупността по изучавания признак;
  • 3) достатъчно голям брой изследвани единици;
  • 4) всички факторни характеристики трябва да имат количествен израз.

Социалните явления, включително правно значимите, са взаимосвързани, зависими едно от друго и се обуславят. Съществуващите връзки се реализират под формата на причинност, функционална връзка, връзка на състояния и т.н. Специална роля във връзките на социалните явления принадлежи на причинността, т.е. частица от универсална връзка, но не субективна, а обективно реална. Тази обективно необходима връзка, при която едно или повече взаимосвързани явления, наречени причина (фактор), пораждат друго явление, наречено следствие (резултат) и може да се нарече причинно-следствена връзка.

Правните науки конкретизират това понятие във връзка с явления и процеси от правно значим характер. Сред правните дисциплини най-напреднала в изучаването на причинно-следствената връзка е криминологията - наука за престъпността, нейните причини и предотвратяване, наказателното право, където установяването на причинно-следствена връзка между действие и следствие - необходимо условиевъзникване на наказателна отговорност. Но въпросите за причинно-следствената връзка са важни в административното, гражданското и други отрасли на правото.

Между причинно-следствената връзка в криминологията и правото има не само общо, но и значителни разлики. Причинно-следствената връзка между криминогенните фактори и извършването на престъпление (причини и престъпление) предхожда във времето причинно-следствената връзка между обществено опасното действие (бездействие) и настъпилите престъпни последици. Последното се характеризира предимно с динамични закономерности и функционални връзки, а между криминогенните фактори и престъпното поведение съществуват предимно статистически закономерности и корелации.

Всяка естествена връзка предполага повторяемост, последователност и ред в явленията, но разглежданите връзки се проявяват по различни начини: функционални - във всеки отделен случай и корелационни - в голяма маса от явления. Например има пряка причинно-следствена функционална връзка между удар с нож и телесна повреда (освен ако, разбира се, увреждането не е усложнено от инфекция на раната, неквалифицирана медицинска помощ и др.). Функционалната зависимост се характеризира с факта, че промяната във всеки един признак, който е функция, е свързана с промяна в друг признак. Тази връзка се проявява еднакво във всички единици на всяка популация.

Ако ударът с нож причинява рана на тялото (абстрахираме се от вида на ножа, силата на удара, местоположението му, естеството на раната и други специфични обстоятелства), тогава без значение на кого е нанесен този удар , връзката между него и раната ще се прояви навсякъде. След като го инсталираме веднъж, ние използваме тази зависимост във всички подобни случаи. Медицинските и съдебните експертизи се базират на познанието за тази зависимост. Приписването на връзката между удар с нож и нараняване на функционална връзка е доста произволно. Тази форма на зависимост не е идентична с функционалната връзка във физиката или математиката.

IN точни наукифункционалните връзки обикновено се изразяват с формули. Например във формулата С = kYa 2площ на кръг С(резултатен знак) е право пропорционален на квадрата

нейния радиус Р(знак за фактор). Формула аз= - дешифриран

е по-трудно: сила електрически ток(/) право пропорционална на напрежението (U)и обратно пропорционална на съпротивлението (R).В този случай получената характеристика се определя от две факторни характеристики с противоположни ефекти. Колкото по-високо е напрежението или по-ниско съпротивление, толкова по-голяма е силата на тока. Функционалното динамично свързване е прецизно изчислено. Следователно той е пълен и точен. Той работи във всички автономни системи със сравнително малък брой елементи, малко зависими от външни влияния.

Правните науки се занимават предимно със социално-правни явления и процеси, където няма такива твърди, недвусмислено пълни и точни връзки. Причинността на престъпността, и особено на престъпността, като масово социално явление, е свързана с огромен набор от взаимозависими обстоятелства, които при промяна на действието на поне едно от тях могат да променят характера на цялото взаимодействие като цяло. Броят на обстоятелствата, влияещи върху извършването на престъпления, достига 450 и повече.

Причинно-следствената връзка между всеки знак-фактор и знак-следствие се характеризира с неяснота: един или друг знак-следствие се променя под влиянието на комплекс от признаци-фактори и всяка стойност на признака-фактор съответства (под влияние на други знакови фактори) до няколко стойности на знаковия ефект. Следователно връзката между причината (съвкупността от причини) и следствието (престъпление или престъпление) е многозначна и има вероятностен характер.

Неяснотата се състои не само във факта, че всяко нарушение (и престъплението като цяло) е резултат от много причини, но и във факта, че всяка причина, взаимодействайки с една или друга група други причини, може да породи не една, а но няколко последствия, включително - различни видовенезаконно и законосъобразно поведение.

Вероятностната страна на неяснотата на причинно-следствената връзка в криминологията и социологията на правото „се състои в това, че при замяна на всяко условие, дори по същата причина, се получава различен резултат“. Тази форма на причинно-следствена връзка, при която причината не определя следствието недвусмислено, а само с известна степен на вероятност, е непълна и се нарича корелационна връзка. Той отразява статистически модел и функционира във всички неавтономни, зависими от непрекъснати промени външни условиясистеми с много голяма сумаелементи (фактори).

Причините за престъпността, например, се „разтварят“ в общата маса от положителни въздействия, „разпределени“ в структурата на дейността на човека и „разтегнати“ през целия му живот. Следователно ефектът от една или друга причина може да бъде открит само в много голяма маса от случаи. Но дори и на масово статистическо ниво, където влиянието на случайни фактори по някакъв начин се неутрализира чрез взаимно унищожение, откритите зависимости не могат да бъдат пълни и точни, т.е. функционални. Действието на неотчетени, неизвестни, а често и известни, но трудно откриваеми фактори се проявява в това, че изследваните връзки се оказват не само непълни, но и приблизителни.

С основание се счита, че отглеждането на дете без единия или двамата родители е криминогенен фактор. Това означава ли, че всеки човек, възпитан в такива условия, ще извърши престъпление в бъдеще? Няма начин. Зад обобщения фактор - възпитание без родители - може да има огромен брой други фактори, криминогенни и антикриминогенни, които са различни за всяко дете. Но при изучаване на голяма маса хора, отгледани от родители и без родители, във всички страни по света се установява статистическо отклонение с закономерност: хората, отгледани без един или двамата родители, извършват престъпления много по-често от тези, отгледани от двама родители семейство.

Между криминогенните фактори и престъпността има пряка корелация(със знак "+"). Например, колкото по-високо е нивото на алкохолизъм в обществото, толкова по-висока е престъпността и специфичната („пиянска“) престъпност. Между антикриминогенните фактори и престъпността има обратна корелация(със знак "-"). Например, колкото по-висок е социалният контрол в едно общество, толкова по-ниска е престъпността. И направо, и обратна връзкаможе да бъде права или извита.

Права (линейни) връзки се появяват, когато с увеличаване на стойностите на факторната черта има увеличение (пряко) или намаляване (обратно) на стойността на следствената черта. Математически тази връзка се изразява чрез уравнение с права линия (регресионно уравнение):

Където при - признак-следствие; а и б - съответни коефициенти на свързване; x - знак-фактор.

Вече разгледахме тази формула, когато подравняваме времеви редове по права линия.

Криволинейна връзките са от различно естество. Увеличаването на стойността на факторна характеристика има неравномерно въздействие върху стойността на получената характеристика. В началото тази връзка може да бъде директна, а след това обратна. IN правна наукаТакива връзки почти не са изследвани, но съществуват. Известен пример- връзката между престъпленията и възрастта на престъпниците. Първоначално престъпната активност на лицата нараства правопропорционално на възрастта на престъпниците (приблизително до 30 години), а след това с нарастване на възрастта престъпната активност намалява. Освен това върхът на кривата на разпределение на правонарушителите по възраст е изместен от средната стойност наляво (към по-млада възраст) и е асиметричен.

| Повече ▼ сложен пример: с разширяването на социалния контрол нивото на противоправното поведение намалява, но по-нататъшната тотализация на контрола го превръща от антикриминогенен фактор в криминогенен. Следователно „затягането на винтовете“ в обществото е обществено полезно само до известна степен. Такива връзки се описват статистически чрез уравнения на криви линии (хиперболи, параболи и др.).

Корелационните линейни връзки могат да бъдат еднофакторни, когато се изследва връзката между един фактор-признак и един следствие-признак (двойна корелация). Те могат да бъдат многофакторни, когато се изследва влиянието на много взаимодействащи признаци-фактори върху знак-последствие (множествена корелация).

Корелация по двойкиотдавна се използва в правната статистика и множествена корелацияпрактически не се използва, въпреки че може да се каже, че многофакторните връзки доминират в криминологията, деликтологията и социологията на правото. Това се дължи на редица трудности: неорганизирано отчитане на факторите, недостатъчна математическа, статистическа и социологическа подготовка на юристите и други обективни обстоятелства.

Корелациите между едни явления и други са видими още в първите етапи статистическа обработкаданни. Обобщението и групирането на статистически показатели, изчисляването на относителни и средни стойности, изграждането на вариационни, динамични, паралелни серии позволява да се установи наличието на връзка между изследваните явления и дори нейната природа (пряка и обратна). Ако, след като изградим вариационна серия от престъпници по възраст, установим, че основните честоти са групирани в интервала на младостта, имаме достатъчно основания да смятаме, че младостта е най-криминогенната възраст. Въпреки че възрастта (както установихме в предишните глави) не действа сама по себе си, а само като интегриран експонент на криминогенни условия, които взаимодействат със съответните възрастови промени в дадено лице.

Нека се обърнем към състоянието на интоксикация, което се счита за криминогенен фактор във всички страни по света и поради това се наблюдава статистически. В Русия през 1996 г. е регистрирано, че 39% от всички регистрирани престъпления са извършени в нетрезво състояние, включително 77,6% от изнасилванията, 73,5% от умишлените убийства, 69,8% от хулиганството, 59,7% - грабежи, 57,0% - грабежи, 37,7% % - кражби и 0% - подкупи. Посочените проценти показват пряка връзка между престъпленията и пиянството (с изключение на подкупа). Тъй като тези цифри се повтарят почти година след година, те показват не само наличието на тази връзка, но до известна степен и степента на влияние на пиянството върху различни видове деяния. За по-точно измерване на връзките статистиката има голям набор от различни методи.

  • Виж: Кудрявцев В. Н. Причинност в криминологията. М., 1968; Церетели Т. В. Причинност в наказателното право. М, 1963.
  • Виж: Модел на регионална криминологична и наказателноправна прогноза. М., 1994.
  • Кудрявцев В. Н. Причинност в криминологията. стр. 9.
  • Виж: Лунеев В. В. Престъпността на 20 век. Световни, регионални и руски тенденции. стр. 775-840.

Анотация: За повечето статистически изследвания е важно да се идентифицират съществуващите връзки между протичащите явления и процеси. Почти всички наблюдавани явления икономически животобществата, колкото и независими да изглеждат на пръв поглед, по правило са следствие от действието на определени фактори. Например печалбата, получена от предприятието, е свързана с много показатели: броят на служителите, тяхното образование, цената на дълготрайните производствени активи и др.

12.1. Концепцията за функционална и корелационна връзка

Съществуват два основни вида връзки между социалните и икономическите явления – функционални и статистически (наричани още стохастични, вероятностни или корелационни). Преди да ги разгледаме по-подробно, нека въведем понятията независими и зависими характеристики.

Независими или факторни са характеристики, които причиняват промени в други свързани характеристики. Признаците, чиито промени под въздействието на определени фактори трябва да бъдат проследени, се наричат ​​​​зависими или ефективни.

Във функционална връзка промяната на независимите променливи води до точно определени стойности на зависимата променлива.

Най-често функционалните връзки се проявяват в природни науки, например в механиката функционалната зависимост е изминатото разстояние от даден обект от скоростта на неговото движение и т.н.

В статистическа връзка всяка стойност на независимата променлива X съответства на набор от стойности на зависимата променлива Y и не е известно предварително коя. Например знаем, че печалбата на търговска банка е по определен начин свързана с размера на нейния уставен капитал (този факт е извън съмнение). Невъзможно е обаче да се изчисли точният размер на печалбата за дадена стойност на последния показател, тъй като зависи и от много други фактори, в допълнение към размера на уставния капитал, някои от които са случайни. В нашия случай най-вероятно ще определим само средната стойност на печалбата, която ще бъде получена като цяло за набор от банки с подобен размер на уставния капитал. По този начин статистическата връзка се различава от функционалната връзка по наличието на ефект върху зависимата променлива от голям брой фактори.

Обърнете внимание, че статистическата връзка се появява само „като цяло и средно“ с голям брой наблюдения на явлението. И така, интуитивно можем да приемем, че има връзка между обема на дълготрайните активи на предприятието и печалбата, която получава, а именно с увеличаването на първия размерът на печалбата се увеличава. Но може да се възрази срещу това и да се даде пример за предприятие, което разполага с достатъчно количество модерно производствено оборудване, но въпреки това търпи загуби. IN в такъв случайимаме ясен пример за статистическа връзка, която се проявява само в големи популации, съдържащи десетки и стотици единици, за разлика от функционалната, която се потвърждава при всяко наблюдение.

Корелацията е статистическа връзка между характеристиките, при която промяната в стойностите на независимата променлива X води до естествена промяна математическо очакванеслучайна променлива Y.

Пример 12.1. Да приемем, че има данни за предприятията за размера на неразпределената печалба от предходната година, обема на инвестициите в основен капитали върху сумите, отпуснати за закупуване на ценни книжа (хиляда парични единици):

Таблица 12.1.
Номер на предприятието Неразпределената печалба от предходната година Покупка на ценни книжа Инвестиции в дълготрайни активи
1 3 010 190 100
2 3 100 182 250
3 3 452 185 280
4 3 740 170 270
5 3 980 172 330
6 4 200 160 420
7 4 500 145 606
8 5 020 120 690
9 5 112 90 800
10 5 300 30 950

Таблицата показва, че има пряко съответствие между неразпределената печалба на предприятието и неговите инвестиции в основен капитал: Когато неразпределената печалба се увеличи, обемът на инвестициите също се увеличава. Сега нека обърнем внимание на връзката между показателя неразпределена печалба и обема на закупените ценни книжа. Тук той е от съвсем различно естество: увеличението на първия показател води до точно обратния ефект - цената на придобитите ценни книжа, с редки изключения (което ясно изключва наличието на функционална връзка), намалява. Това е визуален анализ на данни, в който наблюденията са подредени във възходящ или низходящ ред независимо количество x и след това се анализира промяната в стойностите на зависимото количество y, наречено паралелен метод за намаляване на данните.

В разглеждания пример в първия случай връзката е директна и т.н. Увеличаването (намаляването) на един показател води до увеличаване (намаление) на друг (наблюдава се съответствие в промените на показателите), а на втория - обратното и т.н. намаляването на един показател предизвиква увеличение на друг или увеличението на единия съответства на намаляване на другия.

Пряката и обратната зависимост характеризират посоката на връзката между характеристиките, която може да бъде илюстрирана графично с помощта на корелационното поле. Когато се конструира в правоъгълна координатна система, стойностите на независимата променлива x се поставят на абсцисната ос, а зависимата променлива y се поставя на ординатната ос. Пресечната точка на координатите е обозначена с точки, които символизират наблюдения. За формата и близостта на връзката се съди по формата на разсейването на точките върху корелационното поле. Фигура 12.1 показва корелационни полета, съответстващи на различни форми на комуникация.


Ориз. 12.1.

a - пряка (положителна) връзка;

b - обратна връзка (отрицателна) връзка;

в - липса на комуникация

Клонът на статистическата наука, който се занимава с изследването причинно-следствени връзкимежду социално-икономически явления и процеси, които имат количествен израз е корелационно-регресионен анализ. По същество съществуват две отделни посоки на анализ - корелация и регресия. Въпреки това, поради факта, че на практика те най-често се използват комплексно (въз основа на резултатите от корелационен анализ се извършва регресионен анализ), те се комбинират в един вид.

Извършването на корелационен и регресионен анализ включва решаването на следните проблеми:

От изброените задачи първите две се отнасят пряко към задачите на корелационния анализ, следващите три - към регресионния анализ и само по отношение на количествените показатели.

12.1.1. Изисквания към статистическата информация, изследвана чрез методите на корелационния и регресионния анализ

Методите на корелационния и регресионния анализ не могат да бъдат приложени към всички статистически данни. Изброяваме основните изисквания към анализираната информация:

  1. наблюденията, използвани за изследване, трябва да бъдат произволно избрани от общата съвкупност от обекти. В противен случай изходните данни, които представляват конкретна извадка от генералната съвкупност, няма да отразяват нейния характер, а направените от тях изводи за закономерностите на развитие ще се окажат безсмислени и нямат практическа стойност;
  2. изискването наблюденията да са независими едно от друго. Зависимостта на наблюденията едно от друго се нарича автокорелация, за нейното премахване са създадени специални методи в теорията на корелационно-регресионния анализ;
  3. оригиналният набор от данни трябва да бъде хомогенен, без аномални наблюдения. Наистина, едно-единствено, рязко открояващо се наблюдение може да доведе до катастрофални последици за регресионния модел: неговите параметри ще бъдат предубедени, изводите ще бъдат абсурдни;
  4. Желателно е изходните данни за анализ да се подчиняват на нормален закон на разпределение. Нормален законразпределението се използва, за да могат да се използват определени критерии при проверка на значимостта на коефициентите на корелация и конструиране на интервални граници за тях. Ако проверим значимостта и изградим интервални оценкине е задължително, променливите могат да имат произволен закон на разпределение. При регресионния анализ, когато се конструира регресионно уравнение, изискването за нормално разпределение на първоначалните данни се налага само върху резултантната променлива Y; независимите фактори се считат за неслучайни променливи и всъщност могат да имат произволен закон на разпределение. Както в случая на корелационен анализ, изискването за нормалност на разпределението е необходимо, за да се провери значимостта на регресионното уравнение, неговите коефициенти и да се намерят доверителни интервали;
  5. броят на наблюденията, от които се установява връзката на характеристиките и се изгражда регресионен модел, трябва да надвишава броя на факторните характеристики най-малко 3-4 пъти (и за предпочитане 8-10 пъти). Както беше отбелязано по-горе, статистическа връзка се появява само при значителен брой наблюдения, основани на закона големи числаи колкото по-слаба е връзката, толкова повече наблюдения са необходими, за да се установи връзката; колкото по-силна е, толкова по-малко;
  6. факторните характеристики на X не трябва да бъдат функционално зависими една от друга. Значима връзка между независими (факторни, обяснителни) характеристики показва многостранност. Наличието му води до изграждане на нестабилни регресионни модели, „фалшиви“ регресии.

12.1.2. Линейни и нелинейни връзки

Линейната връзка се изразява с права линия, а нелинейната връзка се изразява с някакъв вид крива линия. Линейната връзка се изразява чрез уравнението на права линия: y = a 0 + a i *x. Правата линия е най-привлекателна от гледна точка на простотата на изчисляване на параметрите на уравнението. Винаги се прибягва до него, включително в случаите на нелинейни връзки, когато няма опасност от значителни загуби в точността на оценките. Въпреки това, за някои зависимости, представянето им в линейна форма води до големи грешки (грешки на приближението) и, като следствие, до неверни заключения. В тези случаи се използват нелинейни регресионни функции, които по принцип могат да имат произволна форма, особено от съвременните софтуерви позволява бързо да ги изградите. Най-често за изразяване на нелинейни зависимости се използват следните нелинейни уравнения: степенни, параболични, хиперболични, логаритмични.

Параметрите на тези модели, както в случая на линейни зависимости, също се оценяват въз основа на метода на най-малките квадрати (вижте раздел 12.3.1).

12.2. Корелационен и регресионен анализ

Основните цели на корелационния анализ са да се определи наличието на връзка между избрани характеристики, да се установи нейната посока и да се определи количествено близостта на връзката. За да направите това, при корелационния анализ първо се оценява матрицата на сдвоените коефициенти на корелация, след което на нейна основа се определят частични и множествени коефициенти на корелация и детерминация. След намиране на стойностите на коефициента се проверява тяхната значимост. Крайният резултат от корелационния анализ е изборът на факторни характеристики X за по-нататъшно изграждане на регресионно уравнение, което позволява количествено описание на връзката.

Нека разгледаме по-подробно етапите на корелационния анализ.

12.2.1. Сдвоени (линейни) коефициенти на корелация

Корелационният анализ започва с изчисляването на сдвоени (линейни) коефициенти на корелация.

Коефициентът на корелация по двойки е мярка за линейната връзка между две променливи на фона на другите променливи, включени в модела.

В зависимост от това коя процедура за изчисление е по-удобна за изследователя, този коефициент се изчислява по една от следните формули:

Коефициентът на двойна корелация варира от -1 до +1. Абсолютна стойност, равна на единица, показва, че връзката е функционална: -1 - обратна (отрицателна), +1 - директна (положителна). Нулева стойност на коефициента показва липсата на линейна връзка между характеристиките.

Качествена оценка на получените количествени стойности на сдвоени коефициенти на корелация може да се даде въз основа на скалата, представена в табл. 12.2.

Забележка: положителна стойносткоефициент показва, че връзката между характеристиките е пряка, отрицателна - обратна.

12.2.2. Оценяване на значимостта на връзката

След като се получат стойностите на коефициента, трябва да се провери тяхната значимост. Тъй като първоначалните данни, от които се установява връзката на характеристиките, са определена извадка от определена генерална съвкупност от обекти, двойките коефициенти на корелация, изчислени от тези данни, ще бъдат селективни. По този начин те само оценяват връзката въз основа на информацията, носена от избраните единици за наблюдение. Ако първоначалните данни „добре“ отразяват структурата и моделите на генералната съвкупност, тогава изчисленият от тях коефициент на корелация ще покаже реалната връзка, присъща на реалността, на цялата съвкупност от изследвани обекти. Ако данните не „копират“ връзките на популацията като цяло, тогава изчисленият коефициент на корелация ще формира невярна представа за връзката. В идеалния случай, за да се установи този факт, е необходимо да се изчисли коефициентът на корелация въз основа на данните за цялата популация и да се сравни с този, изчислен от избрани наблюдения. На практика обаче това по правило не може да се направи, тъй като цялата популация често е неизвестна или е твърде голяма. Следователно колко реалистично коефициентът представя реалността може да се прецени само приблизително. Въз основа на логиката е лесно да се стигне до заключението, че очевидно с увеличаване на броя на наблюденията (при ) доверието в изчисления коефициент ще се увеличи.

Значимостта на коефициентите на двойна корелация се проверява по един от двата начина: с помощта на таблицата на Fisher-Yates или t-теста на Student. Нека разгледаме метода за проверка с помощта на таблицата Fisher-Yates като най-простия.

В началото на теста се задава ниво на значимост (най-често се обозначава с буквата от гръцката азбука „алфа“ - ), което показва вероятността от вземане на грешно решение. Възможността за грешка произтича от факта, че за определяне на връзката се използват данни не от цялата съвкупност, а само от част от нея. Обикновено приема следните стойности: 0,05; 0,02; 0,01; 0,001. Например, ако = 0,05, това означава, че средно в пет случая от сто решениезначимостта (или незначимостта) на коефициентите на двойна корелация ще бъде погрешна; при = 0,001 - в един случай от хиляда и т.н.

Вторият параметър при проверка на значимостта е броят на степените на свобода v, ​​който в този случай се изчислява като v = n - 2. С помощта на таблицата на Fisher-Yates се намира критичната стойност на коефициента на корелация r cr. (= 0,05, v = n - 2). Коефициенти, чиято абсолютна стойност е по-голяма от намерената критична стойност, се считат за значими.

Пример 12.2. Да предположим, че в първия случай има 12 наблюдения и от тях е изчислен коефициентът на корелация на двойки, който се оказва равен на 0,530, във втория случай има 92 наблюдения и изчисленият коефициент на корелация на двойки е 0,36. Но ако проверим тяхната значимост, в първия случай коефициентът се оказва незначителен, а във втория - значителен, въпреки факта, че е много по-малък по величина. Оказва се, че в първия случай има твърде малко наблюдения, което повишава изискванията и критичната стойност на коефициента на корелация на двойката при ниво на значимост = 0,05 е 0,576 (v = 12 - 2), а във втория случай има са много повече наблюдения и е достатъчно да се надхвърли критичната стойност от 0,205 ( v = 92 - 2), така че коефициентът на корелация на същото ниво да се окаже значим. Следователно, колкото по-малко са наблюденията, толкова по-висока винаги ще бъде критичната стойност на коефициента.

Тестът за значимост по същество решава дали резултатите от изчислението са случайни или не.

12.2.3. Определяне на коефициент на множествена корелация

Следващият етап на корелационния анализ е свързан с изчисляването на множествения (кумулативен) коефициент на корелация.

Коефициентът на множествена корелация характеризира близостта на линейната връзка между една променлива и набора от други променливи, разглеждани в корелационния анализ.

Ако се изследва връзката между резултантната характеристика y и само две факторни характеристики x 1 и x 2, тогава за изчисляване на коефициента на множествена корелация можете да използвате следната формула, чиито компоненти са сдвоени коефициенти на корелация:

където r са двойни коефициенти на корелация.

1. Видове и форми на връзки между явленията.

2. Методи за изследване на връзките.

3. Корелационно-регресионно моделиране.

4. Оценка на CRM за адекватност.

1. Всички явления обективен свят, включително обществените, са в постоянна взаимовръзка и взаимодействие помежду си, в непрекъсната промяна и развитие. Най-важната задача на статистиката, наред с оценката на състоянието на масовите явления и идентифицирането на моделите на тяхното развитие, е изучаването на връзките между тях.

Връзките между масовите социални явления се установяват въз основа на теоретичен анализ на тяхната същност, изследване на закономерности и движещи силиразвитие, оценка на условията на тяхното функциониране. В този случай се използват категории, понятия и предварително натрупани знания от други науки. Задачата на статистиката е да идентифицира самото съществуване на връзка в конкретни условия, както и да получи показатели, характеризиращи нейната сила, степен и характер.

От теоретичен и практически интерес са преди всичко причинно-следствените връзки, когато някои явления (фактори) предизвикват промени в други (резултати). Техният анализ позволява, първо, да се обясни действителното състояние на нещата, и второ, чрез влияние на факторите, да се постигне промяна в резултатите в желаната посока.

Видове връзки:

I. По природа:

1) функционален. Връзката между явленията се нарича функционален, ако промяна във факторния индикатор x с единица съответства на строго определена промяна в резултантния атрибут y. Такива връзки се изразяват с формули, валидни във всички случаи. Пример за това е промяната в заплатите (при една и съща часова ставка) в зависимост от броя на отработените часове, промяната в разходите за гориво в зависимост от потреблението му в физическо изражение (при постоянни цени) и т.н.

2) статистически (корелация). Статистически (корелация)се наричат ​​връзки, при които строго определена промяна във факторната характеристика x съответства на цяла серия ( статистическо разпределение) промени в резултата y, не са напълно сигурни, подлежат на случайни колебания. Тези връзки се проявяват само средно, в масови явления; В допълнение към фактора, който се изследва, резултатът се влияе и от други причини, включително такива със случаен характер. Например, с увеличаване на дозите на внесените торове, добивите от културите се увеличават средно, но не винаги и не с еднакво количество.

II. Според формата на изразяване:

1) директно - с увеличаване на факторния атрибут продуктивният атрибут се увеличава (например с увеличаване на трудовия стаж на служителя, като правило, неговата производителност на труда се увеличава);

2) обратен - промените вървят в обратна посока (например, с увеличаване на продуктивността на животните и добивите на култури, разходите за единица продукция средно намаляват).



III. Според аналитичния израз:

1) линейни - с увеличаване на една характеристика при всяка първоначална стойност, другата се променя средно със същата стойност;

2) криволинейни - самите тези промени се променят (увеличават, намаляват или дори променят знака си).

IV. В зависимост от броя на факторните характеристики, включени в модела:

1) сдвоени (еднофакторни);

2) множествени (многофакторни).

2. За изследване на функционалните връзки те използват методи:

Балансови връзки. Основава се на проста функционална връзка между наличието на ресурс в началото и в края на периода, неговото постъпване и изразходване през този период. Ако са известни три от тези индикатори, четвъртият се определя автоматично. Наличност в края на годината = Наличност в началото на годината + Получено – Изпратено.

Например годишното потребление на домакинството на собствено произведени продукти може да се изчисли, както следва:

Потребление = Наличност в началото на годината + Производство – Наличност в края на годината.

Индексен анализ.

За изследване на корелации те използват методи:

Сравнение на паралелни серии;

Най-простата и най-разпространена техника е сравняването на паралелни серии. Неговата същност се състои в едновременното разглеждане на изследваните характеристики по единици от съвкупността или по периоди (моменти) на динамичен ред. Сравнението се прави чисто визуално, без специални изчисления (Таблица 9.3).

В този случай ясно се вижда, че динамиката на дозата на органичните и минералните торове нараства до 1990 г. и след това намалява. Подобна тенденция се наблюдава и при добивите на зърно: нарастване до 1990 г. с последващо намаление. Напротив, по отношение на добива на картофи няма паралелизъм с показателите за прилагане на торове.

Сравнението на паралелни серии (това е особено удобно да се направи с помощта на линейни графики) позволява да се установи наличието на връзка, нейната посока и, много приблизително, нейната сила. По този начин промените в дозите на органичните и минералните торове са много тясно свързани, връзката им с добива на зърнени култури, макар и слаба, също е налице, тя е пряка и линейна, но връзката с добива на картофи е практически не е проследено.

Основният недостатък на тази техника е липсата на индикатори за връзка. Сравнението също не решава въпроса за причинно-следствените връзки на изучаваните явления. От теорията например се знае, че прилагането на торове води до увеличаване на добива. Но картофите се отглеждат предимно в домашни стопанства и техният дял в структурата на посевите е малък. Следователно нормата на прилагане на торове средно на 1 хектар от цялата посевна площ и освен това във всички категории стопанства е твърде обща, за да може да се установи връзка с добива на картофи.

Графичен метод (метод на корелационното поле);

Състои се от нанасяне на точки на графика координатна равнина, както и определяне на корелационното поле и посоката на връзка между характеристиките.

Пример:Налични данни:

Обратна връзка.

Метод за построяване на групови корелационни таблици;

Налични данни:

Групови граници за x:

Групови граници за y:

1 гр.: 18-21,2;

2 гр.: 21,2-24,4;

3 гр.: 24,4-27,6;

4 гр.: 27,6-30,8;

5 гр.: 30.8-34.

Таблица – Групова корелационна таблица

х 18-21,2 21,2-24,4 24,4-27,6 27,6-30,8 30,8-34
1-4 - - - -
4-7 - - -
7-10 - - -
10-13 - - - -
13-16 - - -
-

Заключение: връзката е директна, еднопосочна (тъй като честотите са разположени диагонално).

Метод на аналитичните групировки;

Метод на дисперсионния анализ;

KRA метод;

Метод за непараметрична оценка на връзките.

3. Методът на корелационно-регресионното моделиране се състои от два етапа:

аз Регресия– търсене на уравнение на връзката, което най-пълно характеризира връзката между характеристиките и определяне на параметрите на това уравнение.

Условното начало не подлежи на смислово тълкуване;

Коефициенти на регресия, показващи колко единици ще се промени ефективната характеристика, когато факторната характеристика се промени с една единица, като се приеме, че всички други факторни характеристики остават непроменени.

II. корелация –определяне на показатели за близост на връзката.

Най-често корелацията се характеризира с два показателя:

Коефициент на корелация (характеризира степента на близост на връзката между резултатната и всички факторни характеристики; измерва се в диапазона от 0 до 1 по абсолютна стойност; колкото по-близо до 1, толкова по-тясна е връзката между характеристиките);

Коефициент на детерминация (показва с какъв процент факторите, включени в модела, обясняват изменението на резултантната характеристика: измерено в диапазона от 0 до 100%).

корелации

2. Коефициент. определяне на двойки

2. Емпиричен коефициент. определям

2. Коефициент. множествено число решителност

коефициент на чиста регресия за i-факторната характеристика;

ср. kV. отклонения по i-та факторна характеристика.

За да се направят регресионните коефициенти сравними и да се определи влиянието на всеки отделен фактор върху резултантната характеристика, се изчисляват стандартизирани коефициенти:

1) Коефициенти на еластичност:

Коефициентите на еластичност показват с какъв процент ще се промени ефективният атрибут, когато факторният атрибут се увеличи с 1%.

покажете с колко стандартни отклонения ще се промени получената характеристика, когато факторната характеристика се увеличи със своето стандартно отклонение.

3) Отделни коефициенти на определяне:

Коефициентите на отделна дефиниция на дефиниция показват приноса на всеки фактор към вариацията на получената характеристика.

4. Адекватността на CRM е оценка на изградения модел в действителност.

Конструираният модел се оценява за адекватност с помощта на F тест на Фишер:

n е обемът на населението;

k – брой факторни характеристики в уравнението;

Дисперсия на подравнени стойности на получената характеристика според регресионното уравнение.

Дисперсията на отклоненията на действителните стойности на получената характеристика от тези, подравнени от регресионното уравнение.

Като се използва таблицата на стойностите на F-теста на Фишер, нейната таблична стойност се определя при ниво на значимост от 0,01; 0,05; или 0,1 и броя на степените на свобода n-k-1. Ако - моделът е адекватен.

Значимостта на регресионните коефициенти се определя с помощта на t теста на Стюдънт.

При изучаването на природата, обществото и икономиката е необходимо да се вземе предвид взаимовръзката на наблюдаваните процеси и явления. В този случай пълнотата на описанието се определя по един или друг начин количествени характеристикипричинно-следствени връзки между тях. Оценката на най-значимите от тях, както и влиянието на едни фактори върху други, е една от основните задачи на статистиката.

Формите на проявление на взаимоотношенията са много разнообразни. Двата най-често срещани вида са функционални (пълни) и корелация(непълна) връзка. В първия случай стойността на факторната характеристика стриктно съответства на една или повече стойности на функцията. Доста често във физиката и химията се появяват функционални връзки. В икономиката пример е правопропорционалната връзка между производителността на труда и увеличеното производство.

Корелационна връзка (която също се нарича непълна или статистическа) се появява средно за масови наблюдения, когато дадените стойности на зависимата променлива съответстват на определен брой вероятни стойности на независимата променлива. Обяснението за това е сложността на връзките между анализираните фактори, чието взаимодействие се влияе от

неотчетени случайни променливи. Следователно връзката между знаците се проявява само средно, в масата на случаите. В корелационна връзка всяка стойност на аргумент съответства на функционални стойности, произволно разпределени в определен интервал.

Според посоката на общуване има направо,когато зависимата променлива нараства с увеличаване на факторния атрибут, и обратен,при които растежът на последния е съпроводен с намаляване на функцията. Такива връзки също могат да бъдат наречени съответно положителни и отрицателни.

По отношение на вашия аналитична формаима връзки линеенИ нелинейни.В първия случай се появяват линейни зависимости средно между характеристиките. Нелинейната зависимост е изразена нелинейна функция, а променливите са средно нелинейно свързани една с друга.

Има още един достатъчен важна характеристикавръзки по отношение на взаимодействащи си фактори. Ако се характеризира връзката между две характеристики, тогава тя обикновено се нарича парна баняАко се изследват повече от две променливи - многократни.

Горните критерии за класификация най-често се срещат в статистическия анализ. Но освен изброените има и такива директен, косвенИ невярнокомуникации. Всъщност същността на всеки от тях е очевидна от името. В първия случай факторите взаимодействат пряко един с друг. Непряката връзка се характеризира с участието на някаква трета променлива, която опосредства връзката между изследваните характеристики. Фалшива връзка е връзка, установена формално и като правило потвърдена само от количествени оценки. Тя няма качествена основа или е безсмислена.

Различни по сила слаби силни връзки. Тази формална характеристика се изразява в конкретни количества и се интерпретира в съответствие с общоприетите критерии за сила на връзката за конкретни показатели.

В най-общ вид задачата на статистиката в областта на изучаването на връзките е да определи количествено тяхното присъствие и посока, както и да характеризира силата и формата на влияние на едни фактори върху други. За решаването му се използват две групи методи, едната от които включва методи на корелационен анализ, а другата - регресионен анализ. В същото време редица изследователи комбинират тези методи в корелационен и регресионен анализ, който има някаква основа: наличието на редица общи изчислителни процедури, взаимно допълване при интерпретацията на резултатите и др.

Следователно в този контекст можем да говорим за корелационен анализ в в широк смисъл-- когато отношението е цялостно характеризирано. В същото време има корелационен анализ в тесен смисъл - когато се изследва силата на връзката - и регресионен анализ, по време на който се оценява нейната форма и влиянието на едни фактори върху други.

Самите задачи корелационен анализсе свеждат до измерване на близостта на връзката между различни характеристики, определяне на неизвестни причинно-следствени връзки и оценка на факторите, които имат най-голямо влияние върху получената характеристика:

Задачи регресионен анализлежат в областта на установяване на формата на връзката, определяне на регресионната функция и използване на уравнение за оценка на неизвестните стойности на зависимата променлива.

Решаването на тези проблеми се основава на подходящи техники, алгоритми, показатели, чието използване дава основание да се говори за статистическо изследване на връзките.

Трябва да се отбележи, че традиционните методи на корелация и регресия са широко представени в различни статистически софтуерни пакети за компютри. Изследователят може само да подготви правилно информацията, да избере софтуерен пакет, който отговаря на изискванията за анализ и да бъде готов да интерпретира получените резултати. Има много алгоритми за изчисляване на комуникационните параметри и в момента едва ли е препоръчително да се извършват такива сложен видръчен анализ. Изчислителните процедури са от независим интерес, но познаването на принципите на изучаване на връзките, възможностите и ограниченията на определени методи за интерпретиране на резултатите е предпоставка за изследване.

Методите за оценка на силата на връзката се делят на корелационни (параметрични) и непараметрични. Параметричните методи се основават на използването, като правило, на оценки нормална дистрибуцияи се използват в случаите, когато изследваната популация се състои от количества, които се подчиняват на закона за нормалното разпределение. В практиката тази позиция най-често се приема a priori. Всъщност тези методи са параметрични и обикновено се наричат ​​корелационни методи.

Непараметричните методи не налагат ограничения върху закона за разпределение на изследваните величини. Предимството им е простотата на изчисленията.