Позиция и характеристики на разсейване. Характеристика на разсейване

Основни характеристикидисперсията на вариационна серия се нарича дисперсия

Основната характеристика на дисперсията на вариационна серия се нарича дисперсия. Дисперсия на извадкатад V изчислено по следната формула:

където x i – i та стойност от срещащата се проба m i пъти; н – размер на извадката; – извадкова средна;к – броя на различните стойности в извадката. В този пример: x 1 =72, m 1 =50; х 2 =85, m 2 =44; x 3 =69, m3 =61; п = 155; k =3; . Тогава:

Обърнете внимание, че колкото по-голяма е стойността на дисперсията, толкова по-голяма е разликата между стойностите на измереното количество една спрямо друга. Ако в една проба всички стойности на измереното количество са равни една на друга, тогава дисперсията на такава проба е нула.

Дисперсията има специални свойства.

Имот 1.Стойността на дисперсията на всяка проба е неотрицателна, т.е. .

Имот 2.Ако измереното количество е постоянно X=c, тогава дисперсията за такова количество е нула: D[c ]= 0.

Имот 3.Ако всички стойности на измереното количествох в пробата увеличение в° С пъти, тогава дисперсията на тази извадка ще се увеличи с c 2 пъти: D [ cx ]= c 2 D [x], където c = const.

Понякога вместо дисперсия те използват извадково стандартно отклонение, което е равно на аритметиката корен квадратенот вариация на извадката: .

За разглеждания пример стандартното отклонение на извадката е равно на .

Дисперсията ни позволява да оценим не само степента на разлика в измерените показатели в рамките на една група, но също така може да се използва за определяне на отклонението на данните между различните групи. За тази цел се използват няколко вида дисперсия.

Ако някоя група се вземе като извадка, тогава се извиква дисперсията на тази група групова дисперсия. За да изразите числено разликите между дисперсиите на няколко групи, съществува понятието междугрупова дисперсия. Дисперсията между групите е дисперсията на груповите средни стойности спрямо общата средна стойност:

където k – брой групи в общата извадка, – извадкова средна стойност за i -та група, n i – размер на извадкатааз -та група, е средната извадка за всички групи.

Нека разгледаме един пример.

Средна оценка за тестпо математика в 10 “А” клас е 3,64, а в 10 “Б” клас 3,52. В 10 „А“ има 22 ученици, а в 10 „Б“ – 21. Нека намерим междугруповата дисперсия.

В тази задача извадката е разделена на две групи (два класа). Средната извадка за всички групи е:

.

В този случай междугруповата дисперсия е равна на:

Тъй като междугруповата дисперсия е близка до нула, можем да заключим, че оценките на една група (10 „А” клас) се различават в малка степен от оценките на втората група (10 „Б” клас). С други думи, от гледна точка на междугруповата дисперсия, разглежданите групи се различават леко по даден признак.

Ако общата извадка (например клас ученици) е разделена на няколко групи, тогава в допълнение към междугруповата дисперсия можете също да изчислитедисперсия в рамките на групата. Тази вариация е среден размерза всички групови отклонения.

Дисперсия в рамките на групатадунгарски изчислено по формулата:

където k – брой групи в общата извадка, D i – дисперсия i -та обемна група n i.

Има връзка между общите (д V ), вътрешногрупови ( D унгарски ) и междугрупови ( D intergr ) вариации:

D в = D унгарски + D интегр.

Характеристиките на позицията описват центъра на разпределението. В същото време значенията на опцията могат да бъдат групирани около нея както в широка, така и в тясна лента. Следователно, за да се опише разпределението, е необходимо да се характеризира обхватът на промените в стойностите на характеристиката. Характеристиките на разсейване се използват за описване на обхвата на вариация на дадена характеристика. Най-широко използваните са диапазон на вариация, дисперсия, стандартно отклонение и коефициент на вариация.

Диапазон на вариациясе определя като разликата между максималната и минималната стойност на характеристика в изследваната популация:

Р=хмакс - хмин.

Очевидното предимство на разглеждания индикатор е простотата на изчисление. Въпреки това, тъй като обхватът на вариацията зависи от стойностите само на екстремните стойности на характеристиката, обхватът на нейното приложение е ограничен до сравнително хомогенни разпределения. В други случаи информационното съдържание на този индикатор е много малко, тъй като има много разпределения, които са много различни по форма, но имат еднакъв диапазон. В практическите изследвания обхватът на вариация понякога се използва с малки (не повече от 10) извадки. Например, от обхвата на вариацията е лесно да се прецени колко различни са най-добрите и най-лошите резултати в група спортисти.

В този пример:

Р=16,36 – 13,04=3,32 (m).

Втората характеристика на разсейването е дисперсия.Дисперсията е средното квадратично отклонение на стойността случайна величинаот средната му стойност. Дисперсията е характеристика на разсейването, разпространението на стойностите на дадено количество около средната му стойност. Самата дума "дисперсия" означава "разпръскване".

При провеждане на извадкови изследвания е необходимо да се установи оценка за дисперсията. Дисперсията, изчислена от извадкови данни, се нарича дисперсия на извадката и се обозначава С 2 .

На пръв поглед най-естествената оценка за дисперсията е статистическата дисперсия, изчислена въз основа на дефиницията по формулата:

В тази формула - сумата от квадратните отклонения на стойностите на атрибута x iот средното аритметично . За да се получи средното квадратично отклонение, тази сума се разделя на размера на извадката П.

Подобна оценка обаче не е безпристрастна. Може да се покаже, че сумата от квадратните отклонения на стойностите на атрибута за средноаритметична проба е по-малка от сумата от квадратните отклонения от всяка друга стойност, включително от истинската средна стойност ( математическо очакване). Следователно резултатът, получен от горната формула, ще съдържа систематична грешка и изчислената стойност на дисперсията ще бъде подценена. За да се премахне отклонението, достатъчно е да се въведе корекционен коефициент. Резултатът е следната връзка за изчислената дисперсия:

За големи стойности нЕстествено, двете оценки - пристрастна и непредубедена - ще се различават много малко и въвеждането на корекционен коефициент става безсмислено. Като правило, формулата за оценка на дисперсията трябва да бъде прецизирана, когато н<30.

В случай на групирани данни, последната формула може да бъде намалена до следната форма за опростяване на изчисленията:

Където к- брой интервали на групиране;

n i- интервална честота с номер аз;

x i- средната стойност на интервала с число аз.

Като пример, нека изчислим дисперсията за групираните данни от примера, който анализираме (вижте таблица 4.):

С 2 =/ 28=0,5473 (m2).

Дисперсията на случайна променлива има размерността на квадрата на размерността на случайната променлива, което я прави трудна за тълкуване и я прави не много ясна. За по-визуално описание на разсейването е по-удобно да се използва характеристика, чието измерение съвпада с измерението на изследваната характеристика. За целта се въвежда понятието стандартно отклонение(или стандартно отклонение).

Стандартно отклонениесе нарича положителен квадратен корен от дисперсията:

В нашия пример стандартното отклонение е равно на

Стандартното отклонение има същите мерни единици като резултатите от измерването на изследваната характеристика и по този начин характеризира степента на отклонение на характеристиката от средната аритметична стойност. С други думи, показва как основната част от опцията е разположена спрямо средноаритметичното.

Стандартното отклонение и дисперсията са най-широко използваните мерки за вариация. Това се дължи на факта, че те са включени в значителна част от теоремите на теорията на вероятностите, която служи като основа математическа статистика. В допълнение, дисперсията може да бъде разложена на нейните съставни елементи, които позволяват да се оцени влиянието на различни фактори върху вариацията на изследваната характеристика.

Освен абсолютните показатели на вариация, които са дисперсия и стандартно отклонение, в статистиката се въвеждат относителни. Най-често се използва коефициентът на вариация. Коефициентът на вариацияравно на съотношението на стандартното отклонение към средната аритметична стойност, изразено като процент:

От дефиницията става ясно, че по смисъла си коефициентът на вариация е относителна мярка за дисперсията на дадена характеристика.

За въпросния пример:

Коефициентът на вариация се използва широко в статистическите изследвания. Като относителна стойност, тя ви позволява да сравните променливостта на двете характеристики, които имат различни мерни единици, както и една и съща характеристика в няколко различни популации с различни стойности на средната аритметична стойност.

Коефициентът на вариация се използва за характеризиране на хомогенността на получените експериментални данни. В практиката на физическата култура и спорта разпространението на резултатите от измерването в зависимост от стойността на коефициента на вариация се счита за малко (V<10%), средним (11-20%) и большим (V> 20%).

Ограниченията при използването на коефициента на вариация са свързани с относителния му характер – дефиницията съдържа нормиране към средноаритметичното. В тази връзка при малки абсолютни стойности на средната аритметична стойност коефициентът на вариация може да загуби информационното си съдържание. Колкото по-близо до нула е средната аритметична стойност, толкова по-малко информативен става този показател. В граничния случай средноаритметичната стойност отива до нула (например температура), а коефициентът на вариация отива до безкрайност, независимо от разпространението на характеристиката. По аналогия със случая на грешка може да се формулира следното правило. Ако стойността на средната аритметична стойност в извадката е по-голяма от единица, тогава използването на коефициента на вариация е законно; в противен случай трябва да се използват дисперсия и стандартно отклонение, за да се опише разпространението на експерименталните данни.

В заключение на тази част ще разгледаме оценката на вариациите в стойностите на оценъчните характеристики. Както вече беше отбелязано, стойностите на характеристиките на разпределението, изчислени от експериментални данни, не съвпадат с техните истински стойности за общата популация. Не е възможно да се установи точно последното, тъй като по правило е невъзможно да се изследва цялото население. Ако използваме резултатите от различни извадки от една и съща популация, за да оценим параметрите на разпределението, се оказва, че тези оценки за различни извадки се различават една от друга. Прогнозните стойности варират около истинските си стойности.

Отклоненията на оценките на общите параметри от истинските стойности на тези параметри се наричат ​​статистически грешки. Причината за възникването им е ограниченият размер на извадката – в нея не са включени всички обекти от генералната съвкупност. За оценка на големината на статистическите грешки се използва стандартното отклонение на характеристиките на извадката.

Като пример, помислете за най-важната характеристика на позицията - средното аритметично. Може да се покаже, че стандартното отклонение на средната аритметична стойност се определя от връзката:

Където σ - стандартно отклонение за съвкупността.

Тъй като истинската стойност на стандартното отклонение не е известна, количеството, наречено стандартна грешка на средната аритметична стойности равно:

Стойността характеризира грешката, която средно се допуска при замяна на общата средна стойност с нейната примерна оценка. Според формулата, увеличаването на размера на извадката по време на изследване води до намаляване на стандартната грешка пропорционално на корен квадратен от размера на извадката.

За разглеждания пример стандартната грешка на средноаритметичната стойност е равна на . В нашия случай се оказа 5,4 пъти по-малко от стандартното отклонение.

Без значение колко важни са средните характеристики, също толкова важна характеристика на масив от числени данни е поведението на останалите членове на масива по отношение на средната стойност, колко се различават от средната, колко членове на масива се различават значително от средното. По време на обучението по стрелба се говори за точността на резултатите, в статистиката се изучават характеристиките на дисперсията (разпръскването).

Разликата между всяка стойност на x и средната стойност на x се нарича отклонение и се изчислява като разликата x, - x. В този случай отклонението може да приеме както положителни стойности, ако числото е по-голямо от средното, така и отрицателни стойности, ако числото е по-малко от средното. Въпреки това, в статистиката често е важно да можете да оперирате с едно число, което характеризира „точността“ на всички числови елементи на масив от данни. Всяко сумиране на всички отклонения на членовете на масива ще доведе до нула, тъй като положителните и отрицателните отклонения ще се компенсират взаимно. За да се избегне нулирането, за характеризиране на разсейването се използват квадратните разлики или по-точно средноаритметичното на квадратните отклонения. Тази характеристика на разсейване се нарича дисперсия на извадката.

Колкото по-голяма е дисперсията, толкова по-голямо е разсейването на стойностите на случайната променлива. За изчисляване на дисперсията се използва приблизителна стойност на средната стойност на извадката x с марж от една цифра по отношение на всички членове на масива от данни. В противен случай при сумиране на голям брой приблизителни стойности ще се натрупа значителна грешка. Във връзка с размерността на числените стойности трябва да се отбележи един недостатък на такъв индикатор за дисперсия като дисперсия на пробата: единицата за измерване на дисперсията д е квадратът на единицата за измерване на стойностите Х, чиято характеристика е дисперсията. За да се отърве от този недостатък, статистиката въведе такава характеристика на разсейване като извадково стандартно отклонение , което се обозначава със символа А (да се чете „сигма“) и се изчислява по формулата

Обикновено повече от половината от членовете на масива от данни се различават от средното с по-малко от стандартното отклонение, т.е. принадлежат към сегмента - А; x + a]. В противен случай те казват: средната стойност, като се вземе предвид разпространението на данните, е равна на x ± a.

Въвеждането на друга характеристика на разсейване е свързано с размерността на членовете на масива от данни. Всички числени характеристики в статистиката се въвеждат с цел сравняване на резултатите от изследване на различни числови масиви, характеризиращи различни случайни величини. Въпреки това, сравняването на стандартни отклонения от различни средни стойности на различни набори от данни не е показателно, особено ако размерите на тези величини също са различни. Например, ако се сравняват дължината и теглото на всякакви предмети или разпръскването при производството на микро- и макропродукти. Във връзка с горните разсъждения се въвежда относителна характеристика на разсейване, която се нарича коефициент на вариацияи се изчислява по формулата

За изчисляване на числените характеристики на разсейването на стойностите на случайни променливи е удобно да се използва таблица (Таблица 6.9).

Таблица 6.9

Изчисляване на числови характеристики на разсейването на стойности на случайни променливи

Xj- х

(Xj-X)2/

Средната стойност на извадката е в процес на попълване на тази таблица. Х,който ще се използва в две форми в бъдеще. Като последна средна характеристика (например в третата колона на таблицата) средната проба хтрябва да се закръгли до цифрата, съответстваща на най-малката цифра от който и да е член на числовия масив от данни x gТози показател обаче се използва в таблицата за по-нататъшни изчисления и в тази ситуация, а именно при изчисляване в четвъртата колона на таблицата, средната стойност на извадката хтрябва да се закръгли с разлика от една цифра спрямо най-малката цифра на който и да е член на числовия масив от данни Х ( .

Резултатът от изчисленията с помощта на таблица като таблица. 6.9 ще получи стойността на дисперсията на извадката и за записване на отговора е необходимо въз основа на стойността на дисперсията на извадката да се изчисли стойността на стандартното отклонение a.

Отговорът показва: а) средния резултат, като се вземе предвид разпространението на данните във формуляра x±o; б) характеристика на стабилност на данните V.Отговорът трябва да оцени качеството на коефициента на вариация: добро или лошо.

Приемливият коефициент на вариация като индикатор за хомогенност или стабилност на резултатите в спортните изследвания се счита за 10-15%. Коефициентът на вариация V= 20% във всяко изследване се смята за много голяма цифра. Ако размерът на извадката П> 25 тогава V> 32% е много лош показател.

Например, за серия от дискретни вариации 1; 5; 4; 4; 5; 3; 3; 1; 1; 1; 1; 1; 1; 3; 3; 5; 3; 5; 4; 4; 3; 3; 3; 3; 3 маси 6.9 се попълва, както следва (Таблица 6.10).

Таблица 6.10

Пример за изчисляване на числените характеристики на разсейването на стойностите

*1

фи

1

Л П 25 = 2,92 = 2,9

D_S_47.6_ П 25

Отговор: а) средната характеристика, като се вземе предвид разпространението на данните, е равна на х± a = = 3 ± 1,4; б) стабилността на получените измервания е на ниско ниво, тъй като коефициентът на вариация V = 48% > 32%.

Аналог на масата 6.9 може също да се използва за изчисляване на характеристиките на разсейване на серия от интервални вариации. В същото време опциите x gще бъдат заменени от представители на пропуските x vи опция за абсолютни честоти е (-до абсолютни честоти на интервали fv

Въз основа на горното може да се направи следното: заключения.

Заключенията на математическата статистика са правдоподобни, ако се обработва информация за масови явления.

Обикновено се изследва извадка от генералната съвкупност от обекти, която трябва да е представителна.

Експерименталните данни, получени в резултат на изследване на всяко свойство на примерни обекти, представляват стойността на случайна променлива, тъй като изследователят не може да предвиди предварително кое число ще съответства на конкретен обект.

За да изберете един или друг алгоритъм за описание и първоначална обработка на експериментални данни, е важно да можете да определите вида на случайната променлива: дискретна, непрекъсната или смесена.

Дискретните случайни променливи се описват с дискретна вариационна серия и нейната графична форма - честотен полигон.

Смесените и непрекъснати случайни променливи се описват с интервална вариационна серия и нейната графична форма - хистограма.

При сравняване на няколко извадки според генерираното ниво на дадено свойство се използват средните числени характеристики и числените характеристики на разсейването на случайна променлива спрямо средната.

При изчисляване на средната характеристика е важно правилно да изберете вида на средната характеристика, която е подходяща за нейната област на приложение. Структурните средни стойности, режим и медиана, характеризират структурата на местоположението на варианта в подреден масив от експериментални данни. Количествената средна стойност дава възможност да се прецени средният размер на опцията (извадкова средна стойност).

За изчисляване на числените характеристики на разсейването - извадкова дисперсия, стандартно отклонение и коефициент на вариация - е ефективен табличният метод.

Характеристики на разсейване

Мерки за дисперсия на пробите.

Минимумът и максимумът на извадката са съответно най-малките и най-висока стойностизследваната променлива. Разликата между максимума и минимума се нарича обхватпроби. Всички примерни данни са разположени между минимума и максимума. Тези показатели сякаш очертават границите на извадката.

R№1= 15.6-10=5.6

R № 2 =0,85-0,6=0,25

Дисперсия на извадката(Английски) дисперсия) И стандартно отклонениемостри (английски) стандартно отклонение) са мярка за променливостта на променливата и характеризират степента на разпръскване на данните около центъра. В този случай стандартното отклонение е по-удобен индикатор поради факта, че има същото измерение като действителните данни, които се изследват. Следователно индикаторът за стандартно отклонение се използва заедно със средноаритметичното на извадката, за да опише накратко резултатите от анализа на данните.

По-целесъобразно е извадката да се изчисли по формулата:

Стандартното отклонение се изчислява по формулата:

Коефициентът на вариация е относителна мярка за дисперсията на даден признак.

Коефициентът на вариация се използва и като индикатор за хомогенността на извадковите наблюдения. Смята се, че ако коефициентът на вариация не надвишава 10%, тогава извадката може да се счита за хомогенна, т.е. получена от една обща популация.

Тъй като коефициентът на вариация е и в двете проби, те са хомогенни.

Извадката може да бъде представена аналитично под формата на функция на разпределение, както и под формата на честотна таблица, състояща се от два реда. В горния ред са елементите за избор (опции), подредени във възходящ ред; Честотите на опцията са написани в долния ред.

Честотата на варианта е число, равно на броя повторения на даден вариант в извадката.

Проба № 1 „Майки“

Тип крива на разпределение

Асиметрияили коефициент на асиметрия (термин, въведен за първи път от Pearson, 1895) е мярка за асиметрията на разпределението. Ако асиметрията е ясно различна от 0, разпределението е асиметрично, плътността нормална дистрибуциясиметричен спрямо средния.

Индекс асиметрия(Английски) изкривеност) се използва за характеризиране на степента на симетрия на разпределението на данните около центъра. Асиметрията може да приема както отрицателни, така и положителни стойности. Положителна стойностна този параметър показва, че данните са изместени вляво от центъра, отрицателно - вдясно. По този начин знакът на индекса на асиметрия показва посоката на отклонението на данните, докато величината показва степента на това отклонение. Изкривеност, равна на нула, показва, че данните са симетрично концентрирани около центъра.

защото асиметрията е положителна, следователно върхът на кривата се премества вляво от центъра.

Коефициент на ексцесия(Английски) ексцес) е характеристика на това колко тясно е групирана по-голямата част от данните около центъра.

При положителен ексцес кривата се изостря, при отрицателен ексцес се изглажда.

Кривата е сплескана;

Кривата се изостря.

ДА СЕ основни статистически характеристикисерия от измервания (вариационна серия) включва характеристики на позицията (средни характеристики,или централна тенденция на извадката); характеристики на разсейване (вариации или колебания) И х характеристики на формата разпределения.

ДА СЕ характеристики на позициятаотнасят се средноаритметично (средна стойност), модаИ Медиана.

ДА СЕ характеристики на разсейване (вариации или колебания) отнасят се: диапазон на вариация, дисперсия, среден квадрат (стандартен) отклонение, средноаритметична грешка (средна грешка), коефициентът на вариацияи т.н.

Към характеристиките на форматаотнасят се коефициент на изкривяване, мярка на изкривяване и ексцес.

Характеристики на позицията

Средноаритметично– една от основните характеристики на извадката.

Тя, подобно на други числени характеристики на извадката, може да се изчисли както от сурови първични данни, така и от резултатите от групирането на тези данни.

Точността на изчислението върху необработените данни е по-висока, но процесът на изчисление се оказва трудоемък при голям размер на извадката.

За негрупирани данни средноаритметичната стойност се определя по формулата:

Където н- размер на извадката, х 1 , х 2 , ... х n - резултатите от измерването.

За групирани данни:

Където н- размер на извадката, к– брой интервали на групиране, n i– интервални честоти, x i– средни стойности на интервалите.

Мода

Определение 1. Мода - най-често срещаната стойност в примерните данни. Определен мои се определя по формулата:

където е долната граница на модалния интервал, е ширината на групиращия интервал, е честотата на модалния интервал, е честотата на интервала, предхождащ модалния, е честотата на интервала, следващ модалния.

Определение 2. Мода Mo дискретна случайна променливанейната най-вероятна стойност се нарича.

Геометрично модата може да се интерпретира като абсцисата на максималната точка на кривата на разпределение.Има бимодален И мултимодален разпределения. Има разпределения, които имат минимум, но нямат максимум. Такива разпределения се наричат антимодални .

Определение. Модален интервал Извиква се интервалът на групиране с най-висока честота.

Медиана

Определение. Медиана - резултатът от измерването, който е в средата на класираната серия, с други думи, медианата е стойността на атрибута х, когато едната половина от стойностите на експерименталните данни е по-малка от нея, а втората половина е по-голяма, се обозначава мех.

Когато размерът на извадката н- четен брой, т.е. има четен брой резултати от измерване, тогава за определяне на медианата се изчислява средната стойност на два примерни показателя, разположени в средата на класираната серия.

За данни, групирани в интервали, медианата се определя по формулата:

,

където е долната граница на средния интервал; ширина на интервала на групиране, 0,5 н– половината от обема на пробата, – честота на средния интервал, – натрупана честота на интервала, предшестващ медианата.

Определение. Среден интервал е интервалът, в който натрупаната честота за първи път се оказва повече от половината от обема на извадката ( н/ 2) или натрупаната честота ще бъде по-голяма от 0,5.

Числените стойности на средната, модата и медианата се различават, когато има асиметрична форма на емпиричното разпределение.

Дисперсионни характеристики на резултатите от измерването

За математически и статистически анализ на резултатите от пробите, познаването само на характеристиките на позицията не е достатъчно. Същата средна стойност може да характеризира напълно различни проби.

Затова освен тях статистиката също отчита характеристики на разсейване (вариации, или флуктуации ) резултати.

Диапазон на вариация

Определение. В обхват вариацията е разликата между най-голямата и най-малко резултатипроби, означ Ри се определя

Р=хмакс - хмин.

Информационната стойност на този показател е малка, въпреки че с малки размери на извадката е лесно да се оцени разликата между най-добрите и най-лошите резултати на спортистите.

дисперсия

Определение. Дисперсия се нарича среден квадрат на отклонението на характерните стойности от средната аритметична стойност.

За негрупирани данни дисперсията се определя по формулата

s 2 = , (1)

Където X i– стойността на атрибута, е средно аритметично.

За данни, групирани в интервали, дисперсията се определя по формулата

,

Където x i- средна стойност азинтервал на групиране, n i– интервални честоти.

За да се опростят изчисленията и да се избегнат грешки в изчисленията при закръгляване на резултатите (особено при увеличаване на размера на извадката), се използват и други формули за определяне на дисперсията. Ако средната аритметична стойност вече е изчислена, тогава се използва следната формула за негрупирани данни:

за групирани данни:

.

Тези формули се получават от предишните чрез разкриване на квадрата на разликата под знака на сумата.