Mokytis statistikos, nuo pateikimo iki duomenų paskirstymo priemonių

Statistika yra matematikos mokslas, tiriantis duomenų rinkimą, apdorojimą, analizę ir pateikimą. Draudimo bendrovėse plačiai naudojama statistika, viena iš jų - draudimo įmokos dydžio nustatymas draudimo polise. Kiekvienas draudimo turėtojas privalo sumokėti įmoką, vadinamą priemoka. Sumokėta įmoka atitinka jo gaunamą draudimo apsaugą.

Čia draudimo bendrovė naudoja statistiką, kad įmokos suma atitiktų draudimo sumą, kurią galima suteikti draudimo turėtojui. Tokiu būdu tai naudinga abiem šalims.

Kaip minėta anksčiau, statistika ne tik renka ir apdoroja, bet ir pateikia duomenis. Statistika taip pat naudoja keletą duomenų paskirstymo priemonių tvarkant duomenis. Šiandien aptarsime pateikimo tipus, taip pat duomenų paplitimo statistikoje dydį.

Duomenų pateikimo tipai

Duomenų pateikimo statistikoje tipai apima dažnio pasiskirstymo lenteles, histogramas, daugiakampius ir „ogives“.

Pirmoji duomenų pateikimo forma yra naudoti dažnio paskirstymo lentelę. Kaip rodo pavadinimas, mes naudojame lenteles, kad parodytume gautų duomenų tipą ir kiekį. Dažnio paskirstymo lentelėje taip pat yra keletas tipų, būtent pavienių duomenų ir grupės duomenų dažnio paskirstymo lentelė.

(Taip pat skaitykite: Du matavimo duomenys statistikoje)

Norint pateikti nedidelį duomenų kiekį, bent jau mažiau nei 30 duomenų, naudojama viena duomenų dažnio paskirstymo lentelė. Duomenų pateikimo naudojant vieną duomenų dažnio paskirstymo lentelę pavyzdys yra toks.

Žemiau pateikti duomenys yra 30 studentų testų rezultatai. Pateikite į vieną duomenų dažnio paskirstymo lentelę!

4 8 7 9 10 3 4 6 7 6 5 7 7 8 9 6 6 8 7 9 4 5 6 7 8 10 4 5 6 7

Jei atkreipsime dėmesį, žemiausias gautas testo rezultatas yra 3, o didžiausias - 10. Tada suskaičiuokite, kiek studentų jį gavo. Pavyzdžiui, 3 klasei tik 1 mokinys. 4 klasei mokosi 4 mokiniai ir t. Tada šis skaičius pateikiamas lentelėje, kaip nurodyta toliau.

vėjo jėgainių jūroje esančios turbinos

Kitas dažnio paskirstymo lentelės tipas yra grupės duomenų dažnio paskirstymo lentelė. Ši lentelė naudojama pateikti daug duomenų, kurie yra daugiau nei 30 duomenų. Pažvelkime į toliau pateiktą pavyzdį.

Toliau pateikiamas čili augalų aukštis (milimetrais) čili plantacijoje. Pateikite duomenis grupės duomenų paskirstymo lentelėje!

123 131 120 128 126 124 125 122

121 126 124 123 122 120 125 126

123 123 134 125 125 126 128 135

120 126 124 133 126 127 123 126

122 125 123 132 124 132 128 124

Skirtingai nuo pavienių duomenų, čia turime apskaičiuoti klasių skaičių ir klasių ilgius, kurie bus rodomi lentelėje. Naudojant aukščiau pateiktus duomenis, pateikiami skaičiavimai.

Daug duomenų (n) = 40

Didžiausias aukštis (x max ) = 135

Mažiausias aukštis (x min ) = 120

Diapazonas (J) = x max  - x min = 135 - 120 = 15

Klasių skaičius (k) = 1 + 3,3logn = 1 + 3,3 log40 = 6,2868… ≈ k = 6

Klasės ilgis (c) = J / k = 15/6 = 2,5 ≈ c = 3

Iš šių rezultatų galime parodyti grupės duomenų paskirstymo lentelę taip.

vėjo jėgainių jūroje esančios turbinos

Toliau aptarsime kitus grupuoto duomenų pateikimo tipus, būtent histogramų, dažnio daugiakampių ir ogyvų pavidalu. Pažvelkite į žemiau pateiktą dažnių lentelę, kurioje pateikta 80 sporto klubo narių svorio informacija.

vėjo jėgainių jūroje esančios turbinos

Norėdami pateikti duomenis naudodami histogramos grafiką, pirmiausia sukonstruojame Dekarto diagramą. X ašyje rodomos kiekvienos klasės viršutinės ir apatinės ribos, o y ašyje - dažnis.

statistika4 (1)

Skirtingai nuo histogramos, dažnio daugiakampio grafike imama vidutinė klasės intervalo reikšmė ir rodoma linijomis pagal dažnį.

statistika5 (1)

Galiausiai pateikdami duomenis naudodami teigiamą kaupiamąją arba neigiamą dažnio kreivę. Pirmiausia y ašyje pažymėkite kiekvienos intervalų klasės kaupiamąsias dažnio vertes. Tada pažymėkite taškų koordinates pagal viršutines intervalų klasės ir kaupiamojo dažnio poras. Sujunkite taškus į lygią kreivę.

Duomenų sklaidos dydis

Statistikoje yra du duomenų matavimo tipai: duomenų koncentracijos dydis ir duomenų paskirstymo dydis. Koks paaiškinimas ir skirtumas?

Duomenų centro dydis yra reikšmė, nurodanti duomenų vietą. Duomenų centre matuojamos reikšmės, režimas ir mediana.

Vidurkis arba vidurkis yra visų stebėtų duomenų su dideliu duomenų kiekiu suma. Vidurkį galime suformuluoti taip.

Vidurkis = (visų duomenų suma) / (daug duomenų)

Norėdami geriau suprasti, dirbkime su šia pavyzdine problema. 5 žmonių, reikalingų socialinei veiklai savo aplinkoje, skaičius per savaitę yra 10, 7, 13, 20 ir 15 valandų. Nustatykite, kiek vidutiniškai valandų per savaitę jie praleidžia socialinei veiklai!

Remdamiesi pirmiau pateiktomis problemomis, skaičius galime įvesti į formulę taip.

Vidurkis = (10 + 7 + 13 + 20 + 15) / 5 = 65/5 = 13

Tai reiškia, kad vidutiniškai valandos, kurias jie praleidžia socialinei veiklai, yra 13 valandų.

Be vidurkio ar vidurkio, yra ir režimai. Režimas yra reikšmė, kuri dažniausiai rodoma duomenyse. Pažvelkime į šios problemos pavyzdį.

Žemiau pateikiami kai kurių 7 klasės mokinių svorio duomenys (kilogramais). Nustatykite duomenų režimą!

32, 35, 33, 32, 34, 31, 35, 35, 31, 34, 35, 3

Visų pirma, turime suskaičiuoti, kiek kartų kiekviena vertė rodoma duomenyse. Remiantis šiais duomenimis, gauname 31 (x3), 32 (x2), 33 (x1), 34 (x2) ir 35 (x4). Kadangi 35 įvyksta dažniausiai, aukščiau nurodytų duomenų režimas yra 35.

Paskutinis į duomenis orientuoto mato tipas yra mediana. Mediana dalija duomenis į dvi lygias dalis, taigi mediana yra vidurinė surūšiuotų duomenų vertė.

Norėdami nustatyti medianą, pirmiausia turime rūšiuoti visus duomenis mažėjimo ar didėjimo tvarka. Antra, apibrėžkite daug duomenų ir simbolizuokite juos kaip „n“. Jei n yra nelyginis, mūsų naudojama formulė yra tokia.

Mediana = duomenų skaičius - ((n + 1) / 2)

Tuo tarpu, jei n yra lyginis, naudosime toliau pateiktą formulę.

Mediana = (duomenų i-asis (n / 2) + duomenų i-asis (n / 2 + 1)) / 2

Antrasis statistikos duomenų matavimas yra duomenų plitimo matas. Duomenų sklaidos dydis yra reikšmė, nurodanti, kiek duomenys yra nuo duomenų centro. Duomenų paskirstymo dydį sudaro diapazonas, kvartilis ir tarpkvartilis.

Diapazonas yra skirtumas tarp didžiausios ir mažiausios duomenų vertės. Pasiekiamumą galime pasiekti atimdami didžiausius duomenis iš mažiausių duomenų. Pavyzdžiui, jei vienoje klasėje aukščiausias mokinys turi 160 cm ūgio, o trumpiausias - 143 cm ūgį, mes pasieksime 23 cm ūgį.

Tuo tarpu kvartilis yra statistinių duomenų grupavimas į keturias lygias dalis. Kvartilės dydis yra padalintas į 3, būtent apatinį kvartilį (Q 1 ), vidurinį kvartilį (Q 2 arba medianą) ir viršutinį kvartilį (Q 3 ). Norėdami nustatyti kiekvieną kvartilį, turime atlikti kelis veiksmus.

Pirmiausia surūšiuokite duomenis didėjimo ar mažėjimo tvarka. Antra, nustatykite vidutinę arba vidutinę duomenų vertę. Trečia, nustatykite apatinę kvartilę (Q 1 ), kuri yra vidutinė duomenų grupės vertė žemiau medianos (Q 2) . Galiausiai nustatykite viršutinę kvartilę (Q 3 ), kuri yra vidutinė duomenų rinkinio vertė virš medianos (Q 2) .

Paskutinis duomenų paskirstymo mato tipas yra tarpkvartilių diapazonas. Tarpkvartilių diapazonas yra skirtumas tarp viršutinės ir apatinės kvartilių. Formulė yra tokia.

Q d = Q 3 - Q 1