Mi mennyi?
Typography
  • Smaller Small Medium Big Bigger
  • Default Helvetica Segoe Georgia Times

Sok téves információ kering arról, hogyan lehet és kell statisztikát számolni, közzétenni, értelmezni. Meg persze vannak olyan esetek is, amikor simán utolérhető, hogy egy adatsort maniulatív jelleggel állítottak össze, tettek közzé, vagy értelmeztek.

Szárazon: A statisztika a valóság számszerű információinak megfigyelésére, összegzésére, elemzésére és modellezésére irányuló gyakorlati tevékenység és tudomány.

Amit egyből kiemelnék:

  • gyakorlati tevékenység: nem tudja ezt akárki művelni, erős szakmai tudás kell hozzá
  • tudomány: ez inkább csak az alapelvekre vonatkozik, de tovább erősíti azt a képet, hogy kemnyen oda kell magadat tenni, ha valamit tennél ezen a téren.

Nem lehet himihumi módon, botcsinálta statisztikusként olyan következtetéseket levonni egy adatsorból, ami hogy-hogynem pont a mi álláspontunkat támassza alá. Vagyis tulajdonképpen lehet, csak nem illene.

Most kicsit konyhanyelven, kicsit pongyolán, nem túlságosan részletekbe menően leírom, hogy egy statisztika hogyan áll össze, és hogyan vonják le a végén a következtetéseket.

Legyen két példa adatsorunk, amik nagyon sarkítottak, de alkalmasak arra, hogy pár egyszerű számolást végrehajtva megnézhessük az eredményeket.

Az első legyen egy tornasor, magasságokkal:

167, 167, 167, 167, 168, 168, 169,
169, 169, 169, 170, 190, 190, 190,
194, 194, 194, 194, 194, 195, 195

A második meg legyen keresetre vonatkozó:

1 ember keres 1.000.000 forintot
9 ember keres 1.000 forintot
 
Először lássuk, milyen módszerek vannak arra, hogy  ezekből az adathalmokból statisztikát gyártsunk.
 
 
Átlagolás (számtani közép, számtani átlag, ezt használják általában, a közember is ezt érti általában statisztika alatt): összeadjuk az elemeket, és elosztjuk az elemek számával.
A tornasorunk számtani átlaga 180. Csakhogy ilyen elem nincs is a fenti sorban. Kemény dió…
A keresetek számtani átlaga 100.900 forint.
Vegyünk még egy vicces példát: 21 éves koromban  40 centis volt a hajam, most 2. Átlagban van 21 centi hajam. Ha most megnézitek a képemet, akkor érzitek a zavart az erőben.
 
 
Súlyozott átlag: ez a számtani közép egy formája, ahol nem csak simán összeszorozzuk az egyes elemek számát az értékükkel, hanem az elemekhez súlyokat rendelünk, így összeszorozzuk az elem értékét, számosságát, súlyát, majd ezután elosztjuk a súlyozással. Ezt lehet például arra használni, hogy több számtani középként kiszámolt átlagot jobban a helyére tegyünk, vagy arra, hogy valóban egyes értékeket “jobban” figyelembe vegyünk. 
 
Ha a fenti tornasort nézzük, és mondjuk az első sort kétfelé osztjuk:
167, 167, 167, 167 és 168, 168, 169. Ezek számtani átlagai 167 és 168.3, majd ezek számtani átlagai 167.65. De a súlyozott átlaga lehetne ((4 * 167) + (3 * 168.3)) / (4 + 3) = 167.55, és máris szinte hangra ugyanaz az összeg jön ki, mintha az egész sort számtani átlagolnánk, vagyis közelebb vagyunk az igazi eredményhez, nem torzítottunk.
 
A tényleges súlyozásra meg mondjuk jó példa ha az a kérdés, hogy “mennyire fáj a szülés”. Ilyenkor szerintem nem teljesen ördögtől való az ötlet, hogy a tényleges anyák véleményét 2-vel szorozzuk, a gyermektelen nők véleményét 1.5-lel, a normális férfiakét vesszük 1-nek, és a hímsoviniszták véleményét vesszük mondjuk jóindulatúan 0.5-nek.
 
 
Medián (helyzeti középérték): fogjuk a rendezett sorból a középen álló elemet. Ha páratlan az elemszám, akkor egyszerű a dolgunk. Ha páros, akkor vagy kiválasztjuk az egyiket, vagy mondunk alsó és felső mediánt, vagyis két értéket, vagy a két középső érték számtani átlagát. A fenti sorozat mediánja 170. Ez már úgy jobbnak érződik, de azért még mindig nem az igazi. Ha viszont a 170 centis embert kiszedjük, akkor a medián lehet 169 vagy 190, vagy 179.5, vagy mondhatjuk mindkettőt. Elég nagy különbség van aközött, hogy a statisztikát készítő melyik eredményt választja. 
 
 
Módusz: a legtöbbet előforduló elem. Feldobjuk az egészet egy kördiagramra, és a legnagyobb szeletet vesszük. A tornasorunknál a 194-es érték fordul elő a legtöbbször. A kereset-sorunk módusza 1.000. Egyébként egy sorozatnak több módusza is lehet, de most ne bonyolítsuk.
 
Van még ez-az, ilyen-olyan statisztika, de minket leginkább ezek érdekelnek. A többi vagy nagyon matematikai, és nem nagyon használjuk a közéletben, vagy annyira elméleti, hogy csak abszolút speciális esetekben használják.
 
 
Egy dolgot viszont még meg kell említenem, mert a statisztikák eredményét sokszor csak a végletekig egyszerűsítve teszik közzé: ez a százalék.
 
Ha kaptunk valamilyen eredményt, azt elosztjuk a számossággal, majd megszorozzuk 100-zal, máris kijön a százalék. Például ha veszünk 25.000 lakást/házat, és ebből 3.000-be már betörtek, akkor a százalék: 3.000 / 25.000  * 100 = a lakások 12%-ába törtek már be.
 
 
A statisztika sok számmal dolgozik. Minél több szám van, annál közelebb lehet valami értelmes eredményhez. Ha viszont ebből egyénekre vonatkozó következtetést akarunk levonni, akkor nagyon észnél kell lenni, hogy ezt az adatot minek az alátámasztására szeretnénk használni.
 
Például ha minden ember annyi állami támogatást kapna, mint az átlagkereset, akkor az számszerűen nem az igazi, de szociálisan rendben van. Akik az alatt keresnek, azok arányában többet kapnak, akik a felett keresnek, azok arányában kevesebbet kapnak. “Igazságosnak” tűnik.
 
Például ha a fenti tornasor alapján mindenkinek 180 centi magas tornaruhát rendelünk, akkor az a fele bandán lógni fog, mint tehén a gatyán, a másik felén meg haspólóként és forrónaciként fog kinézni. Magyarul senkire sem lesz jó.
 
Például ha egy átlagkeresetből meg lehet(ne) élni, és ezt munka nélkül kapná mindenki, mint egyes államokban, de mindenkinek más lenne a havi költési igénye (hogy ne szabaduljunk nagyon el az élettől: az ország más-más részein más-más összegeket kellene fizetni a rezsire és az utazásra, akkor is, ha egyenházak lennének), akkor egyeseknek jó lenne, másoknak nem, mint az első példánál. Viszont mivel a fizetés helyett lenne, tehát már szociálisan sem lenne igazságos.
 

A fenti dolgok persze nem ennyire egyszerűek vagy egyértelműek, nem matematikai igényességgel írtam, sok helyen sarkítottam, hogy érthetőbb legyen.

A fenti példák természetesen tökéletesen elrugaszkodtak a valóságtól, mindenféle áthallás, vagy egyből eszetekbe jutó példa csak a véletlen műve, mintden csupán a szemléltetés miatt van.