Me kuuleme sageli küsimust: “kust te andmeid saate?” — ja vastus sellele on tavaliselt ebamäärane “mitmelt poolt”. Üks osa meie tööst on tegeleda andmetega, mis tulevad meie endi korraldatud ning tellitud arvamusküsitlustest, mille puhul on meil reeglina väga selge ning konkreetne ettekujutus, miks me neid asju vaatame ja mida me sealt leida loodame. Sellele lisaks kammime me aga pidevalt kümneid erinevaid avalikke andmeallikaid — erinevaid avaandmeid, avalikku statistikat, teiste poolt tehtud uuringute tulemusi ning nende alusandmeid (sh erinevaid suuri rahvusvahelisi võrdlevaid uuringuid, nagu CHES, ESS, Eurobaromeeter jne jne), monitoorime sotsiaal-, päris- ja alternatiivmeediat, aeg-ajalt jagatakse meiega ka erinevaid küsitlusi, uuringuid või andmekogusid, mis ei ole avalikud jne. ning selle kõige puhul ei ole meil sageli mingit selget sihti või eesmärki. Pigem lihtsalt proovime ja katsetame, kas jääb näppu midagi huvitavat — ja päris tihti jääbki — ning siis on võimalik juba omakorda täpsemalt edasi kaevata.
Läinud nädalal sattus mulle selliselt ette üks jaanuari alguses The Economist-is ilmunud lühike artikkel Ameerika opioidikriisi võimalikest mõjudest poliitikale. See oli iseenesest kokkuvõte pikemast ja põhjalikumast teadusartiklist, mis omakorda viitab paarile artiklile, milles räägitakse laiemalt “meeleheitesurmadest” ning nende poliitilistest tagajärgedest. Kiire otsing sel teemal tõi terve peotäie erinevaid huvitavaid käsitlusi viimastest aastatest (vt näiteks seda, aga ka seda). See kõik tõi mulle meelde, et tegelikult on ju ka Eestis olemas andmed, mis kajastavad elanikkonna tervise- ja heaolunäitajate jaotusi: Tervise Arengu Instituut viib iga paari aasta tagant läbi põhjaliku uuringu ning avaldab selle tulemused maakondade tervise- ja heaoluülevaadetena, viimane raund pärineb aastast 2022, eraldi tasub vaadata seda võrdlustabelit. Kuna Salk on teadaolevalt süvariik ning meie kombitsad ulatuvad kõikjale, saime viisaka küsimise peale kiirelt kätte ka sellele koondtabelile aluseks olnud exceli (aitäh, Annika ja Triinu!) ning sealt edasi oli vaja need lihtsalt meie enda andmetega risti lasta.
Selleks arvutasin kiirelt korrelatsioonimaatriksi kõigi tabelis toodud tervise- ja heaolunäitajate ning erinevate erakondade toetusmäärade (võtsin käepärast olnud andmed 2023. aasta novembrikuu seisuga) vahel maakondade kaupa. Olgu siin kohe öeldud kaks olulist asja:
- see on kiire, esmane pilguheit ning tegelikult tuleks siin muidugi palju sügavamalt ja põhjalikumalt kaevata. Näiteks oleks hea mõte neid seoseid kontrollida sissetulekute ja haridusega, mis tõenäoliselt selgitaks väga olulise osa kogu variatiivsusest. Samuti tuleks see analüüs päriselt viia läbi märksa peenema pintsliga, kui maakondade jaotus — see aga eeldaks ligipääsu granulaarsetele andmetele.
- teiseks tuleb alati meeles pidada, et seos ei tähenda põhjuslikku seost.
Aga nüüd kus need hoiatused on antud, lähme edasi tulemuste juurde. Meenutuseks: kui kaks näitajat on omavahel täielikult seotud, on korrelatsioonikoefitsendiks 1, kui seos on täielikult vastupidine, siis -1. Korrelatsioonikoefitsent 0.7 näitab tugevat positiivset, -0.2 nõrka negatiivset seost. Nullväärtus või sellele lähedased väärtused indikeerivad, et kahe muutuja vahel seos puudub.
Jooniselt on võimalik näha mil moel ja määral on maakondade lõikes omavahel seotud TAI poolt seiratavad näitajad erinevate erakondade toetusmääradega (need ei ole loomulikult konstandid ning muutuvad ajas ka märksa kiiremini, kui tervisenäitajad). Üldiselt joonistuvad välja muidugi mitmed ootuspärased asjad — aga leiab ka üht-teist üllatavat.
Selleks, et kogu asjast veidi ülevaatlikumat ja struktureeritumat pilti saada klasterdasin maatriksi mõlemal teljel sarnasuste järgi ning selle tulemus oli järgmine (vabandust raske loetavuse pärast):
Joonise äärtel olevate dendrogrammide abil on võimalik tuvastada erinevaid tervise- ja heaolunäitajate ning nendega seotud poliitiliste eelistuste plokke — aga siin tuleb jälle silmas pidada, et tegemist on suhteliselt laia, maakonna tasemel agregeeritud pintsliga, mis ei luba eristada erinevaid rühmi (nagu näiteks Kalamaja-sotse Ivari Padari valijatest jne) erakondade toetajaskonna sees. Sellegipoolest joonistub välja nii mõndagi tähelepanuväärset. Märkisin antud joonisel ära ühe eriti masendava klastri.
Ühesõnaga tundub, et siin oleks materjali, mida edasi uurida küll — ja võib-olla millalgi võtame selle ka põhjalikumalt ette. Seniks aga kui keegi tahab ise samade andmetega katsetada, siis CSV-faili leiab siit.