Vučić se servira onima sa platom do 300 evra mesečno

Ko šta radi, ja ispada samo pljujem Vučića po ovom blogu. Evo još jedan tekst, kao neki pokušaj analize podataka, ovaj put o tome ko sa kojom platom glasa za dragog nam Vučka.

BTW, ako vam se sviđaju ove moje debilne analize sa ovako random temama, onda će vam se sigurno svidi i datatata blog od mog kolege:) Sad kad sam završio sa reklamama:), da se bacimo na stvar.

Kako sam došao do ove analize

 

Na prethodnim izborima, Vučko je odneo ubedljivu pobedu. Svako može da priča sad o razlozima (čak sam se i ja okušao u tome), jedan od češćih je bio da su ljudi naterani da glasaju za njega, ili da tamo neki seljaci glasaju, a da je ta “građanska opcija” inertna itd., itd. Mene je zanimalo da vidim da li stvarno ima u tome nešto. Jedan od retkih otvorenih izvora podataka u Srbiji je republički zavod za statistiku. Tamo, duboko skriveni, da ih slučajno neko ne nađe (pu-pu-pu, daleko bilo), ili ne daj Bože skrejpuje (pa su često dostupni samo iz browser-a, nicht .csv, nicht Excel), su razni podaci, manje ili više zanimljivi. Razmišljalo je nas nekoliko šta bi to bilo najbolje i najzanimljivije gledati, ali ništa pametno osim plata nismo našli. Ako vi imate neki dobar izvor podataka, koji ima smisla ukrstiti nekako sa rezultatima izborima, javite!

Elem, na publikacijama za zaposlenost i zarade možete naći ZP14, tj. zarade po opštinama i gradovima, a najnoviji izveštaj u trenutku pisanja ovog teksta je iz maja. Malo sređivanja i lako dobijemo spisak svih prosečnih plata po opštinama. Na sajtu RZS-a se mogu skinuti i rezultati izbora po opštinama. Isto malo dorade, i ova dva izvora su spremna za ukrštanje. Mislim, da se ne lažemo, jasno je bilo da će biti korelacije, pitanje je samo bilo kolike:) Sređene i ukrštene podatke, kao jedan mali i pitki Excel, možete da preuzmete odavde.

Analiza

 

OK, definitivno postoji korelacija, jasno se vidi sa ove slike:

 

(klik na sliku za veću verziju)

 

Na X-osi je prosečna plata po mestima, a na Y-osi je procenat glasova za Vučića. Nažalost, nisam mogao da ubacim da se vidi svako mesto, ali većinu ovih “izbačenijih” (da ne kažem outlier-a) jesam (kliknite na sliku za veću verziju). Ako želite da vidite kako se kotira vaše mesto, pravac na download Excel-a i nađite se sami! Evo par stvari koje sam ja uočio (vi javite ako primetite još nešto interesantno):

  • Korelisane su babe i žabe u neku ruku. Prosečna plata je uzimana sa mesta gde su prijavljene firme, a procenat glasova za Vučka sa mesta gde su prijavljivani ljudi. Tako da nije baš tačno preslikavanje. Kako god, mislim da nisam mnogo omanuo, jer iako se na bolje povezanim mestima (npr. Novi Beograd↔Vračar) ljudi više kreću, postoji prostorna korelacija (prijavljen u Vlasotincu neće raditi u firmi koja je registrovana u Subotici)
  • Surčin je outlier jer je tamo kontrola letenja i aerodrom (a oni su poznati da nemaju baš male plate:). Ja bar tako objašnjavam
  • Od ostalih zanimljivih outlier-a, ukazao bih na Čajetinu – bastion slobodne Srbije:p (ne smatram beogradski trougao “Vračar-Novi Beograd-Stari Grad” nešto zanimljivim)
  • Trgovište je pobedilo:) Znam da nije politički korektno, ali svaki put kad vidim ovaj grafik sa njim na vrhu, malo se nasmejem:)
  • Od Mladenovca (ovde nije prikazan) i Belog sam očekivao da postanu outlier, ali nisu – Beli nije uspeo da izvede Mladenovac van mediokritetske 3σ korelacije
  • I na kraju – cum hoc ergo propter hoc. Samo zato što veza postoji, ne znači da je niska plata uzrok, već mnogo verovatnije postoji uzajmna povezanost ova dva. Drugim rečima, može se reći da siromašniji ljudi glasaju za Vučića (globalno gledano), ali ne možemo da kažemo da ako u Trgovište sipamo milione evra, da će ti ljudi da glasaju za nekog drugog. Ili obrnuto, da će Stari Grad postati siromašniji ako počne da glasa za Vučića – sve je to lepo uvezano i povezano, ovi grafici samo surface-uju mali stepen jednostavnosti u opštem haosu realnosti;) (da, znam, nekad mnogo kenjam)

 

A da vidimo trend:

 

R squared je 0.27. Za trend sam uzeo linearni (najviše mi je ličilo i najbolje je rezultate davao na ovom uzorku, mada je nemoguće da je ovo linearni model:). Po ovom trendline-u možemo da zaključimo da u mestu u kome je plata 0 dinara, procenat glasova za Vučića bi bio oko 85%, a spao bi ispod 50% kada je prosečna plata 80.000. Vučić (i njemu slični) će dobiti 0% glasova kada prosečna plata bude 210.000 dinara. Sada je valjda jasno odakle mi ideja za naslov teksta:) Ne znam za tebe čitaoče, ali meni ove brojke totalno imaju smisla.

Po oblastima

 

Korelacija je jasna i kada se pogledaju agregirani rezultati po oblastima:

 

 

Samo beogradski pašaluk

 

Ako niste iz Beograda, ovo će biti još jedan od onih “jebo ih Beograd” momenata (znam kako je…živeo sam van tog Beograda:), i slažem se da nema ništa više poente analizirati Beograd ovde nego npr. Niš, ali šta da radim – za Beograd ima više opština, lepše izgleda na grafikonima, a i moj je grad, mene je zanimao on najviše:

 

 

Kad gledate Beograd, podsetite se samo prve stavke gore kada sam pominjao mešanje baba i žaba – na Beogradu je to najizraženije, pa uzmite ovaj grafikon sa rezervom.

Posted in Analitika, Politika | Tagged | Leave a comment

Statistike B92 vesti i komentara u 2015. godini

Autor ni na koji nači nije povezan sa B92. U tekstu su iznete isključivo činjenice dobijene statističkom analizom. Ni originalni podaci, ni njima dobijeni rezultati nisu modifikovani.

Osnovni podaci

2015. godina je prošla. Sa malim zakašnjenjem, ispod je prikazana osnovna analiza sajta B92 i vesti koje su se našle na njemu, kao i komentara i kategorija. Analizom su obuhvaćene sve vesti i komentari objavljeni na B92, od 01.01.2015. do 31.12.2015. Celokupni izvorni kod scraper-a, kao i cela baza podataka se nalazi ovde.

U 2015. godini, B92 je izbacio dosta vesti, i dosta komentara, evo kratak pregled:

Ukupno vesti 100.971
U proseku, vest na svakih: 5 minuta
Ukupno kategorija: 173
Komentara: 1.643.338
U proseku, komentar na svakih: 20 sekundi
Prosek komentara po vesti: 16.2
Ukupan broj pluseva: 175.415.492
U proseku, u jednoj sekundi je padalo: 5.5 pluseva
Ukupan broj minusa: 70.796.238
U proseku, u jednoj sekundi je padalo: 2.4 minusa

 

Pređena je magična cifra od 100.000 vesti godišnje. Čestitke za B92:) Gledajući broj komentara sa ove liste (a pošto su komentari moderisani), ova statistika govori i da su moderatori imali pune ruke posla (zamislite koliko komentara tek nije prošlo moderaciju).

Vesti

 

Evo koje tipove vesti je B92 objavljivao, po kategorijama:

 

vesti_po_kategoriji

 

Ako se gleda kako je B92 objavljivao vesti na dnevnom nivou, primećuje se porast trenda.
vesti_dnevno

 

Na početku godine su izbacivali 263 vesti dnevno, a na kraju čak 288. Ako se nastavi ovaj trend, do 2021. godine će objavljivati 150.000 vesti godišnje ili preko 400 dnevno (ne znam kakve će to vesti biti, ali se nadam da neće porasti broj vesti u kategorijama “politika” i “hronika”). Na prethodnoj slici se i jasno vidi da broj vesti na dnevnom nivou fluktuira od dana do dana. I tako i jeste – broj “vrhova” na prethodnom grafiku je 52, tj. broj nedelja.

 

Evo kako izgleda nedeljna distribucija vesti:

 

vesti_nedeljno

 

Valjda i B92 odmara vikendima.

 

Mnogo interesantnije od ovoga je videti kakva je distribucija vesti po satima, tj. kad se najčešće objavljuju vesti:

 

vesti_sat

 

Na grafiku se vidi kako je vrhunac vesti oko 11h prepodne, kao i dva peak-a – jedan u 17h i jedan oko 21h. Pretpostavka je da ovo nije slučajno. verovatno je rađena analiza i verovatno ljudi tad i najčešće čitaju vesti.

 

Međutim, znajući od malopre da distribucija vesti po danima nije jednaka, hajde da vidimo opet distribuciju vesti po satu, ali razbijenu po danima:

 

vesti_sat_dan

I zapravo, vidi se razlika. Očigledno je da je peak vesti vikendom drugačiji, tačnije 16h je udarni termin (dok je radnim danima to malo pomereno na 17h). Isto tako, subotom se vidi blagi skok oko 20h (dok je radnim danima on oko 21h), a i nedeljom se takođe vidi blagi skok oko 22h koga nema uopšte drugim danima.

 

A šta su bile najčešće teme na objavljenim vestima? Urađena je analiza reči koje su se pojavljivale u naslovima vesti. Ako izbacimo predloge i veznike (“i”, “ili”, “na”, “u”, “ako” i sl.) i ako se ne pravi razlika po raznim mogućim oblicima pojavljivanja reči (“Vučić”, “Vučića”, “Vučićeva” …), evo je lista najčešćih reči:

 

naslov_reci

 

Pozicija na kojoj se nalazi “SAD” je prilično fascinantna. “Godina” i “dan” su prilično standardni pojmovi, razmišljano je i da se izbace, ali nije na kraju. “Vučić” je i dalje neprikosnoveni vladar medijskog prostora, a godinu je obeležio i sve veći broj “izbeglica”. Interesantno je i da je “Zvezda” ispred “Partizana” globalno, a videćemo kasnije i detalje. “Novak” je uspeo da se ušunja na listu na poslednjem mestu (ovde nisu računata i pojavljivanja reči npr. “Đoković”), mada je lični utisak da je on držao prvo mesto cele godine:)

 

Ako zagrebemo malo više po ovoj listi tako što je razložimo po kategorijama, dobijamo malo veći nivo detalja:

 

naslov_reci_kategorija

 

Ostavljam čitaocu da iznese zaključke za svaku od navedenih kategorija, a ima ih, nije da ih nema.

Komentari

 

Pored vesti, analizirani su i komentari čitalaca. Kao što je gore već navedeno, pričamo o neverovatnoj cifri od preko milion i po komentara ili u proseku 16.2 kometara po vesti. Reći tako nešto a da se ne pokaže distribucija tog broja nije fer, pa evo:

 

distribucija_broja_komentara

 

Ovaj grafik pokazuje koliko vesti ima koliko komentara (sa 0 komentara su oko 24.000 vesti, jedan komentar ima malo preko 10.000 itd.). A evo koje kategorije u proseku izazivaju najviše komentara (u obzir su uzete samo kategorije preko 50 vesti):

 

Kategorija Ukupno vesti Ukupno komentara Prosek komentara po vesti
Eurobasket 378 19041 50.37
US Open 2015 293 13187 45.00
Wimbldon 2015 – Ozmo na travi 47 2052 43.65
Košarka 3704 159725 43.12
Roland Garros 2015 303 12422 40.99
Seks 44 1680 38.18
Politika 5305 198124 37.34
Drugi pišu 80 2822 35.27
Tenis 2462 83489 33.91
Wimbldon 2015 – Vesti 332 10182 30.66
NBA 1075 30372 28.25
Australian Open 2015 372 10011 26.91
Život – Vesti 5157 133710 25.92
Pregled štampe 111 2843 25.61
Nauka 140 3345 23.89

 

U principu, Srbi očigledno najviše vole da komentarišu seks, i to samo onda kad se umore od komentarisanja tenisa – valjda mislimo da smo u ovim oblastima najupućeniji da ostavimo komentar. Na dnu ove liste (nije prikazano ovde) se ubedljivo nalazi Bulevar koji je na preko 2400 objavljenih vesti uspeo da dobije ukupno… 10 komentara.

 

Ako pogledamo kad to ostavljamo komentare, vidimo sličnu distribuciju kao i kod vesti:

 

komentari_dan_nedelje

 

Ovo nam ništa ne govori. Ako uporedimo ovaj grafik sa prethodnim, možemo da vidimo relativan odnos “koliko vesti dođe nekog dana”, a “koliko se te vesti komentarišu”, pa dobijamo:

 

komentari_dan_nedelje_relative

 

Ljudi “ne stižu” da iskomentarišu sve vesti tokom radnih dana, ali zato sve nadoknade vikendima, naročito nedeljom, kad deluje kao da fali vesti. Kad se pogleda slična analiza po satima, kao za vesti, tj. break-down po satima kad ljudi najčešće komentarišu, dobija se slična kriva:

 

komentari_sat

 

Kometari manje-više prate izlaženje vesti. U tu svrhu, napravljen je histogram koji pokazuje posle koliko vremena (u minutima) od objavljivanja vesti dolaze komentari:

 

distribucija_komentara

 

OK, ovde je prikazana distribucija za jedan dan (1440 minuta), pa se ne vidi najbolje maksimum. Kad zumiramo malo bolje, dobijamo:

 

distribucija_komentara_zoom

 

Ispada da najviše komentara na vest dolazi 30 minuta od njenog objavljivanja. Da li je to prosečno vreme čitanja vesti plus pisanje komentara pre nego što se ostavi komentar? Na osnovu komentara koji se mogu pročitati svaki dan na B92 – teško; deluje da nekad ljudi ne pročitaju ni naslov do kraja pre nego što nešto iskomentarišu. A ko su ti komentatori uopšte? Ako pogledamo imena prvih 10 autora sa najviše komentara, dobijamo prilično dosadnu listu:

 

autori

 

Osim što nam govori da su autori najčešće muškarci (štaviše, prvo žensko ime ne kreće tek od 20. mesta), ne možemo da ih povežemo sa konkretnim ljudima. Zato su izbačena sva “uobičajena” imena (gde je primenjena “šac” metoda šta je to definicija uobičajenosti), pa nova lista prvih 15 autora izgleda ovako:

 

autori2

 

Čestitke za “smuleco-a”, ko god bio – izdominirao je sa 5257 napisanih komentara u 2015. godini. Botovi, ne menjajte imena, pa ćete i vi možda biti na ovoj listi. A evo i koji autori ima najbolje komentare, tj. one sa najviše pluseva:

 

Autor Broj komentara Prosek pluseva
marko (dorcol) 53 331
sasacg 84 292
nemanjabb 220 264
lion 128 251
markiz 83 242
theriddler 54 241
dexr 72 240
gajetano 190 239
expx 52 238
paspalj 51 234

 

U obzir su uzeti samo autori sa preko 50 komentara. A evo to isto, samo za najomraženije autore:

 

Autor Broj komentara Prosek minusa
herr wolf 52 -253
menader 78 -220
ruža 66 -219
tamni vilajet 82 -214
baba 52 -198
vanja petrovic 53 -185
antiparazit 53 -180
fedex1 58 -178
zimzeleni 156 -174
dexr 72 -171

 

A koji su to komentari najviše pogodili čitaoce da im oni daju plus. Evo je lista top 10 komentara:

 

Vest Autor Komentar Pluseva
Stefanovic: Vucic prošao poligraf, Branko je Saša aco haha imali smo svasta u proteklih 25 godina ali ovo je neponovljivo 6628
Stefanovic: Vucic prošao poligraf, Branko je Saša Kol Pretpostavljam sa najboljim ocenama! :-D 5432
Vucic: Ne dam Gašica i Loncara Bane Kakav demagog… 5359
Stefanovic: Vucic prošao poligraf, Branko je Saša Mxyed A zašto nije bilo direktnog prenosa ispitivanja ? :) 5171
Vucic: Ne dam Gašica i Loncara …. ako ne das njih,onda ti daj ostavku! 5140
Prostakluk ministra Gašica / VIDEO Persa To je on! To su oni! 4961
Vucic: Ne dam Gašica i Loncara strahinja Šta smo mi bogu zgrešili? 4494
Vucic: Ne dam Gašica i Loncara grbovic Nije problem sto je vojska htela da spase dete, vec je problem sto naredjenje izdaje nestrucan kadar. Dosta vise demagogije. Sta mislite da je narod lud, da ne zna da je zarad politickih poena nastradalo 6 osoba. A ti Vucicu ne moras da ih das. Narod ce Vam sve reci na sledecim izborima. 4462
Prostakluk ministra Gašica / VIDEO Miki Ne razumem u cemu je problem?! Sta ocekivati od takve osobe, koja je iz kafane i gradilista dosla u politiku na neposten nacin. Nije odgovarao za poginule u helikopteru, zasto bi mu bio problem da bilo kome bilo sta kaze. Sutra ce se pojavi i ubedi svoje glasace da je to sve umontirano, namesteno i izvuceno iz konteksta. 4300
Toni Bler u Srbiji, ministri cute Veteran Branio sam svoju zemlju 1999. god od NATO agresora, ciji je lider bio i Toni Bler. Osecam se osramoceno danas. 4282

 

I ista takva lista za najomraženije komentare (sa najviše minusa):

 

 

Hall of Fame

 

I na kraju, napravljen je pokušaj da se izvadi lista “najpozitivnijih” i “najnegativnijih “vesti, i probano je sa dosta raznih pristupa, ali nikad nije dobijena neka smislena lista. Da li su to vesti koje imaju najviše pluseva na komentarima, ili one koje imaju najviše prosečno pluseva, ili one kojima je odnos pluseva i minusa najveći – suština je da nema dobre metrike da se ovo nađe. Ipak, dok je ovo traženo, nađene su neke vesti koje od ostalih iskaču po raznim kriterijumima, pa će one biti prikazane. Ove vesti takođe daju dobru retrospektivu godine. To je sve, uživajte!

 

Vesti sa preko 1000 komentara

 

 

Vesti sa preko 150.000 pluseva na komentarima

 

 

Vesti sa preko 120.000 minusa

 

 

Vesti sa preko 600 pluseva u proseku na komentarima

 

Vesti sa preko 650 minusa u proseku na komentarima

 

Vesti sa preko 110.000 razlike između pluseva i minusa u komentarima

 

Vesti sa preko 25.000 razlike između minusa i pluseva u komentarima

 

Vesti sa preko 500 razlike između pluseva i minusa u komentarima u proseku

 

Vesti sa preko 300 razlike između minusa i pluseva u komentarima u proseku

Posted in Analitika, Politika | Tagged , | 10 Comments