Autor ni na koji nači nije povezan sa B92. U tekstu su iznete isključivo činjenice dobijene statističkom analizom. Ni originalni podaci, ni njima dobijeni rezultati nisu modifikovani.

Osnovni podaci

2015. godina je prošla. Sa malim zakašnjenjem, ispod je prikazana osnovna analiza sajta B92 i vesti koje su se našle na njemu, kao i komentara i kategorija. Analizom su obuhvaćene sve vesti i komentari objavljeni na B92, od 01.01.2015. do 31.12.2015. Celokupni izvorni kod scraper-a, kao i cela baza podataka se nalazi ovde.

U 2015. godini, B92 je izbacio dosta vesti, i dosta komentara, evo kratak pregled:

Ukupno vesti 100.971
U proseku, vest na svakih: 5 minuta
Ukupno kategorija: 173
Komentara: 1.643.338
U proseku, komentar na svakih: 20 sekundi
Prosek komentara po vesti: 16.2
Ukupan broj pluseva: 175.415.492
U proseku, u jednoj sekundi je padalo: 5.5 pluseva
Ukupan broj minusa: 70.796.238
U proseku, u jednoj sekundi je padalo: 2.4 minusa

Pređena je magična cifra od 100.000 vesti godišnje. Čestitke za B92:) Gledajući broj komentara sa ove liste (a pošto su komentari moderisani), ova statistika govori i da su moderatori imali pune ruke posla (zamislite koliko komentara tek nije prošlo moderaciju).

Vesti

Evo koje tipove vesti je B92 objavljivao, po kategorijama:

vesti_po_kategoriji

Ako se gleda kako je B92 objavljivao vesti na dnevnom nivou, primećuje se porast trenda.
vesti_dnevno

Na početku godine su izbacivali 263 vesti dnevno, a na kraju čak 288. Ako se nastavi ovaj trend, do 2021. godine će objavljivati 150.000 vesti godišnje ili preko 400 dnevno (ne znam kakve će to vesti biti, ali se nadam da neće porasti broj vesti u kategorijama “politika” i “hronika”). Na prethodnoj slici se i jasno vidi da broj vesti na dnevnom nivou fluktuira od dana do dana. I tako i jeste – broj “vrhova” na prethodnom grafiku je 52, tj. broj nedelja.

Evo kako izgleda nedeljna distribucija vesti:

vesti_nedeljno

Valjda i B92 odmara vikendima.

Mnogo interesantnije od ovoga je videti kakva je distribucija vesti po satima, tj. kad se najčešće objavljuju vesti:

vesti_sat

Na grafiku se vidi kako je vrhunac vesti oko 11h prepodne, kao i dva peak-a – jedan u 17h i jedan oko 21h. Pretpostavka je da ovo nije slučajno. verovatno je rađena analiza i verovatno ljudi tad i najčešće čitaju vesti.

Međutim, znajući od malopre da distribucija vesti po danima nije jednaka, hajde da vidimo opet distribuciju vesti po satu, ali razbijenu po danima:

vesti_sat_danI zapravo, vidi se razlika. Očigledno je da je peak vesti vikendom drugačiji, tačnije 16h je udarni termin (dok je radnim danima to malo pomereno na 17h). Isto tako, subotom se vidi blagi skok oko 20h (dok je radnim danima on oko 21h), a i nedeljom se takođe vidi blagi skok oko 22h koga nema uopšte drugim danima.

A šta su bile najčešće teme na objavljenim vestima? Urađena je analiza reči koje su se pojavljivale u naslovima vesti. Ako izbacimo predloge i veznike (“i”, “ili”, “na”, “u”, “ako” i sl.) i ako se ne pravi razlika po raznim mogućim oblicima pojavljivanja reči (“Vučić”, “Vučića”, “Vučićeva” …), evo je lista najčešćih reči:

naslov_reciPozicija na kojoj se nalazi “SAD” je prilično fascinantna. “Godina” i “dan” su prilično standardni pojmovi, razmišljano je i da se izbace, ali nije na kraju. “Vučić” je i dalje neprikosnoveni vladar medijskog prostora, a godinu je obeležio i sve veći broj “izbeglica”. Interesantno je i da je “Zvezda” ispred “Partizana” globalno, a videćemo kasnije i detalje. “Novak” je uspeo da se ušunja na listu na poslednjem mestu (ovde nisu računata i pojavljivanja reči npr. “Đoković”), mada je lični utisak da je on držao prvo mesto cele godine:)

Ako zagrebemo malo više po ovoj listi tako što je razložimo po kategorijama, dobijamo malo veći nivo detalja:

naslov_reci_kategorija

Ostavljam čitaocu da iznese zaključke za svaku od navedenih kategorija, a ima ih, nije da ih nema.

Komentari

Pored vesti, analizirani su i komentari čitalaca. Kao što je gore već navedeno, pričamo o neverovatnoj cifri od preko milion i po komentara ili u proseku 16.2 kometara po vesti. Reći tako nešto a da se ne pokaže distribucija tog broja nije fer, pa evo:

distribucija_broja_komentara

Ovaj grafik pokazuje koliko vesti ima koliko komentara (sa 0 komentara su oko 24.000 vesti, jedan komentar ima malo preko 10.000 itd.). A evo koje kategorije u proseku izazivaju najviše komentara (u obzir su uzete samo kategorije preko 50 vesti):

Kategorija Ukupno vesti Ukupno komentara Prosek komentara po vesti
Eurobasket 378 19041 50.37
US Open 2015 293 13187 45.00
Wimbldon 2015 – Ozmo na travi 47 2052 43.65
Košarka 3704 159725 43.12
Roland Garros 2015 303 12422 40.99
Seks 44 1680 38.18
Politika 5305 198124 37.34
Drugi pišu 80 2822 35.27
Tenis 2462 83489 33.91
Wimbldon 2015 – Vesti 332 10182 30.66
NBA 1075 30372 28.25
Australian Open 2015 372 10011 26.91
Život – Vesti 5157 133710 25.92
Pregled štampe 111 2843 25.61
Nauka 140 3345 23.89

U principu, Srbi očigledno najviše vole da komentarišu seks, i to samo onda kad se umore od komentarisanja tenisa – valjda mislimo da smo u ovim oblastima najupućeniji da ostavimo komentar. Na dnu ove liste (nije prikazano ovde) se ubedljivo nalazi Bulevar koji je na preko 2400 objavljenih vesti uspeo da dobije ukupno… 10 komentara.

Ako pogledamo kad to ostavljamo komentare, vidimo sličnu distribuciju kao i kod vesti:

komentari_dan_nedelje

Ovo nam ništa ne govori. Ako uporedimo ovaj grafik sa prethodnim, možemo da vidimo relativan odnos “koliko vesti dođe nekog dana”, a “koliko se te vesti komentarišu”, pa dobijamo:

komentari_dan_nedelje_relative

Ljudi “ne stižu” da iskomentarišu sve vesti tokom radnih dana, ali zato sve nadoknade vikendima, naročito nedeljom, kad deluje kao da fali vesti. Kad se pogleda slična analiza po satima, kao za vesti, tj. break-down po satima kad ljudi najčešće komentarišu, dobija se slična kriva:

komentari_sat

Kometari manje-više prate izlaženje vesti. U tu svrhu, napravljen je histogram koji pokazuje posle koliko vremena (u minutima) od objavljivanja vesti dolaze komentari:

distribucija_komentaraOK, ovde je prikazana distribucija za jedan dan (1440 minuta), pa se ne vidi najbolje maksimum. Kad zumiramo malo bolje, dobijamo:

distribucija_komentara_zoomIspada da najviše komentara na vest dolazi 30 minuta od njenog objavljivanja. Da li je to prosečno vreme čitanja vesti plus pisanje komentara pre nego što se ostavi komentar? Na osnovu komentara koji se mogu pročitati svaki dan na B92 – teško; deluje da nekad ljudi ne pročitaju ni naslov do kraja pre nego što nešto iskomentarišu. A ko su ti komentatori uopšte? Ako pogledamo imena prvih 10 autora sa najviše komentara, dobijamo prilično dosadnu listu:

autoriOsim što nam govori da su autori najčešće muškarci (štaviše, prvo žensko ime ne kreće tek od 20. mesta), ne možemo da ih povežemo sa konkretnim ljudima. Zato su izbačena sva “uobičajena” imena (gde je primenjena “šac” metoda šta je to definicija uobičajenosti), pa nova lista prvih 15 autora izgleda ovako:

autori2Čestitke za “smuleco-a”, ko god bio – izdominirao je sa 5257 napisanih komentara u 2015. godini. Botovi, ne menjajte imena, pa ćete i vi možda biti na ovoj listi. A evo i koji autori ima najbolje komentare, tj. one sa najviše pluseva:

Autor Broj komentara Prosek pluseva
marko (dorcol) 53 331
sasacg 84 292
nemanjabb 220 264
lion 128 251
markiz 83 242
theriddler 54 241
dexr 72 240
gajetano 190 239
expx 52 238
paspalj 51 234

U obzir su uzeti samo autori sa preko 50 komentara. A evo to isto, samo za najomraženije autore:

Autor Broj komentara Prosek minusa
herr wolf 52 -253
menader 78 -220
ruža 66 -219
tamni vilajet 82 -214
baba 52 -198
vanja petrovic 53 -185
antiparazit 53 -180
fedex1 58 -178
zimzeleni 156 -174
dexr 72 -171

A koji su to komentari najviše pogodili čitaoce da im oni daju plus. Evo je lista top 10 komentara:

Vest Autor Komentar Pluseva
Stefanovic: Vucic prošao poligraf, Branko je Saša aco haha imali smo svasta u proteklih 25 godina ali ovo je neponovljivo 6628
Stefanovic: Vucic prošao poligraf, Branko je Saša Kol Pretpostavljam sa najboljim ocenama! :-D 5432
Vucic: Ne dam Gašica i Loncara Bane Kakav demagog… 5359
Stefanovic: Vucic prošao poligraf, Branko je Saša Mxyed A zašto nije bilo direktnog prenosa ispitivanja ? :) 5171
Vucic: Ne dam Gašica i Loncara …. ako ne das njih,onda ti daj ostavku! 5140
Prostakluk ministra Gašica / VIDEO Persa To je on! To su oni! 4961
Vucic: Ne dam Gašica i Loncara strahinja Šta smo mi bogu zgrešili? 4494
Vucic: Ne dam Gašica i Loncara grbovic Nije problem sto je vojska htela da spase dete, vec je problem sto naredjenje izdaje nestrucan kadar. Dosta vise demagogije. Sta mislite da je narod lud, da ne zna da je zarad politickih poena nastradalo 6 osoba. A ti Vucicu ne moras da ih das. Narod ce Vam sve reci na sledecim izborima. 4462
Prostakluk ministra Gašica / VIDEO Miki Ne razumem u cemu je problem?! Sta ocekivati od takve osobe, koja je iz kafane i gradilista dosla u politiku na neposten nacin. Nije odgovarao za poginule u helikopteru, zasto bi mu bio problem da bilo kome bilo sta kaze. Sutra ce se pojavi i ubedi svoje glasace da je to sve umontirano, namesteno i izvuceno iz konteksta. 4300
Toni Bler u Srbiji, ministri cute Veteran Branio sam svoju zemlju 1999. god od NATO agresora, ciji je lider bio i Toni Bler. Osecam se osramoceno danas. 4282

I ista takva lista za najomraženije komentare (sa najviše minusa):

Hall of Fame

I na kraju, napravljen je pokušaj da se izvadi lista “najpozitivnijih” i “najnegativnijih “vesti, i probano je sa dosta raznih pristupa, ali nikad nije dobijena neka smislena lista. Da li su to vesti koje imaju najviše pluseva na komentarima, ili one koje imaju najviše prosečno pluseva, ili one kojima je odnos pluseva i minusa najveći – suština je da nema dobre metrike da se ovo nađe. Ipak, dok je ovo traženo, nađene su neke vesti koje od ostalih iskaču po raznim kriterijumima, pa će one biti prikazane. Ove vesti takođe daju dobru retrospektivu godine. To je sve, uživajte!

Vesti sa preko 1000 komentara

Vesti sa preko 150.000 pluseva na komentarima

Vesti sa preko 120.000 minusa

Vesti sa preko 600 pluseva u proseku na komentarima

Vesti sa preko 650 minusa u proseku na komentarima

Vesti sa preko 110.000 razlike između pluseva i minusa u komentarima

Vesti sa preko 25.000 razlike između minusa i pluseva u komentarima

Vesti sa preko 500 razlike između pluseva i minusa u komentarima u proseku

Vesti sa preko 300 razlike između minusa i pluseva u komentarima u proseku