Statistike B92 vesti i komentara u 2015. godini

Autor ni na koji nači nije povezan sa B92. U tekstu su iznete isključivo činjenice dobijene statističkom analizom. Ni originalni podaci, ni njima dobijeni rezultati nisu modifikovani.

Osnovni podaci

2015. godina je prošla. Sa malim zakašnjenjem, ispod je prikazana osnovna analiza sajta B92 i vesti koje su se našle na njemu, kao i komentara i kategorija. Analizom su obuhvaćene sve vesti i komentari objavljeni na B92, od 01.01.2015. do 31.12.2015. Celokupni izvorni kod scraper-a, kao i cela baza podataka se nalazi ovde.

U 2015. godini, B92 je izbacio dosta vesti, i dosta komentara, evo kratak pregled:

Ukupno vesti 100.971
U proseku, vest na svakih: 5 minuta
Ukupno kategorija: 173
Komentara: 1.643.338
U proseku, komentar na svakih: 20 sekundi
Prosek komentara po vesti: 16.2
Ukupan broj pluseva: 175.415.492
U proseku, u jednoj sekundi je padalo: 5.5 pluseva
Ukupan broj minusa: 70.796.238
U proseku, u jednoj sekundi je padalo: 2.4 minusa

 

Pređena je magična cifra od 100.000 vesti godišnje. Čestitke za B92:) Gledajući broj komentara sa ove liste (a pošto su komentari moderisani), ova statistika govori i da su moderatori imali pune ruke posla (zamislite koliko komentara tek nije prošlo moderaciju).

Vesti

 

Evo koje tipove vesti je B92 objavljivao, po kategorijama:

 

vesti_po_kategoriji

 

Ako se gleda kako je B92 objavljivao vesti na dnevnom nivou, primećuje se porast trenda.
vesti_dnevno

 

Na početku godine su izbacivali 263 vesti dnevno, a na kraju čak 288. Ako se nastavi ovaj trend, do 2021. godine će objavljivati 150.000 vesti godišnje ili preko 400 dnevno (ne znam kakve će to vesti biti, ali se nadam da neće porasti broj vesti u kategorijama “politika” i “hronika”). Na prethodnoj slici se i jasno vidi da broj vesti na dnevnom nivou fluktuira od dana do dana. I tako i jeste – broj “vrhova” na prethodnom grafiku je 52, tj. broj nedelja.

 

Evo kako izgleda nedeljna distribucija vesti:

 

vesti_nedeljno

 

Valjda i B92 odmara vikendima.

 

Mnogo interesantnije od ovoga je videti kakva je distribucija vesti po satima, tj. kad se najčešće objavljuju vesti:

 

vesti_sat

 

Na grafiku se vidi kako je vrhunac vesti oko 11h prepodne, kao i dva peak-a – jedan u 17h i jedan oko 21h. Pretpostavka je da ovo nije slučajno. verovatno je rađena analiza i verovatno ljudi tad i najčešće čitaju vesti.

 

Međutim, znajući od malopre da distribucija vesti po danima nije jednaka, hajde da vidimo opet distribuciju vesti po satu, ali razbijenu po danima:

 

vesti_sat_dan

I zapravo, vidi se razlika. Očigledno je da je peak vesti vikendom drugačiji, tačnije 16h je udarni termin (dok je radnim danima to malo pomereno na 17h). Isto tako, subotom se vidi blagi skok oko 20h (dok je radnim danima on oko 21h), a i nedeljom se takođe vidi blagi skok oko 22h koga nema uopšte drugim danima.

 

A šta su bile najčešće teme na objavljenim vestima? Urađena je analiza reči koje su se pojavljivale u naslovima vesti. Ako izbacimo predloge i veznike (“i”, “ili”, “na”, “u”, “ako” i sl.) i ako se ne pravi razlika po raznim mogućim oblicima pojavljivanja reči (“Vučić”, “Vučića”, “Vučićeva” …), evo je lista najčešćih reči:

 

naslov_reci

 

Pozicija na kojoj se nalazi “SAD” je prilično fascinantna. “Godina” i “dan” su prilično standardni pojmovi, razmišljano je i da se izbace, ali nije na kraju. “Vučić” je i dalje neprikosnoveni vladar medijskog prostora, a godinu je obeležio i sve veći broj “izbeglica”. Interesantno je i da je “Zvezda” ispred “Partizana” globalno, a videćemo kasnije i detalje. “Novak” je uspeo da se ušunja na listu na poslednjem mestu (ovde nisu računata i pojavljivanja reči npr. “Đoković”), mada je lični utisak da je on držao prvo mesto cele godine:)

 

Ako zagrebemo malo više po ovoj listi tako što je razložimo po kategorijama, dobijamo malo veći nivo detalja:

 

naslov_reci_kategorija

 

Ostavljam čitaocu da iznese zaključke za svaku od navedenih kategorija, a ima ih, nije da ih nema.

Komentari

 

Pored vesti, analizirani su i komentari čitalaca. Kao što je gore već navedeno, pričamo o neverovatnoj cifri od preko milion i po komentara ili u proseku 16.2 kometara po vesti. Reći tako nešto a da se ne pokaže distribucija tog broja nije fer, pa evo:

 

distribucija_broja_komentara

 

Ovaj grafik pokazuje koliko vesti ima koliko komentara (sa 0 komentara su oko 24.000 vesti, jedan komentar ima malo preko 10.000 itd.). A evo koje kategorije u proseku izazivaju najviše komentara (u obzir su uzete samo kategorije preko 50 vesti):

 

Kategorija Ukupno vesti Ukupno komentara Prosek komentara po vesti
Eurobasket 378 19041 50.37
US Open 2015 293 13187 45.00
Wimbldon 2015 – Ozmo na travi 47 2052 43.65
Košarka 3704 159725 43.12
Roland Garros 2015 303 12422 40.99
Seks 44 1680 38.18
Politika 5305 198124 37.34
Drugi pišu 80 2822 35.27
Tenis 2462 83489 33.91
Wimbldon 2015 – Vesti 332 10182 30.66
NBA 1075 30372 28.25
Australian Open 2015 372 10011 26.91
Život – Vesti 5157 133710 25.92
Pregled štampe 111 2843 25.61
Nauka 140 3345 23.89

 

U principu, Srbi očigledno najviše vole da komentarišu seks, i to samo onda kad se umore od komentarisanja tenisa – valjda mislimo da smo u ovim oblastima najupućeniji da ostavimo komentar. Na dnu ove liste (nije prikazano ovde) se ubedljivo nalazi Bulevar koji je na preko 2400 objavljenih vesti uspeo da dobije ukupno… 10 komentara.

 

Ako pogledamo kad to ostavljamo komentare, vidimo sličnu distribuciju kao i kod vesti:

 

komentari_dan_nedelje

 

Ovo nam ništa ne govori. Ako uporedimo ovaj grafik sa prethodnim, možemo da vidimo relativan odnos “koliko vesti dođe nekog dana”, a “koliko se te vesti komentarišu”, pa dobijamo:

 

komentari_dan_nedelje_relative

 

Ljudi “ne stižu” da iskomentarišu sve vesti tokom radnih dana, ali zato sve nadoknade vikendima, naročito nedeljom, kad deluje kao da fali vesti. Kad se pogleda slična analiza po satima, kao za vesti, tj. break-down po satima kad ljudi najčešće komentarišu, dobija se slična kriva:

 

komentari_sat

 

Kometari manje-više prate izlaženje vesti. U tu svrhu, napravljen je histogram koji pokazuje posle koliko vremena (u minutima) od objavljivanja vesti dolaze komentari:

 

distribucija_komentara

 

OK, ovde je prikazana distribucija za jedan dan (1440 minuta), pa se ne vidi najbolje maksimum. Kad zumiramo malo bolje, dobijamo:

 

distribucija_komentara_zoom

 

Ispada da najviše komentara na vest dolazi 30 minuta od njenog objavljivanja. Da li je to prosečno vreme čitanja vesti plus pisanje komentara pre nego što se ostavi komentar? Na osnovu komentara koji se mogu pročitati svaki dan na B92 – teško; deluje da nekad ljudi ne pročitaju ni naslov do kraja pre nego što nešto iskomentarišu. A ko su ti komentatori uopšte? Ako pogledamo imena prvih 10 autora sa najviše komentara, dobijamo prilično dosadnu listu:

 

autori

 

Osim što nam govori da su autori najčešće muškarci (štaviše, prvo žensko ime ne kreće tek od 20. mesta), ne možemo da ih povežemo sa konkretnim ljudima. Zato su izbačena sva “uobičajena” imena (gde je primenjena “šac” metoda šta je to definicija uobičajenosti), pa nova lista prvih 15 autora izgleda ovako:

 

autori2

 

Čestitke za “smuleco-a”, ko god bio – izdominirao je sa 5257 napisanih komentara u 2015. godini. Botovi, ne menjajte imena, pa ćete i vi možda biti na ovoj listi. A evo i koji autori ima najbolje komentare, tj. one sa najviše pluseva:

 

Autor Broj komentara Prosek pluseva
marko (dorcol) 53 331
sasacg 84 292
nemanjabb 220 264
lion 128 251
markiz 83 242
theriddler 54 241
dexr 72 240
gajetano 190 239
expx 52 238
paspalj 51 234

 

U obzir su uzeti samo autori sa preko 50 komentara. A evo to isto, samo za najomraženije autore:

 

Autor Broj komentara Prosek minusa
herr wolf 52 -253
menader 78 -220
ruža 66 -219
tamni vilajet 82 -214
baba 52 -198
vanja petrovic 53 -185
antiparazit 53 -180
fedex1 58 -178
zimzeleni 156 -174
dexr 72 -171

 

A koji su to komentari najviše pogodili čitaoce da im oni daju plus. Evo je lista top 10 komentara:

 

Vest Autor Komentar Pluseva
Stefanovic: Vucic prošao poligraf, Branko je Saša aco haha imali smo svasta u proteklih 25 godina ali ovo je neponovljivo 6628
Stefanovic: Vucic prošao poligraf, Branko je Saša Kol Pretpostavljam sa najboljim ocenama! :-D 5432
Vucic: Ne dam Gašica i Loncara Bane Kakav demagog… 5359
Stefanovic: Vucic prošao poligraf, Branko je Saša Mxyed A zašto nije bilo direktnog prenosa ispitivanja ? :) 5171
Vucic: Ne dam Gašica i Loncara …. ako ne das njih,onda ti daj ostavku! 5140
Prostakluk ministra Gašica / VIDEO Persa To je on! To su oni! 4961
Vucic: Ne dam Gašica i Loncara strahinja Šta smo mi bogu zgrešili? 4494
Vucic: Ne dam Gašica i Loncara grbovic Nije problem sto je vojska htela da spase dete, vec je problem sto naredjenje izdaje nestrucan kadar. Dosta vise demagogije. Sta mislite da je narod lud, da ne zna da je zarad politickih poena nastradalo 6 osoba. A ti Vucicu ne moras da ih das. Narod ce Vam sve reci na sledecim izborima. 4462
Prostakluk ministra Gašica / VIDEO Miki Ne razumem u cemu je problem?! Sta ocekivati od takve osobe, koja je iz kafane i gradilista dosla u politiku na neposten nacin. Nije odgovarao za poginule u helikopteru, zasto bi mu bio problem da bilo kome bilo sta kaze. Sutra ce se pojavi i ubedi svoje glasace da je to sve umontirano, namesteno i izvuceno iz konteksta. 4300
Toni Bler u Srbiji, ministri cute Veteran Branio sam svoju zemlju 1999. god od NATO agresora, ciji je lider bio i Toni Bler. Osecam se osramoceno danas. 4282

 

I ista takva lista za najomraženije komentare (sa najviše minusa):

 

 

Hall of Fame

 

I na kraju, napravljen je pokušaj da se izvadi lista “najpozitivnijih” i “najnegativnijih “vesti, i probano je sa dosta raznih pristupa, ali nikad nije dobijena neka smislena lista. Da li su to vesti koje imaju najviše pluseva na komentarima, ili one koje imaju najviše prosečno pluseva, ili one kojima je odnos pluseva i minusa najveći – suština je da nema dobre metrike da se ovo nađe. Ipak, dok je ovo traženo, nađene su neke vesti koje od ostalih iskaču po raznim kriterijumima, pa će one biti prikazane. Ove vesti takođe daju dobru retrospektivu godine. To je sve, uživajte!

 

Vesti sa preko 1000 komentara

 

 

Vesti sa preko 150.000 pluseva na komentarima

 

 

Vesti sa preko 120.000 minusa

 

 

Vesti sa preko 600 pluseva u proseku na komentarima

 

Vesti sa preko 650 minusa u proseku na komentarima

 

Vesti sa preko 110.000 razlike između pluseva i minusa u komentarima

 

Vesti sa preko 25.000 razlike između minusa i pluseva u komentarima

 

Vesti sa preko 500 razlike između pluseva i minusa u komentarima u proseku

 

Vesti sa preko 300 razlike između minusa i pluseva u komentarima u proseku

This entry was posted in Analitika, Politika and tagged , . Bookmark the permalink. Follow any comments here with the RSS feed for this post. Post a comment or leave a trackback.

9 Comments

  1. Radojković
    Posted 20.01.2016 at 00:29 | Permalink

    Legendo, odakle ti dataset? :-)))

    p.s. Učlani se u grupu: https://www.linkedin.com/groups/8467091 :-)

  2. Radojković
    Posted 20.01.2016 at 01:02 | Permalink

    Opet ja, izvini… :-) Bilo bi jako zanimljivo prikazati dinamiku rasta broja komentara i pluseva/minuseva na “običnoj” vesti i onoj “botovanoj”, pa konstruisati neki klasifikator. :-)

    • kokan
      Posted 20.01.2016 at 11:14 | Permalink

      Odgovaram direktno na mail:)

  3. Marko
    Posted 21.01.2016 at 13:59 | Permalink

    Vrlo zabavan tekst. Svaka čast. Više vremena sam proveo čitajuci ovo, nego B92 tokom cele 2015te, ali ko im je kriv kad ništa pametno na B92 nema da se vidi

    • kokan
      Posted 21.01.2016 at 21:09 | Permalink

      Ha ha, hvala na lepim recima!

  4. pedja
    Posted 23.01.2016 at 01:10 | Permalink

    Svaka čast na analizi, veoma zanimljivo. I kao što neko reče, B92 bi ti trebao platiti za ovo :)

    • kokan
      Posted 23.01.2016 at 17:42 | Permalink

      Ne sumnjam da oni ovo mogu da sami urade (i lakse od mene), ali ne verujem da bi podelili sa svima:) A bolje da ne znaju za ovo, sto se mene tice:)

  5. vn
    Posted 23.01.2016 at 06:30 | Permalink

    Odlična i zabavna analiza. Da probam da pomognem koristeći bogato insajdersko znanje (mada ne iz prošle godine).
    Porast broja komentara četvrtkom je sports-related (tad su prime sadržaji tog tipa Liga Evrope i Evroliga).
    Vikendom je uvek bilo manje vesti nego radnim danima, netreba smetnuti s uma detalj da puno radno vreme kreće od 7 radnim danom, a uglavnom tek od 9 vikendom, plus izostaje kompletan podnevni zamah. Zapravo me najviše iznenađuje relativno mali broj vesti ponedeljkom.
    Inače, bilo je ranijih godina (2010-13 svakako) i preko 100 hiljada vesti u godini, standard je bio u jednom periodu bio preko 300 vesti dnevno. Naravno, treba dodati da je broj ljudi koji danas radi na b92.net prilično manji nego 2010.
    Zabavan je i detalj da je u sportu broj komentara mnogo veći posle poraza (izveštaj sa SCG-Argentina 0-6 je dugo držao rekord), a jedini izuzetak su epski uspesi, na koje onda stvarno dolaze i oni koji ne komentarišu redovno.
    Posebno mi se dopada plus-minus analiza, to nikad nije rađeno ozbiljno, a posebno je atraktivna u ovo botovsko doba.
    E sad, to su samo brojevi za odobrene komentare, zamislite šta ima neodobreno (dugo je na svaki odobreni dolazilo između 2.5 i tri odbijena komentara, ali je već 2-3 godine selekcija znatno manje represivna).
    I samo još jedna sitnica, u podeli po oblastima Info je sekcija (čiji delovi su oblasti Svet, Politika, Društvo…), ekvivalent Sportu, npr (čije oblasti su Fudbal, Košarka, Tenis…). Bulevar bi trebalo da je takođe sekcija (ne znam da li se deli na nešto Srpska posla mi deluju kao oblast unutar njega, ali to već ne mogu da potvrdim). Nisam siguran šta su Vesti u ovakvoj podeli (svaka sekcija ima Vesti kao većinski tip sadržaja, nasuprot npr. Intervjuima i Analizama).

  6. Posted 23.01.2016 at 11:06 | Permalink

    Bilo bi interesantno videti statistiku pravopisnih grešaka u vestima, s obzirom da su se tu baš potrudili u prošloj godini.

1 Trackback

  1. […] ako vam se sviđaju ove moje debilne analize sa ovako random temama, onda će vam se sigurno svidi i datatata blog od mog […]

Leave a Reply

Your email address will not be published. Required fields are marked *

Your email address will never be published.