Co říkají velká data o prvním kole volby prezidenta

Miloš Zeman první kolo nadcházející prezidentské volby vyhraje, nadpoloviční většinu hlasů nezíská, říká analýza společnosti Semantic Visions na základě velkých dat z internetu. Jí analyzovaná data rovněž narozdíl od průzkumů indikují daleko vyrovnanější souboj dvojice Jiří Drahoš a Michal Horáček – zatímco o Jiřím Drahošovi se na internetu o něco víc mluví, Michal Horáček disponuje nadějnějším trendem výsledného sentimentu.

Analýza velkých dat z internetu poskytuje cenný doplňující obraz k průzkumům veřejného mínění. Oproti klasickým sociologickým průzkumům, které jsou díky stále různorodější a dynamičtější společnosti méně a méně průkazné, má analýza velkých dat několik předností. Za prvé může být činěna průběžně, což je z pohledu identifikace a pochopení trendů důležité. Za druhé, bere v potaz daleko větší množství vstupních dat a jejich zdrojů. To je z pohledu statistky zjevnou výhodou. A za třetí, výsledky jsou konzistentnější a objektivnější, protože hodnocení se děje po celou dobu stejnými algoritmy, které měří všem stejně.

Výsledky naší analýzy korespondují se zveřejněnými výsledky průzkumů v tom, že Miloš Zeman první kolo vyhraje a určitě nezíská nadpoloviční většinu hlasů. Naše výsledky oproti provedeným průzkumům ukazují odlišnou situaci ohledně druhého a třetího místa. Jako postupujícího do druhého kola průzkumy výrazně favorizují Jiřího Drahoše, velká data z internetu však indikují daleko vyrovnanější souboj dvojice Jiří Drahoš a Michal Horáček. Zatímco o Jiřím Drahošovi se na internetu o něco víc mluví, Michal Horáček disponuje nadějnějším trendem výsledného sentimentu.

Naše analytická data dál ukazují, že v posledním období významně boduje Pavel Fischer. Ten však na druhou metu nedosáhne, doplatí tak na svůj pozdní vstup do prezidentského závodu. Do role černého koně se stylizující Mirek Topolánek rovněž neuspěje. V online médiích je prezentován velmi kontroverzně a obraz jeho sentimentu se jako jediný podobá obrazu Miloše Zemana.

Podle našich dat ve výsledcích prvního kola budou následovat Marek Hilšer a Vratislav Kulhánek.

Jiřího Hynka a Petra Hanniga jsme neanalyzovali, a to s ohledem na jejich pouze teoretickou šanci probojovat se do druhého kola.

Následuje 10 podrobnějších pohledů se stručným popisem.

Metodika analýzy

Semantic Visions použila obdobný přístup jako v případě své úspěšné predikce parlamentních voleb 2010 ve Velké Británii (pro CNN), prezidentských voleb 2012 a 2016 ve Spojených státech, jakož i minulých českých prezidentských voleb [viz tisková zpráva]. Zjednodušeně řečeno, o volebních výsledcích rozhoduje všeobecná známost osoby (celkový počet článků a zmínek v médiích), její vnímání (poměr pozitivních
a negativních zmínek v médiích) a v konečné fázi kampaně i jejich vzájemná dynamika.

Hodnoceným obdobím bylo 1. října 2017 až 9. ledna 2018. Analyzovalo se celkem 439.687 článků získaných z celkem 3.981 online zdrojů (zpravodajské portály a blogy) publikujících v češtině. V této množině článků bylo automaticky identifikováno 78.770 zmínek o jednotlivých kandidátech, které byly dál podrobeny detailní analýze sentimentu  / emočního náboje (u všech kandidátů byly aplikovány stejné algoritmy).

Součet relevancí. Horní graf ukazuje absolutní hodnoty "jak moc se tom kterém kandidátovi píše", navazuje na něj standardizovaný graf ve spodní části ukazující relativní hodnoty

Součet relevancí. Horní graf ukazuje absolutní hodnoty “jak moc se tom kterém kandidátovi píše”, navazuje na něj standardizovaný graf ve spodní části ukazující relativní hodnoty. Kliknutím zvětšíte

Vícedimenzionální graf za celé hodnocené období (1. října 2017 až 9. ledna 2018). Čím výš je bublina příslušného kandidáta, tím víc se o něm píše. Čím je pozice víc vlevo, tím negativnější je celkový sentiment kandidáta. A naopak, čím je pozice víc vpravo, tím má příslušný kandidát pozitivnější celkový sentiment. Ideální pozice je vpravo nahoře, nejhorší potom vlevo dole.

Vícedimenzionální graf za celé hodnocené období (1. října 2017 až 9. ledna 2018). Čím výš je bublina příslušného kandidáta, tím víc se o něm píše. Čím je pozice víc vlevo, tím negativnější je celkový sentiment kandidáta. A naopak, čím je pozice víc vpravo, tím má příslušný kandidát pozitivnější celkový sentiment. Ideální pozice je vpravo nahoře, nejhorší potom vlevo dole. Kliknutím zvětšíte

Tento graf zobrazuje výsledky za posledních 10 týdnů, tedy za období 6. listopadu 2017 až 9. ledna 2018

Tento graf zobrazuje výsledky za posledních 10 týdnů, tedy za období 6. listopadu 2017 až 9. ledna 2018. Kliknutím zvětšíte

Tento graf zobrazuje výsledky za posledních pět týdnů, tedy za období 11. prosince 2017 až 9. ledna 2018

Tento graf zobrazuje výsledky za posledních pět týdnů, tedy za období 11. prosince 2017 až 9. ledna 2018. Kliknutím zvětšíte

Tento graf zobrazuje výsledky za posledních dva týdny, tedy za období 1. ledna 2018 až 9. ledna 2018

Tento graf zobrazuje výsledky za posledních dva týdny, tedy za období 1. ledna 2018 až 9. ledna 2018. Kliknutím zvětšíte

Graf sentiment analýzy Miloše Zemana za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment.

Graf sentiment analýzy Miloše Zemana za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment. Kliknutím zvětšíte

Graf sentiment analýzy Jiřího Drahoše za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment.

Graf sentiment analýzy Jiřího Drahoše za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment. Kliknutím zvětšíte

Graf sentiment analýzy Michala Horáčka za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment.

Graf sentiment analýzy Michala Horáčka za celé hodnocené období (1. října 2017 až 9. ledna 2018). Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment. Kliknutím zvětšíte

Graf sentiment analýzy Pavla Fischera za období 9. listopadu 2017 až 9. ledna 2018. Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment.

Graf sentiment analýzy Pavla Fischera za období 9. listopadu 2017 až 9. ledna 2018. Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment. Kliknutím zvětšíte

Graf sentiment analýzy Mirka Topolánka období 9. listopadu 2017 až 9. ledna 2018. Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment.

Graf sentiment analýzy Mirka Topolánka období 9. listopadu 2017 až 9. ledna 2018. Zelená křivka zobrazuje trend pozitivního sentimentu a červená křivka negativní sentiment. Šedé sloupce potom reprezentují tzv. výsledný sentiment (tj. pozitivní minus negativní) za každý jednotlivý den. Nad osou x sloupce ukazují celkově kladný výsledný sentiment, pod osou x sloupce ukazují celkově negativní výsledný sentiment. Kliknutím zvětšíte

Profil společnosti Semantic Visions

Česká společnost Semantic Visions, kterou většinově vlastní investiční Pale Fire Capital, menšinově František Vrabel prostřednictvím své firmy Vrabel, je světovým lídrem v oblasti zpravodajství z otevřených zdrojů (OSINT). Provozujem unikátní zpravodajský systém zaměřený na sémantické a statistické zpracování takzvaných velkých dat, informací z volně dostupných zdrojů uveřejňovaných na internetu. V minulosti získala několik světových technologických cen. Má víc než desetileté zkušenosti s velkoobjemovým sběrem dat a automatickým porozumění textových informací napříč deseti nejdůležitějšími světovými jazyky nepočítaje v to češtinu, v níž rovněž pracuje.

Systém společnosti Semantic Visions zpracovává 90 % světového zpravodajského obsahu a uvádí, že je z řady ohledů výkonnější než Google. Poskytuje přesné analytické informace generované v reálném čase, které jsou využívané v oblasti detekce hrozeb a strategických analýz. Mezi nejdůležitější reference společnosti patří SAP Ariba, největší světová business commerce platforma na světě, přes kterou velké světové firmy ročně nakoupí zboží a služby v přepočtu za víc než 30 bilionů Kč.

Autor analýzy je ředitelem a spolumajitelem Semantic Visions