Pozor: newsletter, o který si tolik píšete, budeme v červenci a v srpnu posílat pouze v pondělí, ve 12.

Co říkají velká data o druhém kole volby prezidenta

Finální kolo prezidentské volby nemá favorita, ukazuje analýza společnosti Semantic Visions na základě velkých dat z internetu. O výsledku rozhodne volební účast. Čím víc lidí k volbám přijde, tím větší je šance Jiřího Drahoše stát se čtvrtým prezidentem Česka.

Navažme dnes na naši analýzu k prvnímu kolu prezidentských voleb, kterou jsme publikovali 11. ledna 2018 (komentář k jejím výsledkům uvádím níže), a zopakujme, že analýza velkých dat z internetu poskytuje cenný doplňující obraz k průzkumům veřejného mínění. Oproti klasickým sociologickým průzkumům, které jsou díky stále různorodější a dynamičtější společnosti méně a méně průkazné, má analýza velkých dat několik předností. Za prvé může být činěna průběžně, což je z pohledu identifikace a pochopení trendů důležité. Za druhé, bere v potaz daleko větší množství vstupních dat a jejich zdrojů. To je z pohledu statistky zjevnou výhodou. A za třetí, výsledky jsou konzistentnější a objektivnější, protože hodnocení se děje po celou dobu stejnými algoritmy, které měří všem stejně.

Na základě velkých dat z internetu lze tedy předpovědět, že druhé, finální kolo prezidentské volby nemá dopředu známého vítěze. O výsledku rozhodne volební účast. Čím víc lidí k volbám přijde, tím větší je šance Jiřího Drahoše stát se čtvrtým prezidentem České republiky.

Výsledky naší analýzy k druhému kolu nelze dost dobře srovnat s aktuálními výsledky seriózních průzkumů veřejného mínění, protože tyto de facto neexistují. Respektované agentury na ně neměly potřebný čas a všem je jasné, že s extrémně krátkou kampaní druhého kola je spojená značná dynamika. K její kulminaci navíc dochází až v samém závěru, tedy v posledních dnech a hodinách. Tedy v období, kdy se už průzkumy veřejného mínění ze zákona zveřejňovat nesmí.

Metodika analýzy

Hodnoceným obdobím bylo 1. až 25. ledna 2018 (do 14.30). Analyzovalo se celkem 106.230 článků získaných z celkem 3.981 online zdrojů (zpravodajské portály a blogy) publikujících v češtině. V této množině článků bylo algoritmicky identifikováno 58.469 zmínek o jednotlivých kandidátech, které byly dál podrobeny detailní analýze sentimentu / emočního náboje (u obou kandidátů byly aplikovány stejné algoritmy) a také kontextuální analýze.

Podle zkušeností Semantic Visions o volebních výsledcích rozhoduje všeobecná známost kandidátů (jak moc se o nich v médiích píše), jejich emoční náboj (poměr pozitivních a negativních zmínek v médiích) a v konečné fázi kampaně i vzájemná dynamika jejich emočních nábojů.

Váha jednotlivých online médií

Váha jednotlivých online médií před 2. kolem prezidentské volby

Váha jednotlivých online médií před 2. kolem prezidentské volby

Graf ukazuje, kolik obsahu ke druhému kolu publikovaly jednotlivé zdroje. Zde bychom upozornili na nezanedbatelný vliv prokremelských webů – například na osmém místě umístěný zdroj Novarepublika.cz.

Zeman je častěji zmiňován, Drahoš má pozitivnější emoční náboj

Miloš Zeman využívá svoji výhodu, že je prezidentem, a umně rozehrává partii ohledně jmenování vlády. Především díky této své roli je v médiích zastoupen víc než jeho protikandidát.

Součet relevancí

Součet relevancí

Jak je vidět z výše uvedených grafů, Zemanova převaha v objemu ale není dostatečná na to, aby Drahošovi vzal šanci ve druhém kole vyhrát. Zejména když Drahoš disponuje stabilnějším a pozitivnějším emočním nábojem. A jak všichni víme, nerozhodnutí voliči, o které se ve druhém kole především hraje, se nakonec rozhodnou právě na základě svých emocí (do značné míry konstituovaných médii).

Výsledný sentiment

Výsledný sentiment

Podpora migrace jako klíčový narativ Zemana proti Drahošovi

Důležitost emocí je samozřejmě známa oběma soupeřícím táborům. Zatímco Drahoš sází na pozitivní sdělení krystalizované do volebního hesla Zvolme změnu, Zeman se snaží vyhrát přes negativní sdělení, to je strašením voličů migranty a snahou vykreslit Drahoše jako jejich vítače. Toto je ústřední narativ Zemanovy kampaně před druhým kolem, jak je koneckonců vidět z následujícího grafu.

K tématu migrace

K tématu migrace

Níže uvedený graf se soustředí na vrchol počtu článků vztažených k migraci a Jiřímu Drahošovi, to je na 18. ledna 2018. Graf ukazuje, které zdroje o tom píší nejvíc. Vidíme v nich nezanedbatelnou roli prokremelských zdrojů.

Zdroje k migraci

Zdroje k migraci

Role dezinformací

Ponecháme-li stranou fakt, že ústřední narativ Zemanovy kampaně je jednoznačnou dezinformací, dovolte nám upozornit na zajímavý příklad poměrně zastřené formy dezinformace, respektive jejího využití. Jde o zhodnocení první společné debaty na Primě. Ti, kdo debatu skutečně sledovali a nejsou součástí Zemanova pevného voličského jádra, byli překvapeni z toho, jak o ní média následně referovala – velmi ve prospěch Zemana. Už hodinu a půl po skončení večerní debaty dostaly přes ČTK širokou publicitu názory juniorních a málo známých analytiků (Martin Joachymstál, Alžběta Králová). A přitom právě rychlost je z pohledu formování názoru veřejnosti důležitá. Zpráva ČTK s titulkem Zeman podle expertů Drahoše v debatě předčil, kritizovali formát rychle přebíraná dalšími vlivnými médii udala tón hodnocení mediálního mainstreamu. Důkazem tohoto tvrzení je výstup z našeho systému ukazující skupinu článků, které se od předmětného článku ČTK odvinuly.

K šíření názorů na televizní debatu

K šíření názorů na televizní debatu

K naší analýze před prvním kolem volby

V naší analýze k prvnímu kolu prezidentské volby jsme uvedli: „Miloš Zeman první kolo nadcházející prezidentské volby vyhraje, nadpoloviční většinu hlasů nezíská. Analyzovaná data rovněž na rozdíl od průzkumů indikují daleko vyrovnanější souboj dvojice Jiří Drahoš a Michal Horáček – zatímco o Jiřím Drahošovi se na internetu o něco víc mluví, Michal Horáček disponuje nadějnějším trendem výsledného sentimentu.“ Ve druhé části naší předpovědi jsme se zjevně netrefili. Důvodem byla značně změněná dynamika vývoje sentimentu v posledních dnech před volbou. Tuto dynamiku však naše analýza nebrala v potaz, protože jsme vycházeli z datové řady končící k úterý 9. lednu 2018. V posledních třech dnech Michal Horáček ve výsledném sentimentu významně ztratil – a to právě ve prospěch Jiřího Drahoše a obou skokanů prvního kola, to je Pavla Fischera a Marka Hilšera. Dokladem popsaného vývoje je zpětný pohled do naší databáze na období 1. až čtvrtek 11. ledna 2018.

Sentiment v období 1. ledna až 11. ledna 2018

Výsledný sentiment v období 1. až 11. ledna 2018

Profil společnosti Semantic Visions

Česká společnost Semantic Visions, kterou většinově vlastní investiční Pale Fire Capital, menšinově František Vrabel prostřednictvím své firmy Vrabel, je světovým lídrem v oblasti zpravodajství z otevřených zdrojů (OSINT). Provozujem unikátní zpravodajský systém zaměřený na sémantické a statistické zpracování takzvaných velkých dat, informací z volně dostupných zdrojů uveřejňovaných na internetu. V minulosti získala několik světových technologických cen. Má víc než desetileté zkušenosti s velkoobjemovým sběrem dat a automatickým porozumění textových informací napříč deseti nejdůležitějšími světovými jazyky nepočítaje v to češtinu, v níž rovněž pracuje.

Systém společnosti Semantic Visions zpracovává 90 % světového zpravodajského obsahu a uvádí, že je z řady ohledů výkonnější než Google. Poskytuje přesné analytické informace generované v reálném čase, které jsou využívané v oblasti detekce hrozeb a strategických analýz. Mezi nejdůležitější reference společnosti patří SAP Ariba, největší světová business commerce platforma na světě, přes kterou velké světové firmy ročně nakoupí zboží a služby v přepočtu za víc než 30 bilionů Kč.

Autor analýzy je ředitelem a spolumajitelem Semantic Visions