Analýza velkých dat z internetu poskytuje cenný doplňující obraz k průzkumům veřejného mínění. Oproti klasickým sociologickým průzkumům, které jsou díky stále různorodější a dynamičtější společnosti méně a méně průkazné, má analýza velkých dat několik předností. Za prvé může být činěna průběžně, což je z pohledu identifikace a pochopení trendů důležité. Za druhé, bere v potaz daleko větší množství vstupních dat a jejich zdrojů. To je z pohledu statistky zjevnou výhodou. A za třetí, výsledky jsou konzistentnější a objektivnější, protože hodnocení se děje po celou dobu stejnými algoritmy, které měří všem stejně.
Výsledky naší analýzy korespondují se zveřejněnými výsledky průzkumů v tom, že Miloš Zeman první kolo vyhraje a určitě nezíská nadpoloviční většinu hlasů. Naše výsledky oproti provedeným průzkumům ukazují odlišnou situaci ohledně druhého a třetího místa. Jako postupujícího do druhého kola průzkumy výrazně favorizují Jiřího Drahoše, velká data z internetu však indikují daleko vyrovnanější souboj dvojice Jiří Drahoš a Michal Horáček. Zatímco o Jiřím Drahošovi se na internetu o něco víc mluví, Michal Horáček disponuje nadějnějším trendem výsledného sentimentu.
Naše analytická data dál ukazují, že v posledním období významně boduje Pavel Fischer. Ten však na druhou metu nedosáhne, doplatí tak na svůj pozdní vstup do prezidentského závodu. Do role černého koně se stylizující Mirek Topolánek rovněž neuspěje. V online médiích je prezentován velmi kontroverzně a obraz jeho sentimentu se jako jediný podobá obrazu Miloše Zemana.
Podle našich dat ve výsledcích prvního kola budou následovat Marek Hilšer a Vratislav Kulhánek.
Jiřího Hynka a Petra Hanniga jsme neanalyzovali, a to s ohledem na jejich pouze teoretickou šanci probojovat se do druhého kola.
Následuje 10 podrobnějších pohledů se stručným popisem.
Metodika analýzy
Semantic Visions použila obdobný přístup jako v případě své úspěšné predikce parlamentních voleb 2010 ve Velké Británii (pro CNN), prezidentských voleb 2012 a 2016 ve Spojených státech, jakož i minulých českých prezidentských voleb [viz tisková zpráva]. Zjednodušeně řečeno, o volebních výsledcích rozhoduje všeobecná známost osoby (celkový počet článků a zmínek v médiích), její vnímání (poměr pozitivních
a negativních zmínek v médiích) a v konečné fázi kampaně i jejich vzájemná dynamika.
Hodnoceným obdobím bylo 1. října 2017 až 9. ledna 2018. Analyzovalo se celkem 439.687 článků získaných z celkem 3.981 online zdrojů (zpravodajské portály a blogy) publikujících v češtině. V této množině článků bylo automaticky identifikováno 78.770 zmínek o jednotlivých kandidátech, které byly dál podrobeny detailní analýze sentimentu / emočního náboje (u všech kandidátů byly aplikovány stejné algoritmy).
Profil společnosti Semantic Visions
Česká společnost Semantic Visions, kterou většinově vlastní investiční Pale Fire Capital, menšinově František Vrabel prostřednictvím své firmy Vrabel, je světovým lídrem v oblasti zpravodajství z otevřených zdrojů (OSINT). Provozujem unikátní zpravodajský systém zaměřený na sémantické a statistické zpracování takzvaných velkých dat, informací z volně dostupných zdrojů uveřejňovaných na internetu. V minulosti získala několik světových technologických cen. Má víc než desetileté zkušenosti s velkoobjemovým sběrem dat a automatickým porozumění textových informací napříč deseti nejdůležitějšími světovými jazyky nepočítaje v to češtinu, v níž rovněž pracuje.
Systém společnosti Semantic Visions zpracovává 90 % světového zpravodajského obsahu a uvádí, že je z řady ohledů výkonnější než Google. Poskytuje přesné analytické informace generované v reálném čase, které jsou využívané v oblasti detekce hrozeb a strategických analýz. Mezi nejdůležitější reference společnosti patří SAP Ariba, největší světová business commerce platforma na světě, přes kterou velké světové firmy ročně nakoupí zboží a služby v přepočtu za víc než 30 bilionů Kč.
Autor analýzy je ředitelem a spolumajitelem Semantic Visions