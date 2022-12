Každým rokem roste objem informací na internetu. Jak s nimi ve Vyhledávání pracujete?

Aktuálně, v roce 2022, pracujeme se zhruba 4,5 miliardami URL. Nároky uživatelů přitom rostou, chtějí rychlé a přesné odpovědi a bez strojového učení, které naše Vyhledávání využívá v mnoha úlohách, bychom je neměli šanci dodat.

Co všechno si můžeme pod strojovým učením představit?

U strojového učení používáme zpravidla následující postup. Určíme, jaké vlastnosti má mít správný výsledek, a nasbíráme k němu dostatek příkladů. Pomocí takových trénovacích dat (například pro úlohu opravy překlepů si představte desítky tisíc původních uživatelských dotazů a jejich oprav) naučíme technologii odpovídat ve velkém. Výhodou je, že takové řešení v mnoha případech dosahuje lepší kvality než řešení založené na pravidlech. Je ale velmi citlivé na kvalitu trénovacích dat. Dobrá data tedy znamenají dobré odpovědi, proto věnujeme přípravě trénovacích dat velkou pozornost. Je pravda, že při využití tohoto postupu se hůř hledá případná chyba, protože takové krabičce už „do hlavy” nevidíte. Výhody ale převažují, a proto se v technologii vyhledávání na Seznamu skoro nikde nevyskytuje pravidlový přístup a všechna komplexní rozhodování jsou prováděna strojovým učením. První místo, kde se dá setkat se strojovým učením je v naší relevanci a schopnosti porozumět obsahu webových stránek a jak se váže k dotazu, který uživatel položil. Dalšími místy jsou potom například našeptávání dotazů nebo to, jakým způsobem stránku s výsledky pro uživatele sestavíme.

Vyhledávání toho k dnešku umí už opravdu hodně, a zároveň spoustu novinek chystá. Jaké to jsou?

V první řadě nám jde o dobrý uživatelský zážitek. Vyhledávání už není jen deset odkazů, ale spousta dalších užitečných informací v různých podobách. Jestli a kam je dát na stránce s výsledky, určujte technologie Alpaka. Na spoustu dotazů už uživatelé očekávají přímou odpověď, a proto jsme letos spustili a postupně zvyšujeme počet dotazů, které přímo zodpovíme vybranými úryvky ze stránek. Tyto úryvky textu vybírá neuronová síť, kterou používáme i na hledání pomocí významových vektorů, díky nimž zpracujeme i komplikované dotazy uživatelů internetu. Vedlejším produktem našeho výzkumu umělých neuronových sítí je publikace jazykového modelu Small-E-Czech, který mohou pro své účely použít i další firmy a školy, čímž přispíváme k rozmachu používání umělé inteligence na českém trhu.

Jaké další novinky v nedávné době přibyly?

Víme, že u nás uživatelé rádi nakupují, a zároveň víme, že lidé vybírají očima, a to i na mobilu. Proto jsme v průběhu roku znatelně zlepšili kvalitu a rozmanitost obrázkových inzerátů a na podzim jsme nabídli reklamní pozice i na mobilních zařízeních, kde se okamžitě setkaly s velkým úspěchem. Takzvané Zboží Inzeráty doručují inzerentům vyšší konverzní výkon a jejich zásah je hlavně na mobilu oproti loňské hlavní nákupní sezóně několikanásobný. Mimochodem, přes mobil k nám přichází více než polovina dotazů. Firmy si pak takovou reklamu u nás mohou snadno koupit a šťastné jsou obě strany. Uživatel, že si snadno vybral, a inzerent, že u něj nakoupil.

Lidé hledají různé typy informací. My tak nevyrábíme jedno obecné řazení výsledků, které vyřeší všechno, ale máme několik konkrétně zaměřených relevancí a ty souběžně rozvíjíme. Letos jsme například hodně vylepšili výsledky hledání obrázků, zpravodajství nebo dotazů, kde uživatel potřebuje poradit.

Když by chtěl čtenář využít nějaké vychytávky ve Vyhledávání, co by měl hledat?

Můžete zkusit Vánoce, počasí, graf vývoje inflace, stránku trendujících dotazů nebo třeba rozvoj čísla Pí. Novinkou je předpověď extrémního počasí, uživateli umíme nabídnout přehled témat, článků a dalšího obsahu, co se právě na internetu hledá, nebo prezidentský speciál o kandidátech s validací od webu Demagog.cz. V neposlední řadě, ve spolupráci s Národním centrem kybernetických informací, Nadačním fondem nezávislé žurnalistiky a Evropskou unií, uživatele upozorňujeme, že jimi hledaná stránka je považovaná za dezinformační.

