Tomáš Hubínek z BigHub: Pokud firmy nevěnují pozornost ani svým datům, tak chápu, že AI je naprosto neuchopitelná

Tomáš Hubínek je Co-founder & COO ve společnosti BigHub, která mezi členy České asociace umělé inteligence nemůže chybět. Na kontě má totiž zástup zajímavých AI řešení pro klienty z různých oblastí byznysu od energetiky přes telekomunikace až po logistiku. V rozhovoru s Tomášem jsme se zaměřili na aktuální stav na trhu, zajímavé výzvy i příležitosti. Více již v odpovědích níže.

BigHub se od roku 2016 zaměřuje na pokročilou analýzu dat, strojové učení, cloud, umělou inteligence a vývoj aplikací. Jak se v průběhu let mění zájem o tyto služby, a to i s přihlédnutím k aktuálnímu rychlému rozvoji AI?

Zájem stále roste. V průběhu let přišlo několik vln, které dostaly do popředí některou z oblastí. Podle mě byl zcela zásadní nástup open-source v datové analytice, typicky Spark, TensorFlow, nebo Airflow, který odemkl potenciál AI. Musím zmínit ale i vlnu big dat, cloudu, MLOps a nyní jsme na vlně generativního AI.

Obecně bylo v našich začátcích, tedy kolem roku 2016, mnohem těžší se k AI projektům dostat, potýkali jsme se s větší nedůvěrou. Analytické projekty byly složitější, zejména kvůli kvalitě dat v organizacích a nedostatečné připravenosti infrastruktury. Často jsme museli přesvědčovat klienty o výhodách cloudu. Nyní s nimi pracujeme na škálování jejich AI infrastruktury a řešení MLOps.

Díky bohu už jsou firmy mnohem dál, což je častěji případ velkých nebo technologicky orientovaných společností. Ale když se zaměříme na typickou středně velkou českou firmu, často nahlédneme skoro do minulosti.

Vaší primární doménou je aplikovaná umělá inteligence. Dle posledních statistik jsou však české firmy ve využívání AI pod průměrem Evropské unie. Dokáže vysvětlit, čím to může být způsobeno?

Využití AI u nás by mohlo být podstatně vyšší. Jak jsem už zmiňoval, platí to především pro malé a střední podniky. Mnoho z nich v rámci své činnosti nevyužívá ani klasickou datovou analytiku a nepřemýšlí nad ní, i když by mohly a rozhodně měly. A pokud nevěnují pozornost ani svým datům, tak chápu, že AI je naprosto neuchopitelná, a raději nedělají vůbec nic.

Řešením je osvěta a zprostředkování odborné konzultace doménových expertů. V Česku na to mechanismy máme, například takhle spolupracujeme se Středočeským inovačním centrem, fandíme i aktivitám, jako je vaše asociace.

Jaké jsou typicky největší problémy, se kterými se potýkají firmy v oblasti dat?

U nás se zaměřujeme hlavně na velké korporace. Tam je nejčastějším problémem absence jasné dlouhodobější datové strategie. Často se přichází s ukvapenými a nekoncepčními projekty, které víc stojí než přinášejí, a jedinou motivací je, aby si jen odškrtly kolonku v KPI s názvem AI. 

My firmám pomáháme integrovat AI do jejich každodenního byznysu, do operací, kde to má skutečný význam, kde AI zlepšuje službu zákazníkům, pomáhá šetřit, nebo naopak vydělávat peníze. Díky generativnímu AI je to nyní mnohem snazší i pro menší firmy, které dříve o AI nepřemýšlely.

Váš tým má expertizu v oblasti MLOps, tedy v efektivním nasazení a udržování modelů strojového učení v produkci. Jsou rostoucí náklady na provoz a údržbu modelů strojového učení ve firemním prostředí častou komplikací?

Spíš je to organicky vznikající potřeba. Firmy někdy podcení náklady spojené s provozem a údržbou těchto modelů. Zpočátku, když firma používá jen jeden nebo dva modely, je to řešitelné. Ale jak projektů přibývá, stává se to komplikovanější.

U klientů, kde máme možnost být u zrodu prvních projektů, se vždy snažíme, aby se na tuto „budoucí“ otázku myslelo hned od začátku.

Datová řešení v dnešní době není nutné vytvářet od nuly, open source umožňuje řešení také různě skládat. Jaká zde však v praxi existují rizika a jak jim předcházíte?

Riziko vidím především v kompatibilitě jednotlivých komponent a dlouhodobém provozu. Je potřeba dělat upgrady, řešit možné výpadky systému, spravovat a škálovat prostředí, na kterém to běží, což stojí čas a peníze.

V dnešní době jsou naštěstí datové technologie vyspělejší. Už to není jako v našich začátcích, kdy bylo ještě k tomu plno bugů a často jsme museli upravovat přímo zdrojový kód. Nicméně, i když jsou dnes technologie stabilnější, pokud si sami provozujete open source řešení, určité starosti s provozem se vám nevyhnou. Potřebujete na to mít specialistu, který se o to postará.

Open source technologie jsou pro stavbu datové a AI infrastruktury zásadní, doporučujeme je ale používat skrze komponenty přímo v daném cloudu. Spustíte je na klik, mají zajištěnu kompatibilitu, ale hlavně v cloudu k nim máte potřebné záruky (SLA) a podporu.

Když se podíváme na konkrétní příklady, jedno z vašich řešení se zaměřuje na detekci černého odběru elektřiny. Jak takové řešení funguje v praxi?

Většinou jde o nelegální připojení na elektrické vedení nebo upravení elektroměru tak, aby se účet za elektřinu snížil. Spolupracovali jsme se zákazníkem na stanovení hypotéz, jak identifikovat takové situace pomocí AI. Mnoho těchto hypotéz se potvrdilo v praxi, což vedlo k objevení podezřelých míst. Kromě detekce černého odběru jsme pomocí AI také optimalizovali chod elektrárny a vyvinuli aplikaci pro chytré odečty elektřiny. V energetice máme řadu úspěšných implementací AI a je to jeden z našich důležitých sektorů.

Zaujalo nás vaše řešení vyhodnocování podvodných zásilek v logistice v reálném čase. Širší veřejnost vnímá AI (především kvůli generativním aplikacím) jako technologii, kde je třeba si na výsledek počkat i několik sekund. Co je základem rychlého vyhodnocení? Je možné říct, že čím rychlejší má řešení být, tím méně spolehlivé je? Jinými slovy je nutné přistoupit na nějaké kompromisy?

Obecně se to říct nedá. Pomalá rychlost není většinou o kompromisech, ale o zastaralé infrastruktuře nebo nevyhovující architektuře celého řešení. V tomto případě jsme řešili inženýrský problém, kde bylo klíčové zajistit rychlou reakci při enormní zátěži a současně minimalizovat náklady na infrastrukturu a provoz. 

Při vyhodnocování podvodných zásilek v logistice jsme se z pohledu AI nejvíce zaměřovali na klasifikační úlohu určení pravděpodobnosti podvodu. Rád tento příklad používám také pro ukázku toho, že i když je trénování modelu samo o sobě časově náročné, zásadní je, jak funguje při vyhodnocení v praxi, aby měl klient informace s minimálním zpožděním, a to buď na tabletu nebo v mobilu.

K informacím, které jsme obdrželi o zásilce, jsme museli během vyhodnocení napojit i informace o historii klientů z jiných databází, sestavit feature vector a co nejrychleji provolat model. Potřebovali jsme optimalizovat práci s operační pamětí a mimo jiné využili in-memory databázi Redis. Následovaly integrace, synchronizace, testování v provozu, správa a pravidelné přetrénovávání modelu.

Jsem na tuhle naši práci hrozně moc hrdý, stejně tak na lidi, kteří na tom dělali. Technologicky je to na super úrovni, proto o ni rád mluvím. To hlavní však je, že funguje a reálně pomáhá odhalovat podvodníky a dělá svět o něco lepším. A v tom vidím hlavní smysl naší práce.

V logistice ještě zůstaňme. Dovolíme si však trošku utéct od prediktivních analýz, optimalizace tras a snižování ekologického dopadu logistických operací. Jaký je podle vás potenciál autonomních vozidel a dronů právě v logistickém průmyslu? 

Autonomní vozidla vnímám jako naprosto zásadní posun, především v kamionové dopravě. Když vezmeme v úvahu, jak velký sektor to je a kolik času stráví řidiči na cestách, tak ten potenciál je ohromný. Myslím, že technologicky od toho nejsme až tak daleko, společensky a legislativně, minimálně tady v Evropě, to bude delší cesta.

Pokud jde o drony, tak hlavní přínos vidím v doručování tzv. last mile, tedy poslední části cesty ke koncovému zákazníkovi. Ve městech si to v blízké budoucnosti nedokážu představit a dokonce si myslím, že je to skoro neřešitelné. Nicméně pro doručování v průmyslových oblastech mimo zástavbu nebo do obtížně dostupných míst to bude skvělý nástroj a i pro nás vidím výhledově velký potenciál tato data analyzovat a optimalizovat doručování. V obou případech však vnímám především společenské a legislativní výzvy, jejichž vyřešení může trvat déle než samotné technické otázky.

Energetika a logistika nejsou však jedinými oblastmi, kde za sebou máte úspěšné projekty. Můžete odhalit nějaké další oblasti, kde aktivně působíte?

Letos se z generativní AI stal nástroj, který firmy mohou samostatně využívat jako službu. Ačkoliv s generativními modely experimentujeme už delší dobu, model ChatGPT zvýšil zájem o AI i v obchodních kruzích a jeho vývoj nabral na rychlosti.

Proto nyní pomáháme se strategií nasazení AI i s implementací GenAI. Typicky používáme velké jazykové modely v oblasti interních informací a analýzy dat.

Například tak vyvíjíme systém pro efektivní vyhledávání informací ve firemních dokumentech, ať už interních nebo těch s nabídkami či informacemi pro jejich klienty. Klíčové je, že nevyužíváme žádná interní data k učení našeho modelu, vše máme na nejvyšší úrovni ochrany dat. To samé umíme postavit nad analytickými daty. Podniky se pak mohou ptát na svoje data i bez znalosti IT a dostávat informace na své dotazy bez “zbytečného” mezikroku v podobě reportingu.

Závěrem se chceme zaměřit na jeden z dlouhotrvajících problémů a hlavní brzdu rozvoje – nedostatek lidí. Přes dva roky sdílíte své znalosti a zkušenosti na ČVUT. Vytvořil jsi praktický kurz, který se mj. zaměřuje na neuronové sítě a datovou analytiku. Zároveň prostřednictvím asociace „Poznej povolání“ motivujete i studenty středních škol. Jak moc složité je nadchnout studenty pro studium zaměřené na AI?

Nadchnout studenty pro AI rozhodně složité není. Naopak o to mají obrovský zájem, a to platilo i před příchodem ChatGPT. Na náš volitelný předmět zaměřený na AI se za poslední dva roky přihlásilo každoročně přes 50 studentů, což je v kontextu fakulty velmi vysoké číslo. Pro akademický svět je zásadní zapojit do výuky lidi z businessu, aby aktivně přinášeli své zkušenosti a pomáhali studentům s praktickým uplatněním. Bez toho je téměř nemožné držet krok s trhem. 

Asociace

© 2024 Všechna práva vyhrazena

Česká asociace umělé inteligence z.ú.