Rozhovor s ASPENA: „Bylo nám jasné, že před námi vzniká nový trh s učením neuronových sítí“

Firmy nyní velmi často slyší, že jednou z klíčových oblastí v rámci AI transformačních projektů jsou data. A nejen o nich jsme si povídali s naším členem ASPENA. Jak funguje a probíhá příprava datového setu?

Aspena nabízí komplexní služby v oblasti přípravy datových sad pro trénování modelů umělé inteligence ve více než 80 jazycích. Můžete přiblížit vznik a historii celé služby?

Společnost Aspena bude příští rok 30 let známá kvalitními službami v oblasti překladů, tlumočení a výuky jazyků. Abychom tyto služby dodávali v maximální možné rychlosti a kvalitě, vytvořili jsme na přelomu milénia samostatné R&D oddělení. Od roku 2012 jsme začali experimentovat se strojovým učením a později i službami na bázi neuronových sítí, z nichž se vyvinul například Deep-L. Když nás před několika lety začali oslovovat naši zákazníci s tehdy zvláštními požadavky na sběr dat, bylo nám jasné, že před námi vzniká nový trh s učením neuronových sítí, a začali jsme definovat produktovou řadu – datová řešení. S příchodem ChatGPT a velkých jazykových modelů jsme zavedli produktovou řadu Datová řešení do našeho portfolia služeb.

Jaké konkrétní služby v oblasti učení neuronových sítí a jazykových modelů nabízíte?

V první řadě se jedná o službu „Příprava datového setu“. Ať už připravujete vlastního chatbota, voicebota nebo např. nástroj pro rozpoznávání nekvalitních sušenek na výrobní lince či jakoukoli jinou AI službu, potřebujete vhodná data pro její trénink. Aspena je tím, kdo vám ta data v potřebné kvalitě připraví a dodá.

V případě, že využijete některého z existujících GPT nebo LLM, připravíme vám zpřesňující datový set pro jeho oborové a situační ladění.

Poté, co si svou AI službu natrénujete, nakonfigurujete a uvedete do testovacího provozu, pomůžeme vám s laděním jejích výstupů. Tzn. porovnáme výstupy AI služby oproti vstupům a následně vybereme a kvalifikovaně zdůvodníme nejlepší možné varianty výstupů. Na základě a pomocí těchto dat AI službu přetrénujete a rekonfigurujete, čímž zvýšíte správnost jejích odpovědí.

S výše uvedenými činnostmi souvisí anotace dat. Pro připravované AI služby popisujeme texty, zvukové stopy nebo se sémantickou přesností označujeme útvary v obrázcích nebo 3D modelech.

Jaká jsou konkrétní odvětví nebo oblasti, ve kterých vaše služby pro přípravu datových setů a anotace nejčastěji nacházejí uplatnění?

V oblasti textových a zvukových dat se jedná o bankovnictví, pojišťovnictví, zdravotnictví a poradenství. Když se bavíme o obrazových anotacích, budeme se pohybovat v průmyslu všeho druhu (potravinářský, automobilový, obranný atp.), pojišťovnictví nebo zdravotnictví. V rámci anotací často řešíme i transkripce – tzn. převod zvukové stopy na textovou včetně popisu.

Jaká je typická doba trvání projektu přípravy datového setu a jak probíhá spolupráce s klientem během tohoto procesu?

Velmi záleží na typu a velikosti projektu a konkrétních požadavcích zákazníka. Na jedné straně jsou projekty, ve kterých máme za úkol dodat pouze nižší desetitisíce situačních textů typu otázka/odpověď. Na straně druhé máme projekty, které jsou řádově větší, komplexnější, a zákazník potřebuje i několik iterací ladění výstupů pro přeučování jeho AI. Zásadní je definovat se zákazníkem zadání projektu, sestavit projektový tým a celý proces otestovat. Následně už jen ladíme detaily a hlídáme kvalitu. Malé projekty obvykle trvají 1-2 měsíce, velké projekty klidně půl roku a často přecházejí v trvalou spolupráci.

S anotacemi to funguje obdobně?

Jsou případy, kdy je to podobné, a jsou případy, obzvláště u sémantických obrazových anotací ve zdravotnictví, kdy jen samotné sestavení a zaškolení anotačního týmu zabere déle než měsíc. Pro některé anotační projekty, například anotace EKG křivek, jsme si pro dosažení maximální kvality a efektivity vytvořili i vlastní softwarové nástroje.

Jak zajišťujete, že anotace dat jsou přesné a spolehlivé, zejména při velkém měřítku zpracování?

V první řadě máme zavedené a společností DNV dlouhodobě úspěšně auditované ISO 9001, které garantuje systém řízení kvality. U anotací jako takových máme dále nastavené kontrolní mechanismy na bázi SPC (Statistical Process Control), respektive statistické přejímky. Díky těmto mechanismům máme zajištěnou minimálně 99,8 % kvalitu našeho výstupu.

Při zpracování dat kombinujete manuální práci a technologie AI. Lze orientačně určit poměr těchto dvou složek v rámci nějakého typického projektu?

Naší zásadou při přípravě datových setů a anotační práci je „Human Touch“. Jsou zakázky, kdy zákazník striktně požaduje nevyužití nástrojů umělé inteligence nebo strojového učení a chce pouze lidskou práci, což je v mnohých případech ladění AI nástrojů zcela logické. Stejně tak máme zakázky, kdy je možné určitým způsobem AI a jazykové modely využít, a práci anotátora tak zefektivnit. Poměr zapojení AI do procesu zpracování dat se tedy pohybuje v rozmezí 0-80 %.

Jakým způsobem zajišťujete bezpečnost a důvěrnost dat, která jsou vaším týmem zpracovávána?

Jsme certifikováni na ISO 9001 a ISO 17100. Procesně máme nastavenou shodu s ISO 27001, GDPR, CCPA a HIPAA.

Žijeme v době rychlého rozvoje AI, kdy neustále vznikají nové, lepší a výkonnější verze LLM nebo GPT – aktuálně ChatGPT 4o. Proč si myslíte, že firmy potřebují vlastní datové sety a anotace? Nestačí jen počkat na novou, dokonalejší verzi ChatGPT nebo Gemini?

Jsme si jisti, že AI je budoucnost a o úspěchu společnosti na trhu rozhoduje kvalita s ní spojených služeb. To znamená, že nestačí jen genericky získaná kvalita, např. od ChatGPT. Aspena dodávkou kvalitních datových setů a anotací pro AI pomůže společnostem docílit nadstandardních AI služeb a produktů, a tím zvyšovat jejich konkurenční výhody.

A co dosavadní stěžejní oblasti podnikání Aspeny – překlady, tlumočení a jazyková škola? Jak ty ovlivnil rychlý nástup umělé inteligence?

Zásadně. Technologický posun v překladech, tlumočení a vlastně i ve výuce jazyků je s příchodem LLM a AI znatelný. Trh se mění a má obrovský potenciál. Ale to je na samostatný článek.