Plzeňští kybernetici vytvořili webovou databázi jazykové poradny

Zveřejněno v Atraktivní zprávy
Od - čtvrtek, 25. březen 2021 20:37
jazykova_poradna_web Foto: ZČU

Odborníci z plzeňské Fakulty aplikovaných věd (FAV) Západočeské univerzity vytvořili webovou databázi jazykové poradny Ústavu pro jazyk český Akademie věd ČR (ÚJČ). Z ní mohou například lidé zjistit, jak se správně píše název nemoci covid-19, původ slova brusle nebo jakou jazykovou příručku mají kdy použít.

„Webová databáze dotazů položených jazykové poradně byla vyvinuta proto, aby si v nich běžný uživatel jazyka mohl najít odpovědi na časté i méně obvyklé dotazy, ale také na otázky týkající se úplně nových jazykových jevů. Jazykovědcům pak databáze pomáhá dotazový materiál systematicky zpracovávat, třídit a prohledávat pro badatelské účely,“ popisuje smysl databáze, dostupné na adrese dotazy.ujc.cas.cz, ředitel ÚJČ Martin Prošek.

Projekt Zpřístupnění dotazů jazykové poradny v lingvisticky strukturované databázi probíhal v letech 2016–2019 a byl financován z programu Ministerstva kultury ČR určeného na podporu aplikovaného výzkumu a vývoje národní a kulturní identity NAKI II.

Z Fakulty aplikovaných věd se ho účastnili odborníci z katedry kybernetiky, katedry informatiky a výpočetní techniky a z výzkumného centra NTIS. Kybernetici zpracovali zvuková data z telefonních hovorů za roky 2016–2019 a zároveň zajistili, aby proces, založený na využívání umělé inteligence, fungoval automaticky. „Náš systém má pomoci lingvistům tím, že telefonní hovor automaticky přepíše a zčásti ho i systematizuje,“ přibližuje vedoucí fakultního týmu Luděk Müller. „Pracovali jsme i s nahrávkami pořízenými před započetím projektu, na těch jsme ale hlavně učili systém otázky třídit,“ doplňuje Petr Salajka z centra NTIS, který pracoval na integraci jednotlivých prvků systému.

Jakmile pracovník jazykové poradny hovor přijme, spustí se nahrávání a současně se na počítači objeví aplikace určená pro poznámky, které později slouží pro podrobnou anotaci. Každý den po skončení provozu poradny pak systém všechny nahrávky automaticky převede na text a systematizuje je.

Pokročilou anotaci už provedou sami lingvisté z ÚJČ. Za databází, která jim umožní dotaz podrobně anotovat a uživatelům si ho vyhledat, stojí experti z katedry informatiky a výpočetní techniky FAV. „Naším cílem bylo vytvořit systém, který umožní otázky a odpovědi velmi detailně strukturovat s využitím mnoha atributů,“ říká člen týmu Michal Nykl. Jednotlivé otázky a odpovědi tak lze kategorizovat do podrobného stromového grafu. Díky tomu získá každý dotaz všechny gramatické charakteristiky, které se ho týkají. Ty jsou důležité pro podrobné vyhledávání v dotazech, statistiky a další práci s dotazy.

Na jazykovou poradnu se obracejí ti, kdo s jazykem pracují ve své profesi, jako jsou učitelé nebo novináři, kteří zároveň svým psaným i ústním vyjadřováním ovlivňují velkou část společnosti. Radu vyhledávají ale také studenti, rodiče školních dětí a ostatní uživatelé jazyka, a to třeba proto, že nemají k dispozici kodifikační příručky, špatně se v nich orientují nebo v nich daný jev ještě nalézt ani nemohou, protože zatím kodifikován nebyl. Webová aplikace jazykové poradny, která v současnosti obsahuje více než 28 800 přepisů nahrávek, jim může poradit, aniž by museli telefonovat. Odborná veřejnost ocení, že dotazy se dají strukturovaně vyhledávat a třídit, takže je lze využít pro badatelské účely.

Jazykovědcům z ÚJČ systém mimo jiné pomáhá odpovídat na stejné dotazy jednotným způsobem, poskytuje jim přehled o problematických jazykových jevech a v souvislosti s tím i materiál užitečný pro tvorbu učebnic. Vidí také, jakým vývojem určitý jazykový jev prochází.