ДевФест26
К программе
Доклад·22 мая · 12:0013:00ИИLLMМашинное Обучение

Русские омографы: от мемов до задач, которые пока не под силу LLM

О чём доклад?

Омография, или фонетическая неоднозначность, — неотъемлемая часть языка. Она лежит в основе шуток, мемов и народного творчества (вспомним, например, фразу «У страха глаза велики», которую в шутку изображают с велосипедами). Для систем синтеза речи разрешение этой неоднозначности — серьёзный вызов: даже носители языка не всегда угадывают верное ударение по контексту, а алгоритмы тем более. В докладе разберём четыре типа омографов в русском языке и выясним, как контекстные эмбеддинги в связке с логистической регрессией справляются с каждым из типов неоднозначности.

Кому будет полезно?

Разработчикам TTS и голосовых помощников, NLP-инженерам и всем, кто хочет понять, почему боты часто путаются в произношении.