Доклад22 мая · 12:00–13:00ИИLLMМашинное Обучение
Русские омографы: от мемов до задач, которые пока не под силу LLM
О чём доклад?
Омография, или фонетическая неоднозначность, — неотъемлемая часть языка. Она лежит в основе шуток, мемов и народного творчества (вспомним, например, фразу «У страха глаза велики», которую в шутку изображают с велосипедами). Для систем синтеза речи разрешение этой неоднозначности — серьёзный вызов: даже носители языка не всегда угадывают верное ударение по контексту, а алгоритмы тем более. В докладе разберём четыре типа омографов в русском языке и выясним, как контекстные эмбеддинги в связке с логистической регрессией справляются с каждым из типов неоднозначности.
Кому будет полезно?
Разработчикам TTS и голосовых помощников, NLP-инженерам и всем, кто хочет понять, почему боты часто путаются в произношении.

