Или как построить нейросеть-полиглота для понимания токсичности текстов на разных языках.
Современный мир разнообразен, но глобален. И когда мы автоматизируем службу поддержки с помощью чат-бота, краулим и парсим новости, автомодерируем комменты на сайте или же оцениваем упоминания нашего продукта в соцсетях, то мы можем столкнуться с текстами не только на великом и могучем русском языке и даже не только на языке Шекспира, а на абсолютно любом — французском, китайском, арабском и даже каталанском.
Конечно, можно попробовать сделать отдельные модели для пары-тройки наиболее вероятных языков, а потом в случае необходимости масштабировать систему понимания текста, постепенно добавляя новые модели для новых языков. Но, во-первых, качественные современные модели анализа текстов весьма немаленькие, и занимают гигабайты памяти. Во-вторых, надо понять, когда подключать ту или иную модель, т.е. когда пользователь пишет на том или ином языке. И, в-третьих, далеко не для всех языков есть нормальные текстовые корпуса для предобучения, не говоря уже о необходимости формировать разметку для файнтюнинга.
В общем, куда не кинь, всюду клин. И тогда приходит идея — а что, если попробовать сделать одну большую нейросеть-полиглота, которая умела бы понимать текст на произвольном языке? Насколько реалистично воплотить такую идею в жизнь, и какое качество решения можно ожидать?
В своём докладе я постараюсь дать ответы на эти вопросы и поделиться своими рецептами построения мультиязычных глубоких нейросетей на базе популярной сейчас архитектуре Трансформеров и не только.
Работаю преподавателем и научным сотрудником Новосибирского государственного университета. Также осуществляю научное руководство командой машинного обучения в Новосибирском исследовательском центре компании Huawei. Занимаюсь машинным обучением с 2005 года, а особенно люблю распознавание речи и анализ текстов на естественном языке. Кроме обучения искусственных нейронных сетей и других алгоритмов, также занимаюсь обучением «естественной» нейронной сети своего маленького сына, и надеюсь, что мне это удаётся :-)
Презентация:
Codefest:
5 views
947
284
4 weeks ago 13:19:32 1
Потрясающая комедия до слез! Легкий семейный фильм! Сваты. Летние приключения ЛУЧШИЕ КОМЕДИИ НОВИНКИ
4 weeks ago 00:13:36 1
Пожалуй, главное заблуждение об электричестве [Veritasium]
4 weeks ago 00:07:37 2
Эксперт (Короткометражка, русский дубляж)
4 weeks ago 00:04:05 1
Леонид Агутин, Therr Maitz — Никаких больше вечеринок / LAB с Антоном Беляевым
4 weeks ago 00:04:11 1
Vlad Ogorod - Одинока (Live in Jazz Union)
4 weeks ago 00:05:57 1
Ольга Бузова - Верни ( Премьера клипа 2023)
1 month ago 01:30:30 1
МЕЛОДРАМА ОЧЕНЬ КЛАССНАЯ И ЗАБОРИСТАЯ! ИНТИМ НЕ ПРЕДЛАГАТЬ. ФИЛЬМ
1 month ago 00:02:42 1
DOROFEEVA - Колискова 2022 (Official Music Video)
1 month ago 00:03:05 1
KOLA - ШІ (Official video)
1 month ago 00:23:36 1
Открытие, которое случайно убило миллионы [Veritasium]
1 month ago 04:17:13 1
Завтракаст 325 – Айл Би Бек
1 month ago 00:05:36 1
Cream Soda - Сердце Лёд (премьера клипа 2020)
1 month ago 03:21:22 1
“Что будет с этим миром ?“ (Восхищение Церкви Израиль 3 Храм Мессия Христос Бог Конец света 2024 г.)
1 month ago 00:23:31 1
Как всё-таки работает электричество? [Veritasium]
1 month ago 00:29:36 1
Кровь и жертвы войны, невинная кровь, проклятие и благословение? Слово к Церкви, к верующим 2024 год
1 month ago 00:04:42 1
Братья Поздняковы - Девушка мечты (Кавер версия 2024)
1 month ago 01:56:44 1
Разговор о тяжелой атлетике I Athletic podcast 10 с Сергеем Бондаренко