Семинар Ильи Контаева (Xperience AI).
За последние несколько лет архитектуры на базе Transformer заняли важное место в задачах обработки естественного языка. Однако использование механизма self-attention в задачах компьютерного зрения ограничено из-за квадратичной сложности данной операции.
В семинаре рассмотрены основные идеи и трюки, использованные в Vision Transformer (ViT), которые позволяют решать задачу классификации изображений без использования свёрточных слоёв. Также кратко рассмотрены архитектуры, которые используют ViT в таких задачах как детектирование объектов (Swin Transformer) и генерация изображений (TransGAN).
60 views
19
7
1 month ago 00:08:10 1
AI Agents Will Create MILLIONAIRES in 2025 – Are You Ready