Emu3: набор MMLM, основанный на методе предсказании следующего токена
Emu3: набор MMLM, основанный на методе предсказании следующего токена.
Модели Emu3 разработаны для задач мультимодальной изображений и видео по текстовому описанию, понимание визуальных представлений и прогнозирования кадров в видео.
Модель использует токенизатор изображений SBER-MoVQGAN для преобразования видео и изображений в дискретные токены, RMSNorm для нормализации, GQA для механизмов внимания, SwiGLU для активации и RoPE для позиционного кодирования.
Процесс изображения).
Затем Emu3 авторегрессивно предсказывает наиболее вероятный следующий токен в последовательности. Этот процесс продолжается до тех пор, пока не будет сгенерирована вся последовательность, представляющая собой конечный результат (изображение или видео).
Представлены 3 модели:
Emu3-Chat – модель-чат, анализирует входные изображения и генерирует текстовые ответы;
Emu3-Gen – модель для и сопоставимость с LLaVA-1.6 в задачах интерпретаций изображений.
Инференс моделей пока доступен только в СLI на Transformers, примеры для
34 views
29
9
2 years ago 00:12:58 1
Рождественский ангел
5 years ago 00:00:27 1
Нанизываем бусины - Игра для малышей и Развитие мелкой моторики - Чем занять ребёнка