Apollo : семейство мультимодальных моделей для понимания медиаконтента
Apollo : семейство мультимодальных моделей для понимания медиаконтента.
Apollo - набор MMLM, которые умеют решать разные задачи с видеоконтентом. Они могут понимать длинные видео, рассуждать о событиях во времени и поддерживать многосторонние видео-диалоги.
Модели показывают высокую производительность даже при относительно небольшом размере в 3 млрд. параметров, превосходя по эффективности конкурентов с моделями в 7В-30В параметров.
Этого удалось достичь благодаря тщательному проектированию и комбинированию SigLIP-SO400M (для изображений) и InternVideo2 (для видео). Их синергия дает более устойчивое представление на задачах временных рассуждений.
Семейство состоит из трех моделей:
Apollo 7B
Apollo 3B
Apollo
Код для тонкой настройки, применение LoRA в Apollo и документацию разработчики обещают опубликовать позднее. Пока в репозитории проекта размещен только
1 view
23
3
2 weeks ago 01:45:35 1
90s Style Ambient Jungle Mix 🕹 Low Poly DnB 🕹
3 weeks ago 00:10:18 1
💥EILMELDUNG! BAERBOCK BRINGT DEUTSCHE ZUM TOBEN! RÜCKTRITT DER AUßENMINISTERIN!💥