CogVideoX: Код и модель Text-to-video генерации. CogVideoX - обновление модели генерации текста в видео CogVideo

️ CogVideoX: Код и модель Text-to-video генерации. CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года. Обновление до CogVideoX : переход на библиотеку diffusers версии , что позволяет выполнять инференс на одном GPU NVIDIA 24Gb; использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь. CogVideoX-2B : первая модель в серии CogVideoX, разработанная для генерации видео. Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна. Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов. CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API. При регистрации

13 views