CogVideoX: Код и модель Text-to-video генерации. CogVideoX - обновление модели генерации текста в видео CogVideo
️ CogVideoX: Код и модель Text-to-video генерации.
CogVideoX - обновление модели генерации текста в видео CogVideo, выпущенной в мае 2022 года.
Обновление до CogVideoX :
переход на библиотеку diffusers версии , что позволяет выполнять инференс на одном GPU NVIDIA 24Gb;
использование в модели 3D Causal VAE, который позволяет выполнять реконструкцию видео практически без потерь.
CogVideoX-2B : первая модель в серии CogVideoX, разработанная для генерации видео.
Для запуска требуется 18GB VRAM GPU (с использованием SAT) для инференса на одном графическом процессоре и 40GB для дообучения и файнтюна.
Модель поддерживает генерацию видео с разрешением 720x480, длительностью 6 секунд и частотой 8 кадров в секунду, с максимальной длиной текстового промпта в 226 токенов.
CogVideoX-5B: более плотная модель на 5B, доступна только для коммерческих целей по API.
При регистрации