Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)! Выпустила её Kuaishou Technology — китайская
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!
Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).
Как заявляют авторы:
модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
в качестве автоэнкодера видео используется специально обученный 3D VAE;
модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.
Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).
Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.
Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер )
33 views
81
18
2 months ago 00:01:13 1
️ Мы не знаем, помогла ли вышка и музыкальное сопровождение получить ему ответ «да», но вышло очень романтично
2 months ago 00:00:35 2
Торговая площадь : г. Санкт-Петербург, пр-кт Лиговский, д. 50,лит. 3,к. 10 (аренда)
2 months ago 00:01:07 1
[NTDRussian] Столице Индии грозит наводнение (новости)
2 months ago 00:04:09 1
Антон Безызвестных и Ведомый край - снова в бой.
2 months ago 00:04:35 4
Лилия в одних трусиках села на диван, Вадим полез их снимать.
2 months ago 00:16:01 2
[XYZ] Обманчивая простота стиля Arcane
2 months ago 00:01:32 1
[NTDRussian] Международный фестиваль балета открылся в Гаване (новости)
2 months ago 00:01:25 1
Какими талантами обладают жители Орехово-Зуева?
2 months ago 00:16:01 1.2K
Обманчивая простота стиля Arcane
2 months ago 00:02:15 9
Ради карьеры вышла замуж за местного алкаша💍 Название: Фиктивный брак
2 months ago 00:39:49 19
[настя федько ] мои американские одногруппники пробуют РУССКИЙ ШКОЛЬНЫЙ ОБЕД...