FoleyCrafter: Генерация звуковых эффектов для беззвучных видео
FoleyCrafter: Генерация звуковых эффектов для беззвучных видео.
FoleyCrafter - методика, разработанная для автоматического создания звуковых эффектов, синхронизированных с целевым видеорядом
Архитектура метода построена на основе предварительно обученной модели преобразования текста в аудио (Text2Audio). Система состоит из двух ключевых компонентов:
Семантический адаптер - использует параллельные слои cross-attention для обусловливания генерации аудио на основе видеопризнаков. Выполняет семантическое соответствие генерируемых звуков визуальному контенту.
Временной контроллер - детектор временных меток анализирует и предсказывает интервалы звука и тишины в видео. Временной адаптер синхронизирует аудио с видео на основе выставленных детектором временных меток.
Оба компонента являются обучаемыми модулями, которые принимают видео в качестве входных данных для синтеза аудио. При этом модель Text2Audio остается фиксированной для сохранения ее способности к синтезу аудио постоянного качества.
Разработчики FoleyCrafter провели количественные и качественные эксперименты на наборах данных VGGSound и AVSync15 по метрикам семантического соответствия MKL, CLIP Score, FID и временной синхронизации Onset ACC, Onset AP.
По сравнению с существующими методами Text2Audio (SpecVQGAN, Diff-Foley и V2A-Mapper) FoleyCrafter показал лучшие результаты.
Локальный запуск с использованием GradioUI:
git clone
cd projects/foleycrafter
conda create env create -f requirements/
conda activate foleycrafter
conda install git-lfs
git lfs install
git clone checkpoints/auffusion
git clone checkpoints/
python —share
Лицензирование: Apache-2.0
Страница проекта
Arxiv
Модели на HF
Demo
Github [ Stars: 272 | Issues: 4 | Forks: 15]
4 views
38
34
5 months ago 00:00:18 4
FoleyCrafter: Генерация звуковых эффектов для беззвучных видео