Cosmos Tokenizer : эффективная токенизация изображений и видео от NVIDIA

Cosmos Tokenizer : эффективная токенизация изображений и видео от NVIDIA. Cosmos Tokenizer - набор токенизаторов для изображений и видео с высокой степенью сжатия при сохранении качества реконструкции, представленный на конференции Conference for Robot Learning 2024 , которая проходит до 9 ноября в Мюнхене. Cosmos Tokenizer предлагает непрерывную (C) и дискретную (D) токенизацию для изображений (I) и видео (V), что формирует 4 типа токенизаторов: CI, DI, CV и DV . Cosmos Tokenizer имеет внушительные показатели сжатия: 8x или 16x для пространственного сжатия изображений и 4x или 8x для временного сжатия видео, при этом работает до 12 раз быстрее, чем другие современные токенизаторы, сохраняя при этом высокое качество изображения. Такая эффективность обусловлена легкой временно-причинной архитектурой, использующей причинную временную свертку и слои внимания. Этот дизайн архитектуры гарантирует, что обработка каждого кадра зависит только от текущих и прошлых кадров, сохраняя временную согласованность видео. Для оценки Cosmos Tokenizer использовались стандартные наборы данных и новый набор данных TokenBench , созданный NVIDIA. Cosmos Tokenizer сравнивался с современными токенизаторами с использованием метрик PSNR, SSIM, rFID и rFVD. Результаты тестирования показали превосходство Cosmos Tokenizer над существующими методами как по качеству реконструкции, так и по скорости работы. В репозитории на Github опубликован код для установки, сборки docker Cosmos Tokenizer , примеры запуска для в
Back to Top