[Algorithmic Simplicity] MAMBA from Scratch: Neural Nets Better and Faster than Transformers

🎯 Загружено автоматически через бота: 🚫 Оригинал видео: 📺 Данное видео принадлежит каналу «Algorithmic Simplicity» (@algorithmicsimplicity). Оно представлено в нашем сообществе исключительно в информационных, научных, образовательных или культурных целях. Наше сообщество не утверждает никаких прав на данное видео. Пожалуйста, поддержите автора, посетив его оригинальный канал. ✉️ Если у вас есть претензии к авторским правам на данное видео, пожалуйста, свяжитесь с нами по почте support@, и мы немедленно удалим его. 📃 Оригинальное описание: Mamba is a new neural network architecture that came out this year, and it performs better than transformers at language modelling! This is probably the most exciting development in AI since 2017. In this video I explain how to derive Mamba from the perspective of linear RNNs. And don’t worry, there’s no state space model theory needed! Mamba paper: Linear RNN paper: #mamba #deeplearning #largelanguagemodels Intro Recurrent Neural Networks Linear Recurrent Neural Networks Parallelizing Linear RNNs Vanishing and Exploding Gradients Stable initialization State Space Models Mamba The High Performance Memory Trick The Mamba Drama

1 view