Основы regular expression, а также requests и bs4. Видео 3
#python #regularexpression PlayList 0:00 Предыстория. 0:30 Репутационные характеристики заказчика конкурса. 0:45 Страницы заказчиков гораздо менее стандартизированны. Поэтому потребуется не только пакет bs4, но и пакет regular expression. 2:40 Обзор структуры скрипта. 3:15 Конструкция in . 5:25 Сочетание пакетов bs4 и regular expression для решения сложных задач парсинга. 7:25 Индексировать датафрейм на извлечение (ровно так же, как и на запись). 8:10 Применение конструкции in . 10:10 Ограничить область поиска искомого текста в выгруженном HTML-коде посредством релевантного тега из веб-инспектора. 11:45 Цикл for для итерирования диапазона элементов, пока не будет найден содержащий искомый текст. Команда break . 13:05 Итератор не теряет своё содержимое. 13:15 Важность обращения к подсказкам Jupyter Notebook. 13:35 Метод .findall() пакета re . Что такое точка и плюс в пакете re ? Как обозначается любая цифра? Зачем квадратные скобки? 16:55 Полная условная конструкция if else . 20:20 Почему плохо индексировать искомый тег HTML-кода по номеру? 21:10 Метод .sub() пакета re . Как работает логический оператор or в пакете re ? Как обозначается любой технический символ? Что такое звёздочка? 24:25 Экранирование. 25:45 Вытянутая в строчку кода условная конструкция if else . 26:55 Команда float . 27:30 Индекс -1 . 31:50 Собранный итоговый чанк. Для чистоты проверки его работоспособности его следует запустить после очистки выдачи текущего скрипта и перезапуска предыдущих двух скриптов. Предыдущее видео: