Основы requests и bs4. Схема парсинга. Видео 2

PlayList 0:00 Предыдущее видео — см. в плейлисте. 0:15 Открыть таблицу, ранее сохранённую в формате экселевского файла, в формате датафрейма. 1:15 Атрибутом .index достать наименования строк таблицы. 2:15 Указать, что наименования строк (индекс датафрейма) содержатся в нулевом столбце открываемой таблицы. 2:45 Поскольку путь не указан, файл должен располагаться строго в той же папке, в которой текущий скрипт. 3:40 Для маскировки алгоритмического запроса под запрос обычного пользователя выяснить в веб-инспекторе такие параметры запроса, как Cookie и User-Agent. 5:50 Пять команд для распарсивания выгруженного с сайта текста. 6:25 Общая схема парсинга текста, выгруженного с сайта, посредством пакета bs4 10:45 Сравнение содержательного и технического значений атрибута тега. 14:55 Запуск чанков скрипта. 15:35 Пример применения метода .get_text() пакета bs4. 16:35 Атрибутом .loc проиндексировать датафрейм на запись. 17:15 Обращение к веб-инспектору. 21:00 Особенность записи всех комментариев в одну ячейку датафрейма. 22:00 Пример применения метода .get() пакета bs4 — для извлечения URL-адреса страницы заказчика конкурса из содержимого атрибута тега. 23:20 Собранный итоговый чанк. Для чистоты проверки его работоспособности его следует запустить после очистки выдачи скрипта. Предыдущее видео:

67 views

4113

1540