Freelance projects › Парсинг номеров телефонов с сайтов Парсинг номеров телефонов с сайтов
Нужно написать скрипт (программку, желательно на Python) которая будет парсить со списка сайтов (список сайтов предоставляю в виде excel-файла) контактные номера телефонов, указанные на сайтах, и возвращать excel-файл с таблицей с двумя колонками: сайты и соответствующие номера телефонов. Задача - снять как можно больше вариантов номеров для каждого сайта.
Важно: снимать нужно не основной номер сайта, указанный в изначальном html-коде, а номера, которые подменяют основной (подмена осуществляется, как я понимаю, с помощью JS скрипта).
Может быть три варианта подмены основного номера на сайте:
1) Динамический коллтрекинг (Базовый принцип работы предельно простой. Каждый пользователь, который попадает на сайт видит свой телефонный номер. Этот телефонный номер не может быть отдан никому другому пока пользователь находится на сайте и плюс еще некоторое время после прекращения активности на сайте. Номер закрепляется за сессией пользователя.). В таком случае нужно имитировать сессии от "разных" пользователей, чтоб показывались разные номера. Сессию на каждом сайте нужно сымитировать 40 раз и снять 40 номеров телефона, которые подменят основной номер телефона на сайте.
PS: вручную при таком варианте эти номера можно снять следующим образом: открываем целевой url в окне Chrome в анонимном режиме, снимаем отображённый номер; затем, чтобы получить второй номер этого сайта, закрываем окно и открываем новое окно Chrome в анонимном режиме, снимаем новый отображённый номер. И т.д.
2) Статически коллтрекинг (Это когда основной номер на сайте подменятеся на другой в зависимости от источника, откуда пришёл пользователь (utm-метки)). В таком случае всем пользователям, пришедшим с контекстной рекламы будет показываться одинаковый номер, с органической выдачи будет показываться второй одинаковый номер и т.д.
Важно: если один и тот же пользователь пришёл с контекстной рекламы, а потом он же с органической выдачи (на протяжении короткого промежутка времени), то ему будет отображаться один и тот же номер (в зависимости какой источник зафиксировался за пользователем первый).
Таким образом для данного варианта нужно имитировать источник прихода пользователя на сайт (добавляя к URL определённые utm-метки по типу site.com.ua/?utm_source=google&utm_medium=cpc (список таких меток предоставлю)). Для каждой следующей utm-метки нужно имиторовать новую сессию, чтоб предыдущий номер телефона не "прилип".
3) Еще один вариант статического коллтрекинга, но со следующим отличием - подмена номера зависит от источника, но он (источник) проверяется не по utm-меткам, а по доменам, с которого осуществлялся переход на данный сайт. В таком случае задача - имитировать переход с нужных доменов (список тоже предоставляю).
В итоге скрипт должен пройтись по всему списку сайтов и применить для них все три варианта подмены номера (т.к. не извесно на каком сайте какой вариант используется) и собрать как можно больше номеров телефонов.
Примечания:
- названия сайтов возвращать такими же, какими они даются на вход (в предоставляемом мною файле)
- номера телефонов должны быть записаны однотипно согласно маски +380*********
Client's feedback on cooperation with Sergey Mironov
Парсинг номеров телефонов с сайтовСергей проявил профессиональный подход и качественно выполнил довольно сложный парсинг на Python. Рекомендую к сотрудничеству.
Freelancer's feedback on cooperation with Dmytro Ignatov
Парсинг номеров телефонов с сайтовЧеткая задача, своевременная оплата, постоянно на связи для уточнения правок.
-
Добрый день
теория понятна, нужно смотреть сайты
пишу на php+curl
опыт огромный
покажите примеры сайтов
-
796 36 1 1 Выполню ваше задание быстро и качественно, а главное правильно. Учту все пожелания и комментарии
-
134 1 Добрый день, я готов выполнить ваш заказ на Python, сделаю все быстро и качественно. Знаю Python, Django, Scrapy, Css, Bootstrap, JS, HTML. Буду рад сотрудничеству
-
freelancer isn't working in the service any longer
-
3590 82 1 2 спарсить могу, скрипт не продам :)
спарсить могу, скрипт не продам :)
-
282 10 4 1 Добрый день. Могу предложить реализовать универсальный парсер, который будет искать номера телефонов по регулярному выражению.
-
3916 69 3 1 Реализую на питоне, согласно того, что обсудили в личке.
---------------------------------------------------------------------
символы, символы, может пора убрать это ограничение и просто поставить капчу при размещении ставки?
-
994 34 0 Цену указал за один сайт. Универсальный парсер невозможно создать.
-
Желательно увидеть список сайтов.