Scraping von Websites mit Python und BeautifulSoup - Semalt Advice

Im Internet gibt es mehr als genug Informationen darüber, wie Websites und Blogs richtig abgekratzt werden. Was wir brauchen, ist nicht nur der Zugriff auf diese Daten, sondern auch die skalierbaren Möglichkeiten, sie zu sammeln, zu analysieren und zu organisieren. Python und BeautifulSoup sind zwei wunderbare Werkzeuge, um Websites zu kratzen und Daten zu extrahieren. Beim Web Scraping können Daten einfach extrahiert und in einem von Ihnen benötigten Format dargestellt werden. Wenn Sie ein begeisterter Investor sind, der seine Zeit und sein Geld schätzt, müssen Sie den Web-Scraping-Prozess auf jeden Fall beschleunigen und so optimiert wie möglich gestalten.

Anfangen

Wir werden sowohl Python als auch BeautifulSoup als Haupt-Scraping-Sprache verwenden.

  • 1. Für Mac-Benutzer ist Python in OS X vorinstalliert . Sie müssen lediglich das Terminal öffnen und die Python-Version eingeben . Auf diese Weise können sie die Python 2.7-Version sehen.
  • 2. Für Windows-Benutzer empfehlen wir, Python über die offizielle Website zu installieren.
  • 3. Als nächstes müssen Sie mit Hilfe von pip auf die BeautifulSoup-Bibliothek zugreifen. Dieses Paketverwaltungstool wurde speziell für Python entwickelt.

Im Terminal müssen Sie folgenden Code eingeben:

easy_install pip

pip installiere BeautifulSoup4

Kratzregeln:

Die wichtigsten Scraping-Regeln, auf die Sie achten sollten, sind:

  • 1. Sie müssen die Regeln und Vorschriften der Site überprüfen, bevor Sie mit dem Scraping beginnen können. Also sei sehr vorsichtig!
  • 2. Sie sollten die Daten von den Websites nicht zu aggressiv anfordern. Stellen Sie sicher, dass sich das von Ihnen verwendete Tool angemessen verhält. Andernfalls können Sie die Site beschädigen.
  • 3. Eine Anfrage pro Sekunde ist die richtige Praxis.
  • 4. Das Layout des Blogs oder der Website kann jederzeit geändert werden. Möglicherweise müssen Sie diese Website erneut besuchen und Ihren eigenen Code bei Bedarf neu schreiben.

Überprüfen Sie die Seite

Bewegen Sie den Mauszeiger auf die Seite Preis, um zu verstehen, was zu tun ist. Lesen Sie den Text zu HTML und Python. Aus den Ergebnissen geht hervor, dass die Preise in den HTML-Tags enthalten sind.

Export nach Excel CSV

Nachdem Sie die Daten extrahiert haben, müssen Sie sie im nächsten Schritt offline speichern. Das durch Kommas getrennte Excel-Format ist in dieser Hinsicht die beste Wahl, und Sie können es problemlos in Ihrer Excel-Tabelle öffnen. Aber zuerst müssten Sie die Python CSV-Module und die Datums- / Uhrzeitmodule importieren, um Ihre Daten ordnungsgemäß aufzuzeichnen. Der folgende Code kann in den Importbereich eingefügt werden:

CSV importieren

vom datetime-Import zum datetime

Fortgeschrittene Schabetechniken

BeautifulSoup ist eines der einfachsten und umfassendsten Tools für das Web-Scraping. Wenn Sie jedoch große Datenmengen sammeln müssen, sollten Sie einige andere Alternativen in Betracht ziehen:

  • 1. Scrapy ist ein leistungsstarkes und erstaunliches Python-Scraping-Framework.
  • 2. Sie können den Code auch in eine öffentliche API integrieren. Die Effizienz Ihrer Daten wird wichtig sein. Sie können beispielsweise die Facebook Graph API ausprobieren, mit der die Daten ausgeblendet und nicht auf den Facebook-Seiten angezeigt werden.
  • 3. Außerdem können Sie Backend-Programme wie MySQL verwenden und die Daten in großer Menge mit großer Genauigkeit speichern.
  • 4. DRY steht für "Don't Repeat Yourself" und Sie können versuchen, die regulären Aufgaben mit dieser Technik zu automatisieren.

mass gmail