Beautiful Soup is een open-source Python-bibliotheek. Het gebruikt navigatieparsers om de inhoud van XML- en HTML-bestanden te schrapen. U heeft gegevens nodig voor verschillende analytische doeleinden. Als Python en webscraping echter nieuw voor u zijn, is de Beautiful Soup-bibliotheek van Python het proberen waard voor een webscraping-project.
Met Python's open-source Beautiful Soup-bibliotheek kun je gegevens verkrijgen door elk deel of element van een webpagina te schrapen met maximale controle over het proces. In dit artikel bekijken we hoe je Beautiful Soup kunt gebruiken om een website te scrapen.
Hoe Beautiful Soup te installeren en ermee aan de slag te gaan?
Voordat we verder gaan, gebruiken we in dit tutorialartikel over Beautiful Soup Python 3 en beautifulsoup4 , de nieuwste versie van Beautiful Soup. Zorg ervoor dat u een virtuele Python-omgeving maakt om uw project en de bijbehorende pakketten te isoleren van die op uw lokale machine.
Om aan de slag te gaan, moet u de Beautiful Soup-bibliotheek in uw virtuele omgeving installeren. Beautiful Soup is beschikbaar als PyPi-pakket voor alle besturingssystemen, dus u kunt het installeren met het pip install beautifulsoup4- commando via de terminal.
Als u echter Debian of Linux gebruikt, werkt het bovenstaande commando nog steeds, maar u kunt het installeren met de pakketbeheerder door apt-get install python3-bs4 uit te voeren .
Beautiful Soup schrapt URL's niet rechtstreeks. Het werkt alleen met kant-en-klare HTML- of XML-bestanden. Dat betekent dat u er niet rechtstreeks een URL in kunt doorgeven. Om dat probleem op te lossen, moet u de URL van de doelwebsite ophalen met de verzoekbibliotheek van Python voordat u deze naar Beautiful Soup voert.
Om die bibliotheek beschikbaar te maken voor uw scraper, voert u de opdracht pip install requests uit via de terminal.
Om de XML- parserbibliotheek te gebruiken, voer je pip install lxml uit om het te installeren.
Inspecteer de webpagina die u wilt schrapen
Voordat u een website schrapt die u niet kent, is het een goede gewoonte om de elementen ervan te inspecteren. U kunt dit doen door uw browser naar de ontwikkelaarsmodus te schakelen. Het is vrij eenvoudig om Chrome DevTools te gebruiken als u Google Chrome gebruikt.
Het is echter noodzakelijk om een webpagina te inspecteren om meer te weten te komen over de HTML-tags, attributen, klassen en id's. Door dat te doen, worden de kernelementen van een webpagina en de inhoudstypen ervan blootgelegd.
Het helpt u ook bij het ontwikkelen van de beste strategieën die u kunt gebruiken om de exacte gegevens te krijgen die u van een website wilt en hoe u deze kunt krijgen.
Hoe de gegevens van een website te schrapen met mooie soep?
Nu je alles klaar en klaar hebt, open je een voorkeurscode-editor en maak je een nieuw Python-bestand, en geef je het een gekozen naam. U kunt echter ook gebruikmaken van webgebaseerde IDE's zoals Jupyter Notebook als u niet bekend bent met het uitvoeren van Python via de opdrachtregel.
Importeer vervolgens de benodigde bibliotheken:
from bs4 import BeautifulSoup import requests
Laten we eerst eens kijken hoe de bibliotheek met verzoeken werkt:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com') print(website)
Wanneer u de bovenstaande code uitvoert, retourneert deze een 200-status, wat aangeeft dat uw verzoek is geslaagd. Anders krijgt u een 400-status of enkele andere foutstatussen die wijzen op een mislukt GET-verzoek.
Vergeet niet om altijd de URL van de website tussen haakjes te vervangen door uw doel-URL.
Zodra u de website met het get- verzoek hebt ontvangen, geeft u deze door aan Beautiful Soup, die de inhoud nu kan lezen als HTML- of XML-bestanden met behulp van de ingebouwde XML- of HTML-parser, afhankelijk van het door u gekozen formaat.
Bekijk dit volgende codefragment om te zien hoe u dit doet met de HTML-parser:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com') soup = BeautifulSoup(website.content, 'html.parser') print(soup)
De bovenstaande code retourneert de volledige DOM van een webpagina met zijn inhoud.
Je kunt ook een meer uitgelijnde versie van de DOM krijgen door de prettify- methode te gebruiken. U kunt dit uitproberen om de uitvoer te zien:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') print(soup.prettify())
Je kunt ook de pure inhoud van een webpagina krijgen zonder het element te laden met de .text- methode:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') print(soup.text)
De inhoud van een webpagina schrapen op de tagnaam
Je kunt ook de inhoud in een bepaalde tag schrapen met Beautiful Soup. Om dit te doen, moet u de naam van de doeltag opnemen in uw Beautiful Soup-schraperverzoek.
Laten we bijvoorbeeld eens kijken hoe u de inhoud in de h2- tags van een webpagina kunt krijgen.
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') print(soup.h2)
In het bovenstaande codefragment retourneert soup.h2 het eerste h2- element van de webpagina en negeert de rest. Om alle h2- elementen te laden , kunt u de ingebouwde functie find_all en de for- lus van Python gebruiken:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') h2tags = soup.find_all('h2') for soups in h2tags: print(soups)
Dat codeblok retourneert alle h2- elementen en hun inhoud. U kunt de inhoud echter ophalen zonder de tag te laden met behulp van de .string- methode:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') h2tags = soup.find_all('h2') for soups in h2tags: print(soups.string)
U kunt deze methode voor elke HTML-tag gebruiken. Het enige dat u hoeft te doen, is de h2- tag vervangen door de tag die u leuk vindt.
U kunt echter ook meer tags schrapen door een lijst met tags door te geven aan de find_all- methode. Het onderstaande codeblok schraapt bijvoorbeeld de inhoud van a , h2 en title- tags:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') tags = soup.find_all(['a', 'h2', 'title']) for soups in tags: print(soups.string)
Een webpagina schrapen met behulp van de ID en klassenaam
Na het inspecteren van een website met de DevTools, laat het je meer weten over de id- en class-attributen die elk element in zijn DOM bevatten. Zodra u dat stukje informatie heeft, kunt u die webpagina met deze methode schrapen. Het is handig wanneer de inhoud van een doelcomponent uit de database loopt.
U kunt de vindmethode gebruiken voor de id- en klassenschrapers. In tegenstelling tot de methode find_all die een itereerbaar object retourneert, werkt de methode find op een enkel, niet-itereerbaar doel, wat in dit geval de id is. U hoeft er dus geen for- lus voor te gebruiken .
Laten we eens kijken naar een voorbeeld van hoe u de inhoud van een pagina hieronder kunt schrapen met behulp van de id:
from bs4 import BeautifulSoup import requests website = requests.get('http://somewebpages.com/') soup = BeautifulSoup(website.content, 'html.parser') id = soup.find(id = 'enter the target id here') print(id.text)
Om dit voor een klassenaam te doen, vervangt u de id door class . Het schrijven van klasse resulteert echter direct in syntaxisverwarring, aangezien Python het als een sleutelwoord ziet. Om die fout te omzeilen, moet je een onderstrepingsteken voor de klas schrijven, zoals dit: class_ .
In wezen wordt de regel met de id:
my_classes = soup.find(class_ = 'enter the target class name here') print(my_classes.text)
U kunt echter ook een webpagina schrapen door een bepaalde tagnaam aan te roepen met de bijbehorende id of klasse:
data = soup.find_all('div', class_ = 'enter the target class name here') print(data)
Hoe maak je een herbruikbare schraper met mooie soep?
Je kunt een klasse maken en alle voorgaande code samenvoegen tot een functie in die klasse om een herbruikbare schraper te maken die de inhoud van sommige tags en hun id's krijgt. We kunnen dit doen door een functie te maken die vijf argumenten accepteert: een URL, twee tagnamen en de bijbehorende id's of klassen.
Stel dat u de prijs van overhemden van een e-commerce website wilt schrappen. De onderstaande scraper-klasse haalt de prijs- en shirt-tags met hun corresponderende id's of klassen en retourneert deze vervolgens als een Pandas-gegevensframe met 'Price' en Shirt_name als de kolomnamen.
Zorg ervoor dat je panda's pip installeert via de terminal als je dat nog niet hebt gedaan.
import pandas as pd class scrapeit: try: def scrape(website=None, tag1=None, id1=None, tag2=None, id2=None): if not (website and tag1 and id1 and tag2 and id2)==None: try: page = requests.get(website) soup = BeautifulSoup(page.content, 'html.parser') infotag1 = soup.find_all(tag1, id1) infotag2 = soup.find_all(tag2, id2) priced = [prices.text for prices in infotag1] shirt = [shirts.text for shirts in infotag2] data = { 'Price':priced, 'Shirt_name':shirt} info = pd.DataFrame(data, columns=['Price', 'Shirt_name']) print(info) except: print('Not successful') else: print('Oops! Please enter a website, two tags and thier corresponding ids') except: print('Not successful!')
De schraper die u zojuist hebt gemaakt, is een herbruikbare module en u kunt deze importeren en gebruiken in een ander Python-bestand. Om de scrape- functie vanuit zijn klasse aan te roepen , gebruikt u scrapeit.scrape('Website URL', 'price_tag', 'price_id', 'shirt_tag', 'shirt_id') . Als u de URL en andere parameters niet opgeeft, wordt u in de else- instructie gevraagd dit te doen.
Om die scaper in een ander Python-bestand te gebruiken, kun je het als volgt importeren:
from scraper_module import scrapeit scrapeit.scrape('URL', 'price_tag', 'price_id', 'shirt_tag', 'shirt_id')
Opmerking: scraper_module is de naam van het Python-bestand dat de scraper-klasse bevat.
Je kunt ook de Beautiful Soup-documentatie raadplegen als je dieper wilt ingaan op hoe je er het beste gebruik van kunt maken.
Beautiful Soup is een krachtige Python-schermschraper die u controle geeft over hoe uw gegevens doorkomen tijdens het schrapen. Het is een waardevol zakelijk hulpmiddel, omdat het u toegang kan geven tot webgegevens van concurrenten, zoals prijzen, markttrends en meer.
Hoewel we in dit artikel een tag-schraper hebben gemaakt, kun je nog steeds spelen met deze krachtige Python-bibliotheek om meer bruikbare scraping-tools te maken.