Semalt Expert ger en guide för att skrapa webben med Javascript

Webskrapning kan vara en utmärkt källa till kritisk data som används i beslutsprocessen i alla företag. Därför är det kärnan i dataanalys eftersom det är det säkra sättet att samla pålitliga data. Men eftersom mängden onlineinnehåll tillgängligt att skrotas alltid ökar kan det bli nästan omöjligt att skrapa varje sida manuellt. Detta kräver automatisering.

Även om det finns många verktyg där ute som är skräddarsydda för olika automatiserade skrapningsprojekt, är de flesta av dem premium och kostar dig en förmögenhet. Det är här Puppeteer + Chrome + Node.JS kommer in. Den här handboken leder dig genom processen och säkerställer att du automatiskt kan skrapa webbplatser.

Hur fungerar installationen?

Det är viktigt att notera att lite kunskap om JavaScript kommer att vara praktiskt i detta projekt. Till att börja med måste du få ovanstående tre program separat. Puppeteer är ett nodbibliotek som kan användas för att kontrollera headless Chrome. Headless Chrome hänvisar till processen att köra krom utan dess GUI, eller med andra ord utan att använda krom. Du måste installera Node 8+ från dess officiella webbplats.

Efter att ha installerat programmen är det dags att skapa ett nytt projekt för att börja utforma koden. Helst är det JavaScript-skrapning genom att du kommer att använda koden för att automatisera skrapningsprocessen. För mer information om Puppeteer se dokumentationen finns det hundratals exempel tillgängliga för dig att leka med.

Hur man automatiserar JavaScript-skrapning

När du skapar ett nytt projekt fortsätter du med att skapa en fil (.js). I den första raden måste du hämta Puppeteerberoende som du hade installerat tidigare. Detta följs sedan av en primär funktion "getPic ()" som kommer att innehålla all automatiseringskod. Den tredje raden kommer att påkalla funktionen "getPic ()" för att köra den. Med tanke på att getPic () -funktionen är en "async" -funktion, kan vi sedan använda väntauttrycket som kommer att pausa funktionen medan vi väntar på att "löfte" ska lösas innan vi går vidare till nästa kodrad. Detta kommer att fungera som den primära automatiseringsfunktionen.

Hur man ringer upp huvudlöst krom

Nästa kodrad: "const browser = invent puppeteer.Launch ();" kommer automatiskt att starta dockteater och köra en krominstans som ställer in den i vår nyskapade "webbläsare" -variabel. Fortsätt för att skapa en sida som sedan kommer att användas för att navigera till den URL som du vill skrapa.

Hur man skrotar data

Puppeteer API låter dig leka med olika webbplatsingångar som klockning, formulärfyllning och läsning av data. Du kan hänvisa till den för att få en nära bild av hur du kan automatisera dessa processer. Funktionen "skrapa ()" kommer att användas för att mata in vår skrapningskod. Fortsätt för att köra noden scrape.js-funktionen för att initiera skrapningsprocessen. Hela installationen bör sedan automatiskt börja mata ut önskat innehåll. Det är viktigt att komma ihåg att gå igenom din kod och kontrollera att allt fungerar enligt designen för att undvika att stöta på fel på vägen.

mass gmail