Web Scraping: guida introduttiva a import.io

Il web scraping è una tecnica che permette di estrarre dati da un sito web attraverso un software.

Le necessità possono essere molteplici, ma il principale vantaggio del fare web scraping è quello di trovarsi un database di informazioni in pochissimi minuti.

Pensiamo ad esempio ai tool SEO: queste aziende non hanno alcun accesso diretto ai dati delle SERP di Google, ma attraverso lo scraping, riescono ad offrire ai propri utenti tutte le informazioni riguardanti il posizionamento sui motori di ricerca dei loro siti web.

Grazie a PHP e altri linguaggi di programmazione si possono creare degli ottimi web scraper, ma esistono anche dei software gratuiti che permettono di sfruttare questa tecnica senza nessuna conoscenza informatica.

Oggi parleremo nello specifico del software import.io che ha sviluppato un ottimo strumento freemium interamente dedicato allo scraping. Questo servizio permette di scegliere 4 diverse opzioni:

Argomenti del post

1. Magic

La prima opzione di import.io si chiama Magic. Con questa funzione basterà incollare nel software l’url della pagina da dove vogliamo raschiare le informazioni. Ad esempio, Amazon.

Una volta fatto questo non ci resta che cliccare sul bottone “Extract Data” e in automatico il programma estrarrà dal sito tutte quelle informazioni che si ripetono e che quindi potrebbero essere rilevanti per l’utente.

Nel caso di Amazon, il software ha creato una colonna dove ha salvato:

nomi delle categorie in homepage
CTA
link
immagini dei prodotti
altre immagini

Tutte queste informazioni sono poi esportabili in un file .csv.

2. Extractor

Con la funzione Extractor è invece possibile decidere quali informazioni della pagina vogliamo estrarre. Come viene spiegato nel video qui sopra, è anche possibile esportare tutti gli elementi contenuti in uno stesso tag HTML (ad esempio i prezzi dei prodotti), tutti questi elementi verranno poi salvati in un’unica colonna a cui possiamo dare un nome specifico.

Ho utilizzato spesso l’extractor per costruirmi database contenenti informazioni prese da Wikipedia. È inoltre possibile raschiare i dati da una lista di url che forniamo noi stessi al software.

3. Crawler

Quando scegliamo la funzione Crawler il software si comporterà quasi come il normale crawler di Google. Andrà infatti a controllare tutti i link presenti sulla pagina e da questi estrarrà le informazioni di cui abbiamo bisogno. Grazie agli Xpaths e Regex è possibile indicare allo strumento quale deve essere la struttura degli url che dovrà realmente controllare.

4. Connector

L’ultima funzione si chiama Connector e permette di fare eseguire delle azioni al software, ad esempio cliccare su determinati pulsanti oppure utilizzare il motore di ricerca interno del sito web. Questo tipo di azioni sono molto utili quando si vuole estrarre tutte le informazioni prodotto da categorie composte da diverse pagine.

Inoltre grazie alle API di import.io è possibile collegare un file Google Spreadsheet, contenente alcuni termini di ricerca, con lo scraper che poi andrà a estrarre le informazioni dei risultati di ricerca per le varie query.

Web Scraping: guida introduttiva a import.io

1. Magic

2. Extractor

3. Crawler

4. Connector

Pubblicato

19 Settembre 2016

Cancella Risposta

Scrivi un commento