Il Web Scraping è illegale?

6 Maggio 2021

Il web scraping implica la raccolta di informazioni sotto forma di dati da siti web o pagine. Anche se il tuo potrebbe non essere un atto consapevole, hai raschiato il web in un modo o nell’altro mentre raccoglievi informazioni. Ma di solito è sottile.

Il web scraping o lo screen scraping è generalmente un atto mirato ei professionisti automatizzano la progettazione per ottenere enormi dati. Che si tratti di copiare manualmente i testi su un sito Web, utilizzare strumenti dedicati o scrivere script di web scraping, i web scrapers a volte colpiscono duramente un sito Web effettuando più richieste contemporaneamente.

Ma mentre molte aziende ora sfruttano il web scraping per ottenere un vantaggio competitivo, è effettivamente legale?

Quali siti web dovresti e non dovresti raschiare?

Internet è un pool di informazioni che consente alle persone di accedere a dati vecchi e in tempo reale. Il web scraping o lo screen scraping è in circolazione da un po ‘di tempo. Ma quanto dovresti usarlo e quali siti web puoi racimolare?

Alcuni siti web sono severi con web crawler o screen scrapers e li bloccano completamente. Quindi è palesemente ovvio che non dovresti raschiare tali siti web. Ma le persone lo fanno ancora.

Sfortunatamente, non c’è quasi nient’altro che tali siti possano fare per fermarlo oltre a riparare le loro scappatoie.

Prima di raschiare un sito web, idealmente, dovresti controllare se consente la scansione o meno. Di solito, puoi scoprirlo controllando il file robots.txt del sito. Puoi farlo digitando “[URL del sito web] /robots.txt”.

Un file robots.txt in genere imposta le regole per vari crawler o agenti utente. Tuttavia, queste regole variano a seconda del sito Web coinvolto. Mentre alcuni siti consentono la scansione su tutte le pagine, alcuni specificano le pagine che un bot può sottoporre a scansione e alcuni bloccano completamente i crawler.

Un sito web che impedisce a tutti i programmi utente di eseguire la scansione di tutte le pagine in genere imposta le seguenti regole:

user-agent: *
 Disallow: /

Un file robots.txt che impedisce a tutti i bot di eseguire la scansione di determinate directory o pagine in genere ha il seguente aspetto:

user-agent: *
 Disallow: /URL to page 1
 Disallow : /URL to page 2

Se il file robots.txt non disabilita la pagina di cui desideri eseguire la scansione, probabilmente puoi raschiarla. Altrimenti, dovresti fare marcia indietro o chiedere il consenso dell’amministratore. Potrebbero concederti l’accesso.

Inoltre, alcuni siti Web dichiarano esplicitamente se consentono o meno la scansione nei termini di utilizzo. Alcuni lo affermano anche all’inizio del loro file robots.txt. Controlla sempre anche quello per essere sicuro di fare la cosa giusta.

Come si abusa del Web Scraping

Quindi, se hai ricevuto e-mail o SMS di spam da siti Web o persone a cui non hai mai fornito le tue informazioni personali, probabilmente sei stato raschiato da qualche parte, in qualche modo. E principalmente, è tramite uno dei tuoi social media.

Detto questo, il web scraping a volte è più che una semplice raccolta di dati che vengono renderizzati al front-end. Se utilizzato in modo dannoso, può provocare la fuga di informazioni personali e classificate.

Mentre la maggior parte delle piattaforme di social media si acciglia, i robot che eseguono la scansione accedono ancora ai profili delle persone e le loro informazioni di contatto vengono trapelate e raschiate.

Facebook, ad esempio, è stato segnalato per avere vulnerabilità che hanno fatto trapelare le informazioni di contatto degli utenti in passato, anche se gli utenti le mantengono private.

Allo stesso modo, LinkedIn ha recentemente subito una violazione della sicurezza che ha provocato la fuga di dati personali appartenenti a oltre 500 milioni di account . Di conseguenza, tale vulnerabilità ha portato alla condivisione di molti indirizzi e-mail e numeri di telefono senza il consenso dei proprietari del profilo.

È illegale raschiare un sito web?

Non c’è mai stata una conclusione sulla legalità del web scraping. L’attenzione si concentra invece su come funziona un crawler caso per caso e su cosa utilizza i dati raccolti per ottenere.

Quindi, piuttosto che concludere sulla sua legalità, raschiare, se fatto in modo malizioso, è illegale. Ma se fatto con giudizio, non è illegale.

Ma come previsto, sembra esserci una politica più rigorosa sullo scraping e sull’uso dei dati dei social media poiché la privacy degli utenti è così importante. Tuttavia, tutto si riduce ancora al modo in cui le persone raccolgono i dati.

Il blog di Internet & Social Media Law ha analizzato il caso di hiQ Labs, una società di scraping di dati che ha vinto una causa contro LinkedIn nel 2019 dopo aver tentato di bloccare hiQ Labs dal raschiare i dati degli utenti di LinkedIn disponibili pubblicamente.

Con hiQ Labs che afferma che il Computer Fraud and Abuse Act (CFAA) vieta solo l’accesso non autorizzato, la sentenza ha affermato che i dati di LinkedIn erano pubblicamente disponibili, quindi chiunque li raschiava lo ha fatto perché sono accessibili.

Inoltre, hiQ Labs ha utilizzato i dati raccolti solo per fornire soluzioni di analisi alle aziende, in modo che possano prendere decisioni di reclutamento migliori.

Al contrario, Facebook ha recentemente citato in giudizio gli sviluppatori di estensioni di Chrome che hanno raschiato i profili degli utenti di Facebook senza il loro consenso.

Allo stesso modo, un sito copione è stato citato in giudizio da Facebook per aver raccolto le informazioni del profilo di diversi utenti di Instagram e quindi utilizzato per creare cloni. Secondo tale rapporto, Facebook si è poi spinto oltre per ottenere un’ingiunzione giudiziaria permanente contro l’autore del reato.

Questi sono alcuni casi in cui le persone potrebbero aver utilizzato il web scraping illegalmente. Le suddette società hanno raccolto i dati degli utenti di Facebook in modo fraudolento, senza il consenso dei propri utenti. Quindi ha violato le politiche sulla privacy.

Quindi, mentre il web scraping potrebbe frustrare il sito da cui riceve i dati, nessuna regola generale attualmente impedisce alle persone di ottenere ciò che vogliono, a condizione che non violino le leggi di Internet in modo definitivo.

Web Scraping è sinonimo di pirateria informatica?

Ci sono alcuni miti che circondano il web scraping. Uno di questi è la convinzione che lo scraping di un sito web significhi che lo hai hackerato. Sebbene l’hacking possa alla fine portare allo scraping dei dati, l’affermazione che il termine stesso significhi l’hacking di un sito Web non è vera.

Il web scraping può comportare l’uso di strumenti di scansione o scraping dedicati , API (Application Programming Interfaces) o script di web scraping per ottenere dati di rendering da un sito web. A differenza dell’hacking, non compromette il sito Web che raschia né interrompe l’esperienza dei suoi utenti.

Correlati: che cos’è il web scraping? Come raccogliere dati dai siti web

Pertanto, mentre l’hacking comporta l’accesso non autorizzato, di solito al database di un sito Web, lo scraping Web prende di mira solo i dati già visibili sul front-end. Sebbene le persone possano utilizzare il web scraping in modo dannoso, non è ancora sinonimo di hacking.

Inoltre, a differenza del web scraping, l’hacking intenzionale e non etico è illegale.

Quali sono gli aspetti positivi del web scraping?

Il web scraping ha molti aspetti positivi e persino alcune aziende tecnologiche ora offrono i propri dati gratuitamente tramite API. Queste informazioni di solito non sono sufficienti per valutare le tendenze aziendali e prendere decisioni.

Quindi le aziende ora ottengono più dati raschiando il Web per migliorare le pratiche e incentivare le vendite. Inoltre, i data scientist alimentano gli algoritmi di apprendimento automatico con i dati raccolti tramite lo screen scraping.

Tali dati possono essere immagini utilizzate nel riconoscimento delle immagini, testi semplici per l’analisi del sentiment o dati di prodotto diretti per l’intelligence di mercato e l’analisi del comportamento dei consumatori.

Correlati: modi unici per ottenere set di dati per il tuo progetto di machine learning

Quindi il web scraping è ancora più utile perché se hai accesso alle informazioni che il tuo concorrente non ha, puoi batterlo.

Mentre alcuni siti disapprovano i web scrapers, alcuni, anche i servizi di e-commerce, non si preoccupano se raschia i loro dati o meno. I giganti del web come eBay e Salesforce hanno lanciato la loro API nel 2000, offrendo ai programmatori l’accesso ai dati pubblici per la prima volta.

Dovresti davvero raschiare il web?

Abbiamo stabilito che il web scraping non è illegale se eseguito nel modo giusto. Ma anche quello che fai con i dati che raccogli è una preoccupazione. Quindi, invece di abusarne, usalo per trarre ulteriori intuizioni che aiutano te e gli altri a prendere decisioni informate.

Tuttavia, il web scraping come abilità ti dà accesso a grandi blocchi di dati Internet, che possono aiutare te o la tua azienda a rimanere al di sopra della nicchia di business. In qualità di data scientist, amplia anche il tuo ambito e migliora le tue capacità tecniche e di codifica.

Ad esempio, Python è uno dei linguaggi di programmazione che ti aiuta a raschiare facilmente un sito web con la sua libreria Beautiful Soup o il framework Scrapy.