👩‍🔬 En mars, soulignons le mois de l'histoire des femmes 🙋‍♀️

Magic Scroll Icon Le grimoire informatique Magic Scroll Icon

Extraction web: Comment bien planifier son projet ?

1,106 mots - Temps de lecture estimé: 6 minutes

L'extraction web, aussi connue comme le web scraping ou moissonnage du web, est une pratique de plus en plus utilisée, en particulier dans le domaine de la veille concurrentielle et de la recherche marketing.

Elle se résume à extraire des données depuis des pages web accessible publiquement pour en faire des bases de données structurées.

Cette pratique permet, entre autre, d'identifier des mots clés, de calculer des statistiques ou d'enrichir des sources de données existantes. Par contre, ce n'est pas en utilisant des API ni en utilisant des outils d'extraction intégrés aux sites web, mais bien en exploitant le code HTML, le même qui est utilisé pour afficher les pages dans ton navigateur.

L'extraction web: téléchargement de la page, extraction du code HTML, conversion en tableau de données

Dans cet article, je vais te partager les éléments légaux, techniques et éthiques à considérer dans un projet d'extraction web.

🌘 Est-ce que c'est légal, l'extraction web ?

La première question qu'on va souvent se poser, c'est: est-ce que c'est légal, le web scraping ? Ça demeure une question ambigue, étant donné qu'il y a très peu de jurisprudence. Mais, en se basant sur les éléments de lois actuelles, on peut conclure que, dans certains contexte, la pratique est légale.

Je te donne ici une liste de conditions à respecter pour rester dans les bonnes grâces. Si tu veux t'en assurer, par contre, n'hésite pas à consulter un.e juriste.

🌘 Comment savoir si c'est possible ?

Il faut aussi savoir si c'est possible au niveau technique de le faire sur le site web en question. Les sites web complexes, tels que ceux avec du contenu dynamique, peuvent être très difficiles à utiliser. Les réseaux sociaux sont des exemple de sites qui sont très difficiles à moissonner. Voici quelque éléments qui vont augmenter les chances de succès:

🌘 Avant de se lancer en grand

Je te laisse quelques conseils avant de te lancer en grand dans la programmation d'un script de web scraping:

  1. Vérifie si ça n'a pas déjà été fait ! Tu peux trouver des jeux de données sur des sites web tels que Kaggle, Google Datasets ou Data World.

  2. Consulte les réseaux sociaux et les sites collaboratifs. Reddit et GitHub sont de bons endroits pour recenser des jeux de données. Voir ces pages en particulier:

    1. https://github.com/awesomedata/awesome-public-datasets

    2. https://www.reddit.com/r/datasets/

  3. Si tu n'as pas trouvé de données, regarde si du code n'a pas déjà été développé pour le même site web que tu veux extraire. Ça pourrait te sauver beaucoup de temps. Encore une fois, des sites comme GitHub ou Zenodo pourront aussi t'aider.

  4. Enfin, tu peux vérifier sur un revendeur de données n'a pas déjà ce qu'il te faut !

    1. Data & Sons https://www.dataandsons.com/

    2. Datarade: https://datarade.ai/

    3. AWS Data Exchange: https://aws.amazon.com/fr/data-exchange/

    4. ArcGIS Marketplace: https://www.esri.com/en-us/arcgis-marketplace/products?data=Data

🌘 Les outils pour l'extraction web

Tu n'as finalement pas trouvé ce que tu cherchais sur le marché, et tu te sens prêt à faire ta propre collecte de données.

Voici différents logiciels que tu pourrais explorer:

🌘 Faire une extraction web respectueuse

Pour faire une extraction respectueuse, il faut respecter certains critères de base, une fois que tu t'es assuré de la faisabilité au niveau légal et technique.

🌘 Conclusion

J'espère que ces conseils t'aideront à mieux planifier ton projet d'extraction web. Si tu souhaites un accompagnement, je suis disponible pour te recevoir rapidement en Consultation Express.

Abonne-toi au flux RSS pour ne rien manquer.

Étiquettes