Magic Scroll Icon Le grimoire du magicien Magic Scroll Icon

Extraction web: Comment bien planifier son projet ?

- 1,180 mots - Temps de lecture estimé: 7 minutes

Offre de formation

Magic Book IconChiffre tes données simplement avec CryptomatorMagic Book Icon

Tu stockes des dossiers confidentiels dans le nuage ? Chiffre-les sans changer tes méthodes de travail. Essentiel pour la conformité loi 25 et le RGPD.

Protège tes fichiers sensibles

L’extraction web, aussi connue comme le web scraping ou moissonnage du web, est une pratique de plus en plus utilisée, en particulier dans le domaine de la veille concurrentielle et de la recherche marketing.

Elle se résume à extraire des données depuis des pages web accessible publiquement pour en faire des bases de données structurées.

Cette pratique permet, entre autre, d’identifier des mots clés, de calculer des statistiques ou d’enrichir des sources de données existantes. Par contre, ce n’est pas en utilisant des API ni en utilisant des outils d’extraction intégrés aux sites web, mais bien en exploitant le code HTML, le même qui est utilisé pour afficher les pages dans ton navigateur.

Illustration de l'extraction web montrant le téléchargement d'une page, l'extraction du code HTML et sa conversion en tableau de données

Dans cet article, je vais te partager les éléments légaux, techniques et éthiques à considérer dans un projet d’extraction web.

🌘 Est-ce que c’est légal, l’extraction web ?


Sun Face IconComment planifier un projet d’extraction web de façon légale et éthique ?Sun Face Icon


Pour qu’un projet d’extraction web soit légal, les données ne doivent pas contenir d’informations personnelles, le site doit être accessible sans compte, les textes entiers ne doivent pas être reproduits intégralement, et les données collectées ne doivent pas être revendues. Au niveau technique, les URL doivent suivre un format prévisible, les formulaires doivent être en HTML natif, et le robot doit respecter les délais de politesse entre requêtes.

La première question qu’on va souvent se poser, c’est: est-ce que c’est légal, le web scraping ? Ça demeure une question ambiguë, étant donné qu’il y a très peu de jurisprudence. Mais, en se basant sur les éléments de lois actuelles, on peut conclure que, dans certains contexte, la pratique est légale.

Je te donne ici une liste de conditions à respecter pour rester dans les bonnes grâces. Si tu veux t’en assurer, par contre, n’hésite pas à consulter un.e juriste.

🌘 Comment savoir si c’est possible ?

Il faut aussi savoir si c’est possible au niveau technique de le faire sur le site web en question. Les sites web complexes, tels que ceux avec du contenu dynamique, peuvent être très difficiles à utiliser. Les réseaux sociaux sont des exemple de sites qui sont très difficiles à moissonner. Voici quelques éléments qui vont augmenter les chances de succès:

🌘 Avant de se lancer en grand

Je te laisse quelques conseils avant de te lancer en grand dans la programmation d’un script de web scraping:

  1. Vérifie si ça n’a pas déjà été fait ! Tu peux trouver des jeux de données sur des sites web tels que Kaggle, Google Datasets ou Data World.

  2. Consulte les réseaux sociaux et les sites collaboratifs. Reddit et GitHub sont de bons endroits pour recenser des jeux de données. Voir ces pages en particulier:

    1. https://github.com/awesomedata/awesome-public-datasets

    2. https://www.reddit.com/r/datasets/

  3. Si tu n’as pas trouvé de données, regarde si du code n’a pas déjà été développé pour le même site web que tu veux extraire. Ça pourrait te sauver beaucoup de temps. Encore une fois, des sites comme GitHub ou Zenodo pourront aussi t’aider.

  4. Enfin, tu peux vérifier sur un revendeur de données n’a pas déjà ce qu’il te faut !

    1. Data & Sons https://www.dataandsons.com/

    2. Datarade: https://datarade.ai/

    3. AWS Data Exchange: https://aws.amazon.com/fr/data-exchange/

    4. ArcGIS Marketplace: https://www.esri.com/en-us/arcgis-marketplace/products?data=Data

🌘 Les outils pour l’extraction web

Tu n’as finalement pas trouvé ce que tu cherchais sur le marché, et tu te sens prêt à faire ta propre collecte de données.

Voici différents logiciels que tu pourrais explorer:

🌘 Faire une extraction web respectueuse

Pour faire une extraction respectueuse, il faut respecter certains critères de base, une fois que tu t’es assuré de la faisabilité au niveau légal et technique.

🌘 Conclusion

J’espère que ces conseils t’aideront à mieux planifier ton projet d’extraction web.

Offre de service

Moon Phases IconConsultation stratégique IA et vie privée — 2 heures — 490 $Moon Phases Icon

Tu veux intégrer l’IA sans compromettre les données de ta clientèle ? En 2 heures, je t’aide à définir une stratégie IA responsable, basée sur les normes ISO et IEEE.

La consultation inclut un plan d'action détaillé pour mettre en œuvre les recommandations et prioriser les étapes suivantes.

Réserve ta Consultation stratégique
Abonne-toi au fil RSS pour ne rien manquer.

Étiquettes