L’extraction web, aussi connue comme le web scraping ou moissonnage du web, est une pratique de plus en plus utilisée, en particulier dans le domaine de la veille concurrentielle et de la recherche marketing. Elle se résume à extraire des données depuis des pages web accessible publiquement pour en faire des bases de données structurées. […]
Étiquette : données ouvertes
Code postal: Pourquoi le demander dans un commerce ?
Ça nous arrive tous de nous faire demander notre code postal dans un commerce. T’es tu déjà demandé pourquoi ? C’est surtout pour accumuler des statistiques d’achalandage. On peut effectivement obtenir une quantité impressionnantes de données à partir d’un simple code postal. Maintenant, tu te demandes comment on peut faire, je suis certain ! Pour […]
Frigos communautaires, données et sourires !
Nous allons transformer un bottin d’adresse sous la forme d’une carte interactive. Pour ce faire, nous allons utiliser le logiciel statistique R, ainsi que l’outil de création de cartes Leaflet.
Attaques de pirates sur des navires
Je te présente un projet d’exploration de données géospatiales avec le langage R. J’ai utilisé un jeu de données compilées bénévolement. Celles-ci concernent les attaques de pirates sur les navires de la marine marchande. Comme le sujet des chaînes d’approvisionnement est d’actualité, et que de plus, on entend parler de piratage informatique énormément, je me […]
Tables de correspondance – Données de santé mentale de l’ISQ
Introduction Dans cet article, je vais vous présenter le concept de tables de correspondance. D’une part, je vous communique leur définition et leur rôle. Puis, je discuterai de leur usage lors de la création d’une base de données analytique. En particulier, lorsque nous exploitons des sources de données variées. Notre objectif ici est de concevoir […]
Données d’Amnesty international et traitement du langage naturel
Introduction À l’hiver 2021, j’ai eu l’occasion de travailler pour le département des sciences de la décision de HEC Montréal. La directrice du programme d’analytique d’affaires était à la recherche d’un spécialiste de R et du traitement automatique du langage naturel (natural language processing ou NLP) pour développer du matériel de formation. Dans le cadre […]
Rassemblons toutes les données des travaux routiers au Québec
Introduction Dans ce billet, je vais consolider les différents fichiers au format GPX des travaux routiers publiés par Transports Québec en un seul fichier GeoJSON. On pourra utiliser ensuite ce fichier dans n’importe quel logiciel de système d’information géographique (GIS). Téléchargement des données de travaux routiers Je vais d’abord télécharger les données en utilisant le […]
Analysons les données canadiennes de prix des logements
Visiblement, notre premier ministre n’est pas très au courant du marché locatif québécois et des prix des logements. Voici donc les données les plus à jour (octobre 2019) sur le marché canadien du logement, tirées du site de la SCHL et nettoyées pour les rendre utilisables et visualisables ! Outils utilisés Nous allons utiliser le […]