Présentation - Données massives, apprentissage automatique et éthique

28 Jan 2018 in

Comment sont entreposées les données massives ?

Bases de données analytiques

hbase_replication_overview Source

Les bases de données de documents

Data Model Design Source

Les graphes

neo4jgraph Source

Les lacs de données

hadoop Source

On fait quoi de ces données non-structurées?

Journaux applicatifs

Utilisation d'expressions régulières.

Capture d'écran de la fonctionnalité Grok

Géo-localisation

Capture d'écran de la fonctionnalité GeoIP

Textes et voix

Analyse et traitement du langage naturel

CoreNLP

Encodage

InvertedIndex

Images et vidéos

Filtres convolutionnels

cnnweights Source

Palettes de couleurs

colour analysis of google images Source: Steven Kay CC BY 2.0

Identification d'objets

Illustration of the bag of words model for images along with the images clustering procedure Source

Description textuelle

models/research/im2txt at master tensorflow/models GitHub Source [@vinyals2017show;@sivic2009efficient]

Quels algorithmes d'apprentissage automatique sont utilisés sur ces données ?

Regroupement (Clustering)

Iris flower data set, clustered using k means (left) and true species in the data set (right) Source

Modèles linéaires (GLM)

Illustration of linear regression on a data set.Source

Arbres de décisions

Example diagram for decision tree. Picture created and uploaded by author.Source

Réseaux de neurones

HDLTex: Hierarchical Deep Learning for Text Classification Source

Analyse de réseaux sociaux

Traversée de graphes

Trouver le chemin le plus court répondant à une ou plusieurs contraintes.

A non-verbal description of three graph traversal algorithms: randomly, depth-first search, and breadth-first search. Source

Segmentation de graphes

Séparer un graphe en plusieurs sous-graphes en coupant le moins de liens possible.

Graph_comparison

Systèmes de recommendation

Filtrage collaboratif

Exemple: Easyrec Easyrec_architecture Source

Quelles sont les limites actuelles des algorithmes d'apprentissage automatique ?

Quartet d'Anscombe

Anscombes_quartet_3[Source: https://en.wikipedia.org/wiki/Anscombe%27s_quartet]

Le biais systémique et la discrimination

Il est de plus en plus facile de cacher la discrimination au travers d'algorithmes. Il suffit d'entraîner l'algorithme sur des données basées sur des décisions passées pour y inclure tous les biais des personnes qui ont prises ces décisions.

Les données en arrière-plan

Why Should I Trust You? Source

[@ribeiro2016should]

Comment vos données sont réellement utilisées ? La bonne façon

Prévenir la fraude

Airbnb Engineering & Data Science: Architecting a Machine Learning System for Risk

Éducation: Parcours de l'étudiant

Éducation: Adapter la pratique de l'enseignant

Much of our current educational system can be described as "memorize, regurgitate, and forget." Students learn to "study for the test. [...] Computers are very good in storage, retention, and regurgitation."

Référence: Moursund, D.G. (2005, 2006). Brief introduction to educational implications of Artificial Intelligence. (CC BY-NC)

Le futur de l'éducation

Jack Ma on the future of education

Soins de santé

Les algorithmes d'apprentissage profond peuvent identifier des tumeurs cancéreuses dans l'imagerie médicale.

Ex: Meilleure détection du cancer du sein

Deep Learning System Improves Breast Cancer Detection Source

Enjeu: il faut le consentement du patient pour partager les images.

Entretien préventif

Machine Learning for Predictive Maintenance

Comment vos données sont réellement utilisées ? La mauvaise façon

Weapons of math destruction

Weapons of math destruction, which O’Neil refers to throughout the book as WMDs, are mathematical models or algorithms that claim to quantify important traits: teacher quality, recidivism risk, creditworthiness but have harmful outcomes and often reinforce inequality, keeping the poor poor and the rich rich. They have three things in common: opacity, scale, and damage. They are often proprietary or otherwise shielded from prying eyes, so they have the effect of being a black box. They affect large numbers of people, increasing the chances that they get it wrong for some of them. And they have a negative effect on people, perhaps by encoding racism or other biases into an algorithm or enabling predatory companies to advertise selectively to vulnerable people, or even by causing a global financial crisis. Review: Weapons of Math Destruction

La bulle de confort

Systèmes de recommendations:

Segmentation de graphe:

La surveillance de masse

Les gouvernements utilisent le prétexte de la détection de nouveaux modèles de criminalité pour demander de plus en plus de données sur l'usage des moyens de communications par les citoyens.

the future-orientation increasingly severs surveillance from history and memory and the quest for pattern-discovery is used to justify unprecedented access to data

[@doi:10.1177/2053951714541861]

The NYPD is notorious for its intransigence on open records requests from the press and the public, particularly concerning documentation about the department’s extensive use of surveillance technology. In recent years, lawsuits have been filed to disclose information about the department’s network of surveillance cameras, its use of X-ray scanners in public, and the deployment of facial recognition technology

Transparency Advocates Win Release of NYPD “Predictive Policing” Documents

La prédiction des récidivistes

Les "Fake News"

Modern machine learning for natural language processing is able to do things like translate from one language to another, because everything it needs to know is in the sentence its processing - Ian Goodfellow, OpenAI

References

Voir bibliographie ici