Chimie et Numérique
Fouille de données
John Samuel
CPE Lyon
Year
: 2017-2018
Email
: john(dot)samuel(at)cpe(dot)fr
Chimie et Numérique
Objectives
Reconnaissance de formes
Introduction aux algorithmes de fouille de données
1. Régularités
1. Régularités
Régularités naturelles
Symétrie
Arbres, fractales
Spirales
Chaos
Ondes
Bulles, mousse
Pavages
Ruptures
Taches, bandes
1. Régularités
Créations humaines
Bâtiments (Symétrie)
Villes
Environnement virtuel (e.g., jeux de vidéo)
1. Régularités
Création
Répétition
Fractales
Ensemble de Julia:
f(z) = z
2
+ c
2. Fouille de données
Synonymes
Fouille de données
Forage de données
Extraction de connaissances à partir de données
Data mining
Machine learning
Apprentissage automatique
2. Fouille de données
Reconnaissance de formes
Identifier des motifs informatiques à partir de données brutes
Approches
Apprentissage supervisé
: Apprentissage automatique qui utilise un ensemble de données étiquetées
Apprentissage non-supervisé
: Apprentissage automatique qui utilise un ensemble de données non-étiquetées
Apprentissage semi-supervisé
: Apprentissage automatique qui utilise un ensemble de données étiquetées et non-étiquetées
3. Chimie et Numérique
Activités
Classification
Partitionnement de données (Clustering)
Régression
Détection d'anomalies
3.1. Classification
Catégorisation algorithmique d'objets.
Attribuer une classe ou catégorie à chaque objet (ou individu)
Classification binaire ou classification en classes multiples
3.1. Classification
Applications
Filtrage de contenu (e.g., spam/pourriel)
Classification de documents
Reconnaissance de l'écriture manuscrite
Reconnaissance automatique de la parole
Moteurs de recherche
3.1. Classification
Classificateur
Algorithme de classification
Deux types de classificateurs
Classificateur binaire
Attribuer une des deux classes ou catégories à chaque objet (ou individu)
Classificateur en classes multiples
Attribuer une des plusieurs classes ou catégories à chaque objet (ou individu)
3.2 Partitionnement de données (Clustering)
Diviser un ensemble de données en différents « paquets » homogènes,
Les données de chaque sous-ensemble partagent des caractéristiques communes
3.2 Partitionnement de données (Clustering)
Applications
Analyse des réseaux sociaux
Segmentation d'image
Systèmes de recommandation
3.2 Partitionnement de données (Clustering)
Méthodes de partitionnement des données
Méthodes basées centroïdes
Regroupement hiérarchique
3.3. Régression
Analyser la relation d'une variable par rapport à une ou plusieurs autres.
Attribuer une valeur réelle à chaque entrée
3.3. Régression
Applications
Prévisions météorologiques
Prévisions de ventes
Apprentissage machine
Finance
3.4 Détection d'anomalies
Identification de données inhabituelles
Approches
Détection supervisé
Détection non-supervisé
Détection semi-supervisé
3.4 Détection d'anomalies
Applications
Détection d'intrusion
Détection de fraude
System health monitoring
Détection d'événements dans les réseaux de capteurs
Détection d'abus dans un système d'information
3.5. Récapitulation
Synthèse courte d'un ensemble de données
Génération de rapports
3.5. Récapitulation
Applications
Extraction des mots-clès
Récapitulation de documents
Moteurs de recherche
Récapitulation d'images
Récapitulation de vidéos: découvrir des événements principaux dans une vidéo
4. Réseau de neurones artificiels
Inspirée du fonctionnement des neurones biologiques
Composé d'une succession de couches dont chacune prend ses entrées sur les sorties de la précédente
Chaque couche
i
est composée de
N
i
neurones.
Chaques couche prenne leurs entrées sur les
N
i-1
neurones de la couche précédente.
Le signal entre les neurones est une valeur
Le sortie d'une neurone est la somme de ses entrées
Artificial neural networks
4. Réseau de neurones artificiels
Perceptron
Classificateur binaire
Perceptron
4. Réseau de neurones artificiels
Réseaux neuronaux profonds (Deep neural networks)
Plusieurs couches cachées entre la couche d'entrée et la couche de sortie.
4. Réseau de neurones artificiels
Applications
Vision par ordinateur (reconnaissance de formes)
Reconnaissance automatique de la parole
Conception de médicament
Traitement automatique du langage naturel
Traduction automatique
4. Réseau de neurones artificiels
Réseau neuronal convolutif
Convolutional deep neural networks en Anglais
est inspiré par le cortex visuel des animaux
Empilage multicouche de perceptrons
L'objectif de chaque empil est de prétraiter de petites quantités d'informations.
L'avantage pricipale est de faire évoluer tout seul ses propres filtres
4. Réseau de neurones artificiels
Apprentissage par renforcement
Reinforcement learning (en Anglais)
Inspirée de théories de psychologie animale
Un agent autonome plongé au sein d'un environnement,
L'agent doit prendre des décisions en fonction de son état courant.
L'environnement procure à l'agent une récompense, qui peut être positive ou négative.
L'objectif est de maximiser la somme des récompenses au cours du temps.
5. Licences, Ethiques et la vie privé
Droits d'utilisation des données
Confidentiality and Privacy
Ethiques
Références
Ressources en-ligne
Patterns in Nature
Statistical classification
Regression analysis
Cluster analysis
Association rule learning
Anomaly detection
Sequence labeling
Automatic summarization
Pattern recognition
Scikit-learn
References
Colors
Color Tool - Material Design
Images
Wikimedia Commons