Data Mining et Machine Learning

John Samuel
CPE Lyon

Year: 2023-2024
Email: john(dot)samuel(at)cpe(dot)fr

Creative Commons License

Data Mining et Machine Learning

Objectifs

  1. Régularités
  2. Exploration des données
  3. Algorithmes
  4. Sélection de caractéristiques

2.1. Régularités

2.1. Régularités

Régularités naturelles

2.1. Régularités

Créations humaines

2.1. Régularités

Création

2.1. Régularités

Synonymes

2.1. Régularités

Reconnaissance de formes

2.1. Régularités

Formalisation

Exemples de caractéristiques

2.1. Régularités

Formalisation

Exemple

  1. https://en.wikipedia.org/wiki/Feature_vector

2.1. Régularités

Formalisation: Apprentissage supervisé

2.1. Régularités

Formalisation: Apprentissage non supervisé

2.1. Régularités

Formalisation: Apprentissage semi-supervisé

2.2. Data Mining et Machine Learning

Activités

  1. Classification
  2. Partitionnement de données (Clustering)
  3. Régression
  4. Étiquetage des séquences
  5. Règles d'association
  6. Détection d'anomalies
  7. Récapitulation

2.2.1. Classification

2.1.1 Introduction

2.2.1. Classification

Applications

2.2.1. Classification

2.1.2 Définition formelle

2.2.1. Classification

2.1.3. Classificateurs

2.2.1. Classification

2.1.4 Linear Classificateurs

2.2.1. Classification

2.1.5. Précision et rappel

Les vrais positifs et les vrais négatifs

2.2.1. Classification

2.1.5. Précision et rappel

Précision et rappel

2.2.1. Classification

2.1.5. Précision et rappel

Soit

2.2.1. Classification

2.1.5. Précision et rappel

Alors

2.2.1. Classification

2.1.5. Précision et rappel

2.2.1. Classification

2.1.5. Précision et rappel

2.2.1. Classification

Matrice de confusion

Les vrais positifs et les vrais négatifs

2.2.1. Classification

Matrice de confusion

Matrice de confusion pour un classificateur SVM pour les chiffres manuscrits (MNIST)

2.2.1. Classification

Matrice de confusion

Matrice de confusion pour un perceptron pour les chiffres manuscrits (MNIST)

2.2.1. Classification

Classification binaire

Classification binaire

2.2.1. Classification

Classification multiclasse

Classification multiclasse

2.2.1. Classification

Classification multiclasse [Aly 2005]

2.2.1. Classification

One-vs.-rest (One-vs.-all) strategy

La strategie un-contre le rest pour la classification multiclasse

2.2.1. Classification

One-vs.-rest (One-vs.-all) strategy

La strategie un-contre le rest pour la classification multiclasse

2.2.1. Classification

One-vs.-rest or One-vs.-all (OvR, OvA) strategy

2.2.1. Classification

One-vs.-rest or One-vs.-all (OvR, OvA) strategy

Prendre des décisions signifie appliquer tous les classificateurs à un échantillon invisible x et prédire l'étiquette k pour laquelle le classificateur correspondant rapporte le score de confiance le plus élevé : \[\hat{y} = \underset{k \in \{1 \ldots K\}}{\arg\!\max}\; f_k(x)\]

2.2.1. Classification

One-vs.-one strategy

La strategie un-contre-un pour la classification multiclasse

2.2.1. Classification

One-vs.-one strategy

  • nécessite l'entraînement des \(\frac{K (K - 1)}{2}\) classificateurs binaires
  • chaque classificateur reçoit les échantillons d'une paire de classes du jeu de formation original, et doit apprendre à distinguer ces deux classes.
  • Au moment de la prédiction, un système de vote est appliqué : tous les \(\frac{K (K - 1)}{2}\) classificateurs sont appliqués à un échantillon non vu et la classe qui a obtenu le plus grand nombre de prédictions est prédite par le classificateur combiné.
  • La strategie un-contre-un pour la classification multiclasse

    2.2.2. Partitionnement de données

    2.2.2.1. Introduction

    2.2.2. Partitionnement de données

    Applications

    2.2.2. Partitionnement de données

    Définition formelle

    2.2.2. Partitionnement de données

    Modèles de regroupement

    2.2.2. Partitionnement de données

    Modèles de regroupement

    k-means regroupement (voir section 3.3)

    2.2.2. Partitionnement de données

    Modèles de regroupement

    Dendrogramme de regroupement hiérarchique de l'ensemble de données Iris

    2.2.3 Régression

    2.2.3 Régression

    2.2.3 Régression

    Applications

    2.2.3 Régression

    Définition formelle

    \[ Y ≅ f(X,β) \]

    2.2.3 Régression

    Régression linéaire

    2.2.3 Régression

    Régression linéaire

    2.2.4. Étiquetage des séquences

    spaCy: Reconnaissance d'entités nommées

    Paris GPE is the capital of France GPE . In 2015 DATE , its population was recorded as 2,206,488 CARDINAL

    2.2.4. Étiquetage des séquences

    Reconnaissance d'entités nommées (spaCy)

    Paris GPE is the capital of France GPE . In 2015 DATE , its population was recorded as 2,206,488 CARDINAL
    Balise Signification
    GPE Pays, villes, états.
    DATE Dates ou périodes absolues ou relatives
    CARDINAL Les chiffres qui ne correspondent à aucun autre type.

    2.2.4. Étiquetage des séquences

    Applications

    2.2.4. Étiquetage des séquences

    Définition formelle

    2.2.5. Règles d'association

    Association Rules

    2.2.5. Règles d'association

    Applications

    2.2.5. Règles d'association

    Définition formelle

    2.2.5. Règles d'association

    Définition formelle

    2.2.5. Règles d'association

    Définition formelle

    2.2.5. Règles d'association

    Exemple

    2.2.6. Détection d'anomalies

    2.2.6. Détection d'anomalies

    Applications

    2.2.6. Détection d'anomalies

    Caractéristiques

    2.2.6. Détection d'anomalies

    Formalisation

    2.2.7. Récapitulation

    2.2.7. Récapitulation

    Applications

    2.2.7. Récapitulation

    Formalisation: Synthèse multi-documents

    2.2.7. Récapitulation

    Formalisation: Multidocument summarization

    2.2.7. Récapitulation

    2.2.7. Récapitulation

    Résumé extractif

    2.3. Algorithmes

    1. Support Vector Machines (SVM)
    2. Descente du gradient stochastique
    3. Voisins proches
    4. Bayes naïfs
    5. Arbres de décision
    6. Ensemble Methods (Forêt d'arbres décisionnels)

    2.3.1. Machine à vecteurs de support (SVM)

    Introduction

    2.3.1. Machine à vecteurs de support (SVM)

    Hyperplane

    2.3.1. Machine à vecteurs de support (SVM)

    Définition formelle

    Normal vector

    2.3.1. Machine à vecteurs de support (SVM)

    Définition formelle

    2.3.1. Machine à vecteurs de support (SVM)

    Définition formelle

    2.3.1. Machine à vecteurs de support (SVM)

    Data mining

    2.3.1. Machine à vecteurs de support (SVM)

    Applications

    2.3.2. Gradient stochastique de descente

    2.3.2. Gradient stochastique de descente

    Gradient

    2.3.2. Gradient stochastique de descente

    Gradient ou dérivé

    2.3.2. Gradient stochastique de descente

    Algorithme du gradient

    2.3.2. Gradient stochastique de descente

    Méthode standard de descente de gradient

    2.3.2. Gradient stochastique de descente

    Méthode itérative

    2.3.2. Gradient stochastique de descente

    Applications

    2.3.3. Méthode des plus proches voisins

    partitionnement en k-moyennes (k-means clustering)

    2.3.3. Méthode des plus proches voisins

    partitionnement en k-moyennes (k-means clustering)

    Étape 1 (Initialisation)

    2.3.3. Méthode des plus proches voisins

    partitionnement en k-moyennes (k-means clustering)

    Étape 2 (Étape d'affectation)

    2.3.3. Méthode des plus proches voisins

    partitionnement en k-moyennes (k-means clustering)

    Étape 3 (Étape de mise à jour et calcul du centroïde)

    2.3.3. Méthode des plus proches voisins

    partitionnement en k-moyennes (k-means clustering)

    Étape 4 (Répéter jusqu'à la convergence)

    2.3.3. Méthode des plus proches voisins

    Méthode des k plus proches voisins

    2.3.3. Méthode des plus proches voisins

    Applications

    2.3.4. Classification naïve bayésienne

    2.3.4. Classification naïve bayésienne

    Applications

    2.3.4. Classification naïve bayésienne

    Théorème de Bayes

    \[P(A|B) = \frac{(P(B|A).P(A))}{P(B)}\]

    2.3.4. Classification naïve bayésienne

    Théorème de Bayes: Classification d'un message

    \[P(S|W) = \frac{P(W|S) \cdot P(S)}{P(W|S) \cdot P(S) + P(W|H) \cdot P(H)}\]

    2.3.5. Arbres de décision

    2.3.5. Arbres de décision

    2.3.5. Arbres de décision

    Applications

    2.3.6. Apprentissage ensembliste (Forêt d'arbres décisionnels)

    Définition

    2.3.6. Apprentissage ensembliste (Forêt d'arbres décisionnels)

    Algorithme

    2.3.6. Apprentissage ensembliste (Forêt d'arbres décisionnels)

    Applications

    2.4. Sélection de caractéristique

    Définition

    2.4. Sélection de caractéristique

    Applications

    2.4. Sélection de caractéristique

    Définition formelle[8]

    Références

    Articles de recherche

    1. From data mining to knowledge discovery in databases, Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, AI Magazine Volume 17 Number 3 (1996)
    2. Survey of Clustering Data Mining et Machine Learning Techniques, Pavel Berkhin
    3. Mining association rules between sets of items in large databases, Agrawal, Rakesh, Tomasz Imieliński, and Arun Swami. Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD 1993. p. 207.
    4. Comparisons of Sequence Labeling Algorithms and Extensions, Nguyen, Nam, and Yunsong Guo. Proceedings of the 24th international conference on Machine learning. ACM, 2007.

    Références

    Articles de recherche

    1. An Analysis of Active Learning Strategies for Sequence Labeling Tasks, Settles, Burr, and Mark Craven. Proceedings of the conference on empirical methods in natural language processing. Association for Computational Linguistics, 2008.
    2. Anomaly detection in crowded scenes, Mahadevan; Vijay et al. Computer Vision and Pattern Recognition (CVPR), 2010 IEEE Conference on. IEEE, 2010
    3. A Study of Global Inference Algorithms in Multi-Document Summarization. McDonald, Ryan. European Conference on Information Retrieval. Springer, Berlin, Heidelberg, 2007.
    4. Feature selection algorithms: A survey and experimental evaluation., Molina, Luis Carlos, Lluís Belanche, and Àngela Nebot. Data Mining et Machine Learning, 2002. ICDM 2003. Proceedings. 2002 IEEE International Conference on. IEEE, 2002.
    5. Support vector machines, Hearst, Marti A., et al. IEEE Intelligent Systems and their applications 13.4 (1998): 18-28.

    Références

    Ressources en ligne

    Références

    Ressources en ligne

    Références

    Couleurs

    Images