Data Mining (2017-2018): Examen 2: John Samuel

Questions: deuxième session

Année: 2017-2018
Durée: 2 heures
Total: 15 points
Documents: autorisés
Types de documents autorisés: Tous les documents autorisés
Calculatrices : non autorisées

Question 1

Qu’est-ce qu’un stockage de données? Quels sont les différents systèmes de stockage de données? Décrivez-les brièvement. (1 point)

Question 2.a

Considérons un capteur capable de mesurer les valeurs suivantes : luminosité, pression, rayonnements UV, température et humidité. Comment pouvez-vous représenter ces mesures quotidiennes dans un système de stockage de données? Codez en Python un programme en utilisant Pandas qui peut lire ces données. (1 point)

Question 2.b

Qu’est-ce qu’une base de données NoSQL? Quels sont les différents types de bases de données NoSQL? Décrivez-les brièvement. (1 point)

Question 2.c

Considérons un capteur capable de mesurer les valeurs suivantes : luminosité, pression, rayonnements UV, température et humidité. Comment pouvez-vous représenter ces mesures quotidiennes dans une base de données (NoSQL) orientée colonnes? Expliquez avec un exemple.(1 point)

Question 3

Quels sont les différents types d’erreurs ? Comment peut-on les résoudre ? (1 point)

Question 4

Quelles sont les différences entre classification et partitionnement de données? (1 point)

Question 5.a

Considérons un fichier CSV contenant les colonnes suivantes : ville, année et population. Ce fichier contient les informations de la population des 10 villes enregistrées depuis 1950. Votre objectif est de coder en Python un programme qui:

peut lire ce fichier CSV
peut tracer un graphique montrant la population en fonction de temps pour chaque ville
calcule la ville plus peuplée en année 2000
calcule la population moyenne des villes en année 2000.

(1.5 points)

Question 5.b

Considérons un fichier CSV contenant les colonnes suivantes : pays, ville, année et population. Ce fichier contient les informations de la population des villes (de différents pays) enregistrées depuis 1900. Votre objectif est de coder en Python en utilisant pandas un programme qui peut lire ce fichier CSV et calcule les valeurs suivantes:

La ville la plus peuplée en année 2010
Pour chaque pays, la population moyenne des villes en année 2010.

(2 points)

Question 5.c

En continuant avec notre fichier CSV de la population, nous supposons que nos données sont complètes et qu’il ne contient pas d’informations incorrectes. Notre fichier contient l’information sur la population de Paris de 1900 à 2017. Votre prochain objectif est d’estimer (ou prédire) la population de Paris en année 2050. Coder en Python un programme pour réaliser cette tâche. (1.5 points)

Question 6.a

Qu’est-ce qu’un perceptron? (1 point)

Question 6.b

Qu'est-ce qu'un réseau de neurones artificiel? (0.5 point)

Question 6.c

Qu’est-ce qu’un apprentissage par renforcement?(1 point)

Question 7

Quelle est la différence entre l’apprentissage supervisé et l’apprentissage non-supervisé? (0.5 point)

Question 8

Avant de faire des analyses de données externes, quelles sont vos considérations? (1 point)

Questions: Data Mining

John Samuel