Enoncé du TP2

Ici, nous allons faire de la visualisation et un peu de traitement de données (statistiques). Ici encore, un compte rendu devra être donné en fin de séance, au format pdf.

Vous ferez figurer dans votre compte rendu :

Pour cela, nous allons utiliser une base d’exemples nommée Heart Disease Cleveland.

La base Heart Disease Cleveland

Cette base provient d’ici : https://www.kaggle.com/ronitf/heart-disease-uci. Elle est contenue dans un fichier csv que vous pouvez télécharger en cliquant sur ce lien.

Voici les détails de ce fichier :

Voici les informations disponible pour chaque patient.

  1. age
  2. sex (1 for male, 0 female)
  3. chest pain type (4 values)
  4. resting blood pressure
  5. serum cholestoral in mg/dl
  6. fasting blood sugar > 120 mg/dl
  7. resting electrocardiographic results (values 0,1,2)
  8. maximum heart rate achieved
  9. exercise induced angina
  10. oldpeak = ST depression induced by exercise relative to rest
  11. the slope of the peak exercise ST segment
  12. number of major vessels (0-3) colored by flourosopy
  13. thal: 3 = normal; 6 = fixed defect; 7 = reversable defect
  14. target : presence of heart disease in the patient. 0 (no presence) or 1 (presence).

Question 1 : Lecture du fichier csv

Toutes les données étant numériques, nous pouvons, par exemple, lire le fichier et placer les données dans un tableau 2D.

En Matlab 2012, nous pouvons utiliser pour cela la fonction csvread. A partir de la documentation de csvread, donner le code permettant de :

Question 2 : Visualisations 2D

Question 2 : Filtrage

Donnez le code permettant de récupérer

Voyez vous une différence statistique quelconque entre ces groupes ?

Question 3 : Quelques mesures statistiques.

Retrouvez vous dans ces figures les informations de moyenne et d’écart type mesurées précédemment ?

Question 4 : Prédictions simplistes

Imaginons que notre objectif soit, à partir d’une seule information, de prédire si un individu a un problème cardiaque. Par exemple, je vais supposer que chol > moyenne + 2 ecart types indique un pb cardiaque.