Notre tableau est la liste des maires français en 2014:

https://www.data.gouv.fr/storage/f/2014-04-25T17-51-58/maires-25-04-2014.xlsx

ce fichier est aussi dans data/maires-25-04-2014.xlsx donc aucune raison de le recharger ...

Charger le fichier dans un DataFrame¶

In [ ]:
 

Corriger le tableau¶

Nous pouvons voir qu'il y a des problèmes:

  • les 3 premières lignes ne sont que des commentaires à ignorer
  • la dernière ligne contient des sommes que nous ne voulons pas
  • les noms des colonnes sont dans la quatrième ligne
  • les nom des colonnes est trop long (par exemple, "Code du département (Maire)"), alors définissons notre nom et ignorons également la ligne 4 (le titre)

Afficher le début du tableau après corrections.

In [ ]:
 

Lisez la doc de read_excel et recharger le tableau avec les bonnes options pour avoir directement le tableau parfait, sans aucunes des corrections précédentes à faire.

In [ ]:
 

Naissance et population¶

  • Vérifiez que les colonnes ont le bon type et mettez le bon type s'il n'est pas bon
  • Ajouter une colonne "age". Utilisez la date de naissance pour ajouter une colonne 'age'. Le résultat attendu est le nombre d'années.

Si vous n'êtes pas à l'aise avec les dates, regardez le cours "11 datetime" de la lecon 2.

In [ ]:
 

Travail sur des données¶

  • Afficher la ligne de paris
  • Trier toutes les villes par population, la plus grande en premier
  • Calculer la population totale
  • Donner le pourcentage d'hommes qui sont maires
  • Donner des statistiques sur l'âge des maires
In [ ]:
 

Regrouper les données¶

Grouper toutes les villes du même département et

  • Additionner la population avec np.sum
  • Calculer l'âge moyen des maires avec np.mean
  • Compter le nombre de villes avec np.size

Cela se fait en une ligne.

In [ ]: