Notre tableau est la liste des maires français en 2014:
https://www.data.gouv.fr/storage/f/2014-04-25T17-51-58/maires-25-04-2014.xlsx
ce fichier est aussi dans data/maires-25-04-2014.xlsx
donc aucune raison de le recharger ...
Charger le fichier dans un DataFrame¶
In [ ]:
Corriger le tableau¶
Nous pouvons voir qu'il y a des problèmes:
- les 3 premières lignes ne sont que des commentaires à ignorer
- la dernière ligne contient des sommes que nous ne voulons pas
- les noms des colonnes sont dans la quatrième ligne
- les nom des colonnes est trop long (par exemple, "Code du département (Maire)"), alors définissons notre nom et ignorons également la ligne 4 (le titre)
Afficher le début du tableau après corrections.
In [ ]:
Lisez la doc de read_excel
et recharger le tableau avec les bonnes options pour avoir directement le tableau parfait, sans aucunes des corrections précédentes à faire.
In [ ]:
Naissance et population¶
- Vérifiez que les colonnes ont le bon type et mettez le bon type s'il n'est pas bon
- Ajouter une colonne "age". Utilisez la date de naissance pour ajouter une colonne 'age'. Le résultat attendu est le nombre d'années.
Si vous n'êtes pas à l'aise avec les dates, regardez le cours "11 datetime" de la lecon 2.
In [ ]:
Travail sur des données¶
- Afficher la ligne de paris
- Trier toutes les villes par population, la plus grande en premier
- Calculer la population totale
- Donner le pourcentage d'hommes qui sont maires
- Donner des statistiques sur l'âge des maires
In [ ]:
Regrouper les données¶
Grouper toutes les villes du même département et
- Additionner la population avec
np.sum
- Calculer l'âge moyen des maires avec
np.mean
- Compter le nombre de villes avec
np.size
Cela se fait en une ligne.
In [ ]: