pandas

Comment utiliser Boxplot en Python

Comment utiliser Boxplot en Python
Une boîte à moustaches est utilisée pour résumer les ensembles de données en utilisant la méthode des boîtes à moustaches. Cette fonction aide les utilisateurs à bien comprendre le résumé des données. Les box plots peuvent être très utiles lorsque l'on veut savoir comment les données sont distribuées et réparties. Trois types de quartiles sont utilisés dans la boîte à moustaches pour tracer les données. Ces valeurs incluent les valeurs statistiques médianes, maximales, minimales, du quartile supérieur et du quartile inférieur. Une boîte à moustaches résume ces données dans les 25e, 50e, et 75e centiles. Ce didacticiel vous montrera comment créer des boîtes à moustaches basées sur un ensemble de données donné en utilisant le pandas et marin bibliothèques de Python.

Prérequis

Si vous êtes un nouvel utilisateur Python, vous devrez d'abord configurer l'environnement pour afficher la sortie de la boîte à moustaches. Vous pouvez utiliser n'importe quel interpréteur Python pour exécuter le code. Dans ce tutoriel, j'utiliserai spyder3 pour exécuter le code. Si vous n'avez pas installé le pandas et marin bibliothèques auparavant, vous devez exécuter la commande suivante à partir du terminal pour installer ces bibliothèques :

$ pip3 installer des pandas marins

Box plots avec pandas

le boîte à moustaches() méthode de pandas est utilisé pour générer des figures de boîte à moustaches basées sur le bloc de données. Cette méthode contient de nombreux arguments ; certains de ces arguments sont utilisés dans les exemples ci-dessous. Cette partie du didacticiel comprendra deux exemples qui vous montreront comment créer des boîtes à moustaches dans pandas. Vous pouvez utiliser des données générées aléatoirement dans la bibliothèque NumPy, ou les données d'un fichier CSV, pour générer une boîte à moustaches dans pandas.

Exemple 1 : Box plots basés sur des valeurs aléatoires

Les boîtes à moustaches de l'exemple suivant ont été générées à l'aide NumPy et pandas. La bibliothèque NumPy est utilisée dans le script pour créer un objet de bloc de données en générant un tableau bidimensionnel de valeurs aléatoires contenant 5 lignes et 5 colonnes. Le contenu du bloc de données sera imprimé en utilisant la tête() méthode. Ensuite, le boîte à moustaches() La méthode est utilisée pour générer des boîtes à moustaches avec une couleur bleue, une taille de police de 10 et un angle de rotation de 30 degrés pour afficher les valeurs de colonne.

#!/usr/bin/env python3
# Importer la bibliothèque de pandas
importer des pandas au format pd
# Importer la bibliothèque NumPy pour créer les nombres aléatoires pour le tableau
importer numpy en tant que np
"
Générer un ensemble de données basé sur un tableau NumPy créé de manière aléatoire
et cinq colonnes valeurs
"
cadre de données = pd.DataFrame(np.Aléatoire.randn(5,5), colonnes=['2016', '2017', '2018',
'2019', '2020'])
 
# Imprimer les valeurs de dataframe
print(dataframe.diriger())
# Afficher la boîte à moustaches en fonction des valeurs de la trame de données
trame de données.boxplot(grid='false', color='blue',fontsize=10, rot=30 )

Production

La sortie suivante apparaîtra après l'exécution du code.

Exemple 2 : Box plots basés sur des données CSV

Les boîtes à moustaches de l'exemple suivant ont été générées à partir de données CSV. Créez un fichier CSV nommé Banque.csv en utilisant les données suivantes.

Banque.csv

SL, nom_client, type_compte, sexe, solde
1,Maria Hernandez,Épargne,Femme,120000
2, Mary Smith, Actuel, Femelle, 40000
3,David Smith,Actuel,Homme,379000
4, Maria Rodriguez, épargne, femme, 56000
5,Mark Lee,Épargne,Homme,93500
6,Jonathan Bing,Actuel,Homme,5900
7,Daniel Williams, économie, mâle, 2300
8, Mike Brown, actuel, mâle, 124888
9,Paul Smith,Actuel,Homme,59450
10, Maria Lopez, économie, femme, 487600

Dans le script suivant, le matplotlib La bibliothèque a été utilisée pour configurer la taille de la figure de la boîte à moustaches et pour afficher la sortie en ligne. Tous les enregistrements de la Banque.csv fichier ont été chargés à l'aide du read_csv() méthode de pandas. Les 8 premiers enregistrements de la trame de données ont ensuite été imprimés à l'aide du diriger() méthode. le boîte à moustaches() méthode a été utilisée dans l'instruction suivante pour dessiner la figure de la boîte à moustaches en utilisant la couleur rouge basée sur 'Type de compte' avec la colonne nommée 'Équilibre.'

#!/usr/bin/env python3
# Importer des pandas pour générer une boîte à moustaches
importer des pandas au format pd
# Importez matplotlib pour configurer la taille de la figure de la boîte à moustaches
importer matplotlib.pyplot en tant que plt
# Importez get_ipython pour formater la sortie en ligne
depuis IPython importer get_ipython
get_ipython().run_line_magic('matplotlib', 'en ligne')
# Configurer la taille de la figure
plt.rcParams['figure.taille de la figue'] = (8,4)
# Charger l'ensemble de données à partir d'un fichier CSV
df = pd.read_csv("banque.csv")
# Imprimer les 8 premières lignes des données chargées
imprimer (df.tête(8))
# Afficher les box plots en fonction du paramètre utilisé
df.boxplot(by ='Account_Type',grid='True',column =['Balance'], color='red')

Production

La sortie suivante apparaîtra après l'exécution du code.

Box plots avec seaborn

Une autre bibliothèque de Python couramment utilisée pour dessiner des boîtes à moustaches est la bibliothèque marin.  L'une des caractéristiques importantes de cette bibliothèque est qu'elle contient de nombreux exemples de jeux de données intégrés pour tester différentes tâches. Les deux exemples suivants couvriront l'utilisation de deux ensembles de données d'échantillons différents pour tracer des boîtes à moustaches en utilisant le marin bibliothèque.

Exemple 3 : Box plots basés sur le paramètre x

L'exemple suivant utilise un exemple d'ensemble de données, nommé 'diamants,' de le né marin bibliothèque pour générer la boîte à moustaches. Ici, le style de grille est défini à l'aide de la set_style() méthode. le load_dataset() méthode est utilisée pour charger les données du 'diamants' base de données. Les cinq premiers enregistrements sont imprimés à partir de l'ensemble de données et le boîte à moustaches() est ensuite utilisée pour tracer la boîte à moustaches en fonction de la colonne, nommée 'profondeur,' avec la couleur bleue.

# Importez la bibliothèque Seaborn pour générer une boîte à moustaches
importer seaborn comme sns
# Importez matplotlib pour configurer la taille de la figure de la boîte à moustaches
importer matplotlib.pyplot en tant que plt
# Importez get_ipython pour formater la sortie en ligne
depuis IPython importer get_ipython
get_ipython().run_line_magic('matplotlib', 'inline')
# Configurer le style de la grille
sns.set_style("grille blanche")
# Configurer la taille de la figure
plt.rcParams['figure.taille de la figue'] = (8,4)
# Charger l'exemple de jeu de données
jeu_données_diamant = sns.load_dataset('diamants')
# Afficher les 5 premiers enregistrements de l'ensemble de données
print(diamond_dataset.diriger())
# Dessinez la figure des boîtes à moustaches
sns.boxplot(x=diamond_dataset['depth'], color='blue')

Production

La sortie suivante apparaîtra après l'exécution du code.

Exemple 4 : Box plots basés sur les paramètres x et y

L'exemple suivant utilise l'exemple d'ensemble de données nommé 'vols' pour dessiner la boîte à moustaches. Ici, les paramètres x et y de la boîte à moustaches() méthode sont utilisées pour dessiner la figure. Les autres instructions sont similaires à l'exemple précédent.

# Importez la bibliothèque Seaborn pour générer une boîte à moustaches
importer seaborn comme sns
# Importez matplotlib pour configurer la taille de la figure de la boîte à moustaches
importer matplotlib.pyplot en tant que plt
# Importez get_ipython pour formater la sortie en ligne
depuis IPython importer get_ipython
get_ipython().run_line_magic('matplotlib', 'en ligne')
 
# Configurer le style de la grille
sns.set_style (" darkgrid ")
# Configurer la taille de la figure
plt.rcParams['figure.taille de la figue'] = (12,4)
 
# Charger l'exemple de jeu de données
flight_dataset = sns.load_dataset('vols')
# Afficher les 5 premiers enregistrements de l'ensemble de données
print(flight_dataset.diriger())
 
# Dessinez la figure des boîtes à moustaches
sns.boxplot(x='month', y='passengers', data=flight_dataset, color='blue')

Production

La sortie suivante apparaîtra après l'exécution du code.

Conclusion

Lorsque vous travaillez avec une grande quantité de données, vous souhaiterez peut-être résumer les données à l'aide d'un diagramme, tel qu'une boîte à moustaches. Ce tutoriel a utilisé plusieurs exemples pour vous montrer comment générer des boîtes à moustaches avec deux bibliothèques Python.

Meilleurs jeux de laboratoire d'applications Oculus
Si vous êtes propriétaire d'un casque Oculus, vous devez être au courant du chargement latéral. Le chargement latéral est le processus d'installation ...
Top 10 des jeux à jouer sur Ubuntu
La plate-forme Windows a été l'une des plates-formes dominantes pour les jeux en raison du pourcentage énorme de jeux qui se développent aujourd'hui p...
5 meilleurs jeux d'arcade pour Linux
De nos jours, les ordinateurs sont des machines sérieuses utilisées pour les jeux. Si vous ne pouvez pas obtenir le nouveau score élevé, vous saurez c...