Tutoriel Python Seaborn

Dans cette leçon sur la bibliothèque Python Seaborn, nous examinerons divers aspects de cette bibliothèque de visualisation de données que nous pouvons utiliser avec Python pour générer de beaux graphiques intuitifs qui peuvent visualiser les données sous une forme que l'entreprise souhaite à partir d'une plate-forme. Pour compléter cette leçon, nous couvrirons les sections suivantes :

Qu'est-ce que Python Seaborn?
Types de parcelles que nous pouvons construire avec Seaborn
Travailler avec plusieurs tracés
Quelques alternatives pour Python Seaborn

Cela ressemble à beaucoup de choses à couvrir. Commençons maintenant.

Qu'est-ce que la bibliothèque Python Seaborn?

La bibliothèque Seaborn est un package Python qui nous permet de faire des infographies basées sur des données statistiques. Comme il est créé au-dessus de matplotlib, il est donc intrinsèquement compatible avec celui-ci. De plus, il prend en charge la structure de données NumPy et Pandas afin que le traçage puisse être effectué directement à partir de ces collections.

La visualisation de données complexes est l'une des choses les plus importantes dont Seaborn s'occupe. Si nous devions comparer Matplotlib à Seaborn, Seaborn est capable de faciliter ces choses qui sont difficiles à réaliser avec Matplotlib. Cependant, il est important de noter que Seaborn n'est pas une alternative à Matplotlib mais un complément de celui-ci. Tout au long de cette leçon, nous utiliserons également les fonctions Matplotlib dans les extraits de code. Vous choisirez de travailler avec Seaborn dans les cas d'utilisation suivants :

Vous avez des données de séries chronologiques statistiques à tracer avec une représentation de l'incertitude autour des estimations
Pour établir visuellement la différence entre deux sous-ensembles de données
Pour visualiser les distributions univariées et bivariées
Ajout de beaucoup plus d'affection visuelle aux tracés matplotlib avec de nombreux thèmes intégrés
Pour ajuster et visualiser des modèles d'apprentissage automatique par régression linéaire avec des variables indépendantes et dépendantes

Juste une note avant de commencer est que nous utilisons un environnement virtuel pour cette leçon que nous avons fait avec la commande suivante :

python -m virtualenv seaborn
source seaborn/bin/activate

Une fois l'environnement virtuel actif, nous pouvons installer la bibliothèque Seaborn dans l'environnement virtuel afin que les exemples que nous créons ensuite puissent être exécutés :

pip installer seaborn

Vous pouvez également utiliser Anaconda pour exécuter ces exemples, ce qui est plus facile. Si vous souhaitez l'installer sur votre machine, regardez la leçon qui décrit "Comment installer Anaconda Python sur Ubuntu 18.04 LTS" et partagez vos commentaires. Passons maintenant aux différents types de tracés qui peuvent être construits avec Python Seaborn.

Utilisation de l'ensemble de données Pokemon

Pour garder cette leçon pratique, nous utiliserons un ensemble de données Pokemon qui peut être téléchargé à partir de Kaggle. Pour importer cet ensemble de données dans notre programme, nous utiliserons la bibliothèque Pandas. Voici toutes les importations que nous effectuons dans notre programme :

importer des pandas au format pd
de matplotlib importer pyplot en tant que plt
importer seaborn comme sns

Maintenant, nous pouvons importer l'ensemble de données dans notre programme et afficher certains des exemples de données avec Pandas comme :

df = pd.read_csv('Pokemon.csv', index_col=0)
df.diriger()

Notez que pour exécuter l'extrait de code ci-dessus, l'ensemble de données CSV doit être présent dans le même répertoire que le programme lui-même. Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante (dans le bloc-notes d'Anaconda Jupyter):

Tracer la courbe de régression linéaire

L'une des meilleures choses à propos de Seaborn est les fonctions de traçage intelligentes qu'il fournit qui non seulement visualisent l'ensemble de données que nous lui fournissons, mais construisent également des modèles de régression autour de celui-ci. Par exemple, il est possible de construire un tracé de régression linéaire avec une seule ligne de code. Voici comment procéder :

sns.lmplot(x='Attaque', y='Défense', données=df)

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

Nous avons remarqué quelques éléments importants dans l'extrait de code ci-dessus :

Une fonction de traçage dédiée est disponible dans Seaborn
Nous avons utilisé la fonction d'ajustement et de traçage de Seaborn qui nous a fourni une ligne de régression linéaire qu'il a lui-même modélisée

N'ayez pas peur si vous pensiez que nous ne pouvons pas avoir d'intrigue sans cette ligne de régression. Nous pouvons ! Essayons maintenant un nouvel extrait de code, similaire au précédent :

sns.lmplot(x='Attaque', y='Défense', data=df, fit_reg=False)

Cette fois, nous ne verrons pas la droite de régression dans notre graphique :

Maintenant, c'est beaucoup plus clair (si nous n'avons pas besoin de la droite de régression linéaire). Mais ce n'est pas encore fini. Seaborn nous permet de rendre différent cette intrigue et c'est ce que nous allons faire.

Construire des box plots

L'une des plus grandes fonctionnalités de Seaborn est la façon dont il accepte facilement la structure Pandas Dataframes pour tracer les données. Nous pouvons simplement passer une Dataframe à la bibliothèque Seaborn afin qu'elle puisse en construire une boîte à moustaches :

sns.boxplot(données=df)

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

Nous pouvons supprimer la première lecture du total car cela semble un peu gênant lorsque nous traçons en fait des colonnes individuelles ici :

stats_df = df.drop(['Total'], axe=1)
# Nouveau boxplot utilisant stats_df
sns.boxplot(data=stats_df)

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

Complot d'essaim avec Seaborn

Nous pouvons construire une parcelle Swarm de conception intuitive avec Seaborn. Nous utiliserons à nouveau la trame de données de Pandas que nous avons chargée plus tôt, mais cette fois, nous appellerons la fonction show de Matplotlib pour afficher le tracé que nous avons créé. Voici l'extrait de code :

sns.set_context("papier")
sns.swarmplot(x="Attaque", y="Défense", data=df)
plt.spectacle()

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

En utilisant un contexte Seaborn, nous permettons à Seaborn d'ajouter une touche personnelle et un design fluide à l'intrigue. Il est possible de personnaliser encore plus ce tracé avec une taille de police personnalisée utilisée pour les étiquettes du tracé afin de faciliter la lecture. Pour ce faire, nous passerons plus de paramètres à la fonction set_context qui fonctionne exactement comme ce qu'ils sonnent. Par exemple, pour modifier la taille de la police des étiquettes, nous utiliserons la police.paramètre de taille. Voici l'extrait de code pour effectuer la modification :

sns.set_context("papier", font_scale=3, rc="font.taille":8,"axes.taille des étiquettes" : 5)
sns.swarmplot(x="Attaque", y="Défense", data=df)
plt.spectacle()

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

La taille de la police de l'étiquette a été modifiée en fonction des paramètres que nous avons fournis et de la valeur associée à la police.paramètre de taille. Une chose dans laquelle Seaborn est expert est de rendre l'intrigue très intuitive pour une utilisation pratique, ce qui signifie que Seaborn n'est pas seulement un package Python pratique, mais en fait quelque chose que nous pouvons utiliser dans nos déploiements de production.

Ajouter un titre aux tracés

Il est facile d'ajouter des titres à nos parcelles. Nous avons juste besoin de suivre une procédure simple d'utilisation des fonctions au niveau des axes où nous appellerons le set_title() fonctionne comme nous le montrons dans l'extrait de code ici :

sns.set_context("papier", font_scale=3, rc="font.taille":8,"axes.taille des étiquettes" : 5)
my_plot = sns.swarmplot(x="Attaque", y="Défense", data=df)
mon_intrigue.set_title("LH Swarm Plot")
plt.spectacle()

Une fois que nous avons exécuté l'extrait de code ci-dessus, nous verrons la sortie suivante :

De cette façon, nous pouvons ajouter beaucoup plus d'informations à nos parcelles.

Seaborn contre Matplotlib

En examinant les exemples de cette leçon, nous pouvons identifier que Matplotlib et Seaborn ne peuvent pas être comparés directement, mais ils peuvent être considérés comme se complétant. L'une des fonctionnalités qui donne une longueur d'avance à Seaborn est la façon dont Seaborn peut visualiser les données statistiquement.

Pour tirer le meilleur parti des paramètres Seaborn, nous vous recommandons fortement de consulter la documentation Seaborn et de découvrir quels paramètres utiliser pour rendre votre tracé aussi proche que possible des besoins de l'entreprise.

Conclusion

Dans cette leçon, nous avons examiné divers aspects de cette bibliothèque de visualisation de données que nous pouvons utiliser avec Python pour générer de beaux graphiques intuitifs qui peuvent visualiser les données sous une forme que l'entreprise souhaite à partir d'une plate-forme. Seaborm est l'une des bibliothèques de visualisation les plus importantes en matière d'ingénierie des données et de présentation des données sous la plupart des formes visuelles, une compétence que nous devons certainement avoir à notre actif car elle nous permet de créer des modèles de régression linéaire.

Veuillez partager vos commentaires sur la leçon sur Twitter avec @sbmaggarwal et @LinuxHint.