Installer Anaconda Python et Jupyter Notebooks pour la science des données

Premiers pas avec Anaconda

Pour expliquer ce qu'est Anaconda, nous citerons sa définition du site officiel :

Anaconda est un gestionnaire de packages, un gestionnaire d'environnement et une distribution Python gratuits et faciles à installer avec une collection de plus de 1 000 packages open source avec un support communautaire gratuit. Anaconda est indépendant de la plate-forme, vous pouvez donc l'utiliser que vous soyez sous Windows, macOS ou Linux.

Il est facile de sécuriser et de faire évoluer n'importe quel projet de science des données avec Anaconda car il vous permet nativement de transférer un projet de votre ordinateur portable directement vers le cluster de déploiement. Un ensemble complet de fonctionnalités peut également être affiché ici avec l'image officielle :

Entreprise Anaconda

Pour montrer brièvement ce qu'est Anaconda, voici quelques points rapides :

Il contient Python et des centaines de packages particulièrement utiles si vous débutez ou avez de l'expérience avec la science des données et l'apprentissage automatique
Il est livré avec le gestionnaire de packages conda et des environnements virtuels dont le développement est très facile
Il vous permet de démarrer le développement très rapidement sans perdre votre temps à configurer des outils pour la science des données et l'apprentissage automatique

Vous pouvez installer Anaconda à partir d'ici. Il installera automatiquement Python sur votre machine afin que vous n'ayez pas à l'installer séparément.

Carnets Anaconda vs Jupyter

Chaque fois que j'essaie de discuter d'Anaconda avec des débutants en Python et en science des données, ils se confondent entre Anaconda et Jupyter Notebooks. Nous citerons la différence en une ligne :

Anaconda est directeur chargé d'emballage. Jupyter est un couche de présentation.

Anaconda essaie de résoudre le l'enfer de la dépendance en python-où différents projets ont des versions de dépendances différentes-afin de ne pas faire de dépendances de projets différentes nécessitent des versions différentes, ce qui peut interférer les unes avec les autres.

Jupyter essaie de résoudre le problème de reproductibilité dans l'analyse en permettant une approche itérative et pratique pour expliquer et visualiser le code ; en utilisant une documentation riche en texte combinée à des représentations visuelles, dans une solution unique.

Anaconda est similaire à pyenv, venv et minconda; il est destiné à créer un environnement python reproductible à 100% sur un autre environnement, indépendamment des autres versions des dépendances d'un projet disponibles. C'est un peu similaire à Docker, mais limité à l'écosystème Python.

Jupyter est un outil de présentation incroyable pour le travail analytique; où vous pouvez présenter le code en « blocs », se combine avec des descriptions de texte enrichi entre les blocs et l'inclusion de la sortie formatée des blocs et des graphiques générés dans une matière bien conçue au moyen du code d'un autre bloc.

Jupyter est incroyablement bon dans le travail analytique pour assurer reproductibilité dans la recherche de quelqu'un, afin que tout le monde puisse revenir plusieurs mois plus tard et comprendre visuellement ce que quelqu'un a essayé d'expliquer, et voir exactement quel code a conduit quelle visualisation et quelle conclusion.

Souvent dans le travail analytique, vous vous retrouverez avec des tonnes de cahiers à moitié finis expliquant des idées de preuve de concept, dont la plupart ne mèneront nulle part au départ. Certaines de ces présentations pourraient des mois plus tard, voire des années plus tard, présenter une base à partir de laquelle construire un nouveau problème.

Utiliser Anaconda et Jupyter Notebook d'Anaconda

Enfin, nous verrons quelques commandes avec lesquelles nous pourrons utiliser Anaconda, Python et Jupyter sur notre machine Ubuntu. Tout d'abord, nous allons télécharger le script d'installation depuis le site Web d'Anaconda avec cette commande :

curl -O -k https://repo.anaconda.fr/archive/Anaconda3-5.2.0-Linux-x86_64.sh

Nous devons également nous assurer de l'intégrité des données de ce script :

sha256sum Anaconda3-5.2.0-Linux-x86_64.sh

Nous obtiendrons la sortie suivante :

Vérifier l'intégrité d'Anaconda

Nous pouvons maintenant exécuter le script Anaconda :

bash Anaconda3-5.2.0-Linux-x86_64.sh

Une fois que vous avez accepté les termes, fournissez un emplacement pour l'installation des packages ou appuyez simplement sur Entrée pour qu'il prenne l'emplacement par défaut. Une fois l'installation terminée, nous pouvons activer l'installation avec cette commande :

source ~/.bashrc

Enfin, testez l'installation :

liste de conda

Créer un environnement Anaconda

Une fois que nous avons une installation complète en place, nous pouvons utiliser la commande suivante pour créer un nouvel environnement :

conda create --name my_env python=3

Nous pouvons maintenant activer l'environnement que nous avons créé :

source activer mon_env

Avec cela, notre invite de commande changera, reflétant un environnement Anaconda actif. Pour continuer à configurer un environnement Jupyter, continuez avec cette leçon qui est une excellente leçon sur Comment installer Jupyter Notebooks sur Ubuntu et commencez à les utiliser.

Conclusion : Installez les blocs-notes Anaconda Python et Jupyter pour la science des données

Dans cette leçon, nous avons étudié comment installer et commencer à utiliser l'environnement Anaconda sur Ubuntu 18.04 qui est un excellent gestionnaire d'environnement à avoir, en particulier pour les débutants en Data Science et Machine Learning. Ceci est juste une introduction très simple de nombreuses leçons à venir pour Anaconda, Python, Data Science et Machine Learning. Partagez vos commentaires pour la leçon avec moi ou avec LinuxHint Twitter gérer.