Exécuter Selenium Headless avec Chrome

Si vous souhaitez effectuer une automatisation Web Selenium ou un scrapping Web avec le navigateur Web Chrome, il exécute la version graphique du navigateur Web Chrome par défaut. Ce n'est pas un problème lorsque vous exécutez votre script Selenium à partir d'un environnement de bureau graphique Linux (i.e., GNOME 3, KDE, XFCE4). Mais si vous souhaitez exécuter votre script Selenium dans un environnement sans tête (i.e., Ubuntu Server, CentOS/RHEL Server) où aucun environnement de bureau graphique n'est installé, cela ne fonctionnera pas.

Heureusement, vous pouvez configurer Selenium pour exécuter le navigateur Web Chrome en mode sans tête. Dans ce mode, le navigateur Web Chrome s'exécutera sans aucune interface utilisateur graphique. Ainsi, Selenium peut faire de l'automatisation Web, du scraping Web, des tests de navigateur, etc. en utilisant le navigateur Web Chrome sur les serveurs Linux sur lesquels aucun environnement de bureau graphique n'est installé.

Dans cet article, je vais vous montrer comment exécuter Selenium avec le navigateur Web Chrome en mode sans tête. Je vais utiliser la bibliothèque Selenium Python et écrire les scripts Selenium en utilisant le langage de programmation Python 3. Alors, commençons.

Conditions préalables:

Pour essayer les commandes et les exemples de cet article, vous devez avoir,

1) Une distribution Linux (de préférence Ubuntu) installée sur votre ordinateur.
2) Python 3 installé sur votre ordinateur.
3) PIP 3 installé sur votre ordinateur.
4) Google Chrome installé sur votre ordinateur.

Vous pouvez trouver de nombreux articles sur ces sujets sur LinuxHint.com. N'oubliez pas de les consulter si vous avez besoin d'aide.

Préparation de l'environnement virtuel Python 3 pour le projet :

Python Virtual Environment est utilisé pour créer un répertoire de projet Python isolé. Les modules Python que vous installez à l'aide de PIP seront installés dans le répertoire du projet uniquement, pas globalement.

Python virtualenv module est utilisé pour gérer les environnements virtuels Python.

Vous pouvez installer Python virtualenv module globalement en utilisant PIP 3 comme suit :

$ sudo pip3 installer virtualenv

Python virtualenv devrait être installé.

Créer un répertoire de projet sans tête chromée/ dans votre répertoire de travail actuel comme suit :

$ mkdir -pv chrome-headless/drivers

Accédez à votre répertoire de projet nouvellement créé sans tête chromée/ comme suit:

$ cd sans tête chromée /

Créez un environnement virtuel Python dans votre répertoire de projet avec la commande suivante :

$ virtualenv .venv

L'environnement virtuel Python doit être créé dans le .venv/ répertoire dans votre répertoire de projet.

Activez l'environnement virtuel Python de votre répertoire de projet avec la commande suivante :

$ source .venv/bin/activer

Installation de la bibliothèque Python Selenium :

La bibliothèque Selenium est disponible dans le référentiel officiel Python PyPI.

Vous pouvez installer la bibliothèque Selenium Python à l'aide de PIP 3 comme suit :

$ pip3 installer le sélénium

La bibliothèque Selenium Python doit être installée.

Installation du pilote Web Chrome :

Chrome Web Driver vous permettra de contrôler ou d'automatiser le navigateur Web Google Chrome à partir de Selenium.

Dans cette section, je vais vous montrer comment installer le pilote Web Chrome.

Tout d'abord, ouvrez Google Chrome et visitez chrome://settings/help.

Une fois la page chargée, vous devriez trouver le numéro de version de Google Chrome dans le À propos de Chrome section. Notez les 3 premières sections du numéro de version comme indiqué dans la capture d'écran ci-dessous.

Pour télécharger Chrome Web Driver, visitez la page officielle de téléchargement du pilote Chrome.

Dans le Versions actuelles section, Chrome Web Driver pour les versions les plus récentes du navigateur Web Google Chrome devrait être disponible, comme vous pouvez le voir dans la capture d'écran ci-dessous. L'une des versions actuelles du pilote Web Chrome doit avoir un numéro de version correspondant à celui de votre navigateur Web Google Chrome. Les 3 premières sections du numéro de version de Chrome Web Driver et du navigateur Web Google Chrome doivent correspondre.

Si la version que vous recherchez n'est pas dans le Versions actuelles section, faites défiler un peu et vous devriez pouvoir la trouver.

Une fois que vous avez cliqué sur le numéro de version de Chrome Web Driver, il devrait accéder à sa page de téléchargement. Clique sur le chromedriver_linux64.Zip *: français fichier d'ici.

L'archive Chrome Web Driver doit être téléchargée.

Le téléchargé chromedriver_linux64.Zip *: français fichier doit être dans votre ~/Téléchargements annuaire.

$ ls -lh ~/Téléchargements

Extraire le chromedriver_linux64.Zip *: français archives de la ~/Téléchargements répertoire vers le Conducteurs/ répertoire de votre projet comme suit :

$ unzip ~/Téléchargements/chromedriver_linux64.zip -d pilotes/

Un nouveau fichier Chromedriver devrait être créé dans le Conducteurs/ répertoire de votre projet une fois l'archive Chrome Web Driver extraite, comme vous pouvez le voir dans la capture d'écran ci-dessous.

Test du pilote Web Chrome en mode sans tête :

Dans cette section, je vais vous montrer comment exécuter Selenium à l'aide du pilote Chrome en mode sans tête.

Tout d'abord, créez un nouveau script Python ex01.py dans votre répertoire de projet et tapez les lignes de codes suivantes dedans.

à partir du pilote Web d'importation de sélénium
du sélénium.pilote Web.commun.clés importer des clés
du sélénium.pilote Web.chrome.options d'importation Options
chromeOptions = Options()
ChromeOptions.sans tête = vrai
navigateur = pilote Web.Chrome(executable_path="./drivers/chromedriver", options=chromeOptions)
le navigateur.get("http://linuxhint.com")
print("Titre : %s" % navigateur.Titre)
le navigateur.quitter()

Une fois que vous avez terminé, enregistrez le ex01.py Script Python.

Ces lignes importent tous les éléments requis du sélénium bibliothèque.

Comme je l'ai dit plus tôt, par défaut, le pilote Chrome essaie d'exécuter Google Chrome en mode graphique. Pour exécuter Google Chrome en mode sans tête, nous devons dire au pilote Chrome de passer quelques options supplémentaires. Cette ligne crée un Options objet que nous pourrons transmettre au pilote Web Chrome ultérieurement.

Vous pouvez exécuter Google Chrome en mode sans tête simplement en définissant le sans tête propriété de la ChromeOptions s'opposer à Vrai.

Ou, vous pouvez utiliser le add_argument() méthode de la ChromeOptions objet pour ajouter le -sans tête argument de ligne de commande pour exécuter Google Chrome en mode sans tête à l'aide du pilote Web Selenium Chrome.

Vous pouvez utiliser un pilote Web.Chrome() méthode pour initialiser/exécuter un navigateur Web Google Chrome à partir de Selenium. le chemin_exécutable est utilisé pour dire à Selenium d'utiliser le Chromedriver binaire de la Conducteurs/ répertoire du projet. le options l'argument indique à Selenium d'utiliser nos options personnalisées ChromeOptions.

Une fois que Selenium exécute un navigateur Web Google Chrome à l'aide du pilote Web Selenium Chrome, il renvoie un le navigateur objet. Nous pouvons l'utiliser pour contrôler l'instance Google Chrome plus tard.

le le navigateur.obtenir() la méthode charge le astuce linux.com site Web dans le navigateur Web Google Chrome en arrière-plan (en mode sans tête).

Une fois la page chargée, le navigateur.Titre la propriété aura le titre du site Web. Le Python imprimer() la méthode imprime le titre du site Web sur la console.

Puis le le navigateur.quitter() la méthode ferme le navigateur Web Google Chrome.

Pour tester si Selenium peut fonctionner en mode sans tête, exécutez le script Python ex01.py comme suit:

$ python3 ex01.py

Il devrait imprimer le titre du site Web sur la console sans ouvrir le navigateur Web Google Chrome en mode graphique.

Juste pour vous montrer que cela fonctionne à partir de serveurs Linux sans tête (où aucune interface utilisateur graphique n'est installée), j'ai exécuté le script Python ex01.py sur Ubuntu Server 20.04 LTS. Comme vous pouvez le voir, le script fonctionne très bien.

Web Scraping avec Selenium en mode sans tête à l'aide du pilote Web Chrome :

Dans cette section, je vais vous montrer un exemple de scrapping Web dans Selenium à l'aide du pilote Web Chrome en mode sans tête.

Tout d'abord, visitez le générateur de noms aléatoires.informations de Google Chrome ou de tout autre navigateur Web. Ce site Web générera 10 noms aléatoires à chaque fois que vous rechargerez la page, comme vous pouvez le voir dans la capture d'écran ci-dessous. Notre objectif est d'extraire ces noms aléatoires en utilisant Selenium en mode sans tête.

Pour connaître la structure HTML de la liste, il faut ouvrir le Outil de développement Chrome. Pour ce faire, appuyez sur le bouton droit de la souris (RMB) sur la page et cliquez sur Inspecter ou appuyez sur + + je.

Outil de développement Chrome devrait être ouvert. Clique sur le Icône d'inspection () comme indiqué dans la capture d'écran ci-dessous.

Ensuite, survolez la liste des Noms aléatoires. La liste doit être mise en surbrillance comme indiqué dans la capture d'écran ci-dessous. Ensuite, appuyez sur le bouton gauche de la souris (LMB) pour sélectionner la liste.

Le code HTML de la liste doit être mis en évidence dans le Éléments onglet du Outil de développement Chrome. Ici, la liste des noms aléatoires est à l'intérieur d'un div élément. le div élément a le classer Nom résultats. A l'intérieur, nous avons un vieux élément avec le classer Nom liste de nom. À l'intérieur de vieux élément, chacun des noms est dans un je suis élément.

De là, nous pouvons dire que pour arriver à la je suis balises, nous devons suivre div.résultats > ol.liste de noms > li

Ainsi, notre sélecteur CSS sera div.résultats ol.nameList li (il suffit de remplacer le > signes avec espace)

Pour extraire ces noms aléatoires, créez un nouveau script Python ex02.py et tapez les lignes de codes suivantes dedans.

à partir du pilote Web d'importation de sélénium
du sélénium.pilote Web.commun.clés importer des clés
du sélénium.pilote Web.chrome.options d'importation Options
chromeOptions = Options()
ChromeOptions.sans tête = vrai
navigateur = pilote Web.Chrome(executable_path="./drivers/chromedriver", options=chromeOptions)
le navigateur.get("http://random-name-generator.Info/")
nameList = navigateur.find_elements_by_css_selector('div.résultats ol.nameList li')
pour le nom dans nameList :
imprimer(nom.texte)
le navigateur.quitter()

Une fois que vous avez terminé, enregistrez le ex02.py Script Python.

J'ai expliqué les lignes 1-8 dans la section précédente de cet article. Ce sont les mêmes que dans ex01.py.

La ligne 10 charge le site Web du générateur de noms aléatoires à l'aide du le navigateur.obtenir() méthode.

La ligne 11 sélectionne la liste de noms à l'aide de la le navigateur.find_elements_by_css_selector() méthode. Cette méthode utilise le sélecteur CSS div.résultats ol.nameList li pour trouver la liste des noms. Ensuite, la liste de noms est stockée dans le liste de nom variable.

Aux lignes 13 et 14, un pour la boucle est utilisée pour parcourir le liste de nom liste de je suis éléments. A chaque itération, le contenu du je suis l'élément est imprimé sur la console.

Maintenant, exécutez le script Python ex02.py comme suit:

$ python3 ex02.py

Comme vous pouvez le voir, le script Python ex02.py récupéré tous les noms aléatoires de la page Web.

Si vous exécutez le script une deuxième fois, il devrait renvoyer une nouvelle liste de noms aléatoires, comme vous pouvez le voir dans la capture d'écran ci-dessous.

Problèmes auxquels vous pouvez être confronté lors de l'exécution de Selenium en mode sans tête :

Vous avez vu précédemment que l'exécution de Selenium en mode sans tête à l'aide du pilote Chrome est aussi simple que de définir le ChromeOptions.sans tête drapeau à Vrai.

Cette solution peut ne pas fonctionner pour vous sur certaines distributions Linux. Dans cette section, je vais parler de certains des problèmes que vous pouvez rencontrer lors de l'exécution de Selenium en mode sans tête à l'aide du pilote Web Chrome.

Par défaut, le navigateur Web Google Chrome fait beaucoup de sandbox (exécute beaucoup de choses dans un environnement isolé). Cela peut entraîner des problèmes lors de l'exécution de Selenium en mode sans tête à l'aide du pilote Web Chrome. Vous pouvez désactiver le sandboxing pour Google Chrome en utilisant le -pas de bac à sable drapeau.

Pour ajouter le -pas de bac à sable flag, ajoutez la ligne suivante avant d'initialiser le pilote Selenium Chrome en utilisant pilote Web.Chrome() méthode (ligne 8 dans ex01.py script Python).

ChromeOptions.add_argument("--no-sandbox")

Vous pouvez avoir des problèmes pour faire certaines choses dans le navigateur Web Google Chrome à partir de Selenium, comme prendre des captures d'écran du site Web, etc. Cela peut se produire car, en mode sans tête, Google Chrome peut définir une résolution d'écran virtuel incorrecte. Ainsi, votre site Web peut ne pas sembler correct. Vous pouvez définir la résolution d'écran virtuel souhaitée pour le navigateur Web Google Chrome en mode sans tête à l'aide du bouton -la taille de la fenêtre option de ligne de commande.

Par exemple, pour définir la largeur de l'écran virtuel sur 1280 pixels et hauteur à 720 pixels, ajouter le -la taille de la fenêtre option de ligne de commande avant d'initialiser le pilote Selenium Chrome à l'aide pilote Web.Chrome() méthode (ligne 8 dans ex01.py script Python) comme suit :

ChromeOptions.add_argument("--window-size=1280,720")

Votre serveur peut ne pas avoir de GPU installé, ou il peut avoir un GPU que le navigateur Web Google Chrome ne saura pas utiliser. Par défaut, Google Chrome doit désactiver automatiquement l'accélération GPU si un GPU n'est pas disponible ou si un GPU non pris en charge est disponible. Dans certains cas, il peut ne pas le faire. Dans ce cas, Selenium peut ne pas être en mesure d'exécuter le navigateur Web Google Chrome en mode sans tête. Pour résoudre ce problème, vous devez désactiver l'accélération GPU à l'aide de la -désactiver-gpu drapeau.

Pour ajouter le -désactiver-gpu flag, ajoutez la ligne suivante avant d'initialiser le pilote Selenium Chrome en utilisant pilote Web.Chrome() méthode (ligne 8 dans ex01.py script Python).

ChromeOptions.add_argument ("-disable-gpu")

Conclusion:

Dans cet article, je vous ai montré comment configurer Selenium en mode sans tête à l'aide du pilote Web Chrome. J'ai couvert les bases, ce qui vous aidera à démarrer avec l'automatisation du navigateur sans tête Selenium, les tests Web et le grattage Web.

J'ai également couvert certains des arguments/indicateurs de ligne de commande de Google Chrome que vous pouvez utiliser pour résoudre certains des problèmes que vous pouvez rencontrer lors de l'exécution de Selenium en mode sans tête à l'aide du pilote Web Chrome.

Il existe de nombreuses autres options de ligne de commande Google Chrome disponibles, que je n'ai pas couvertes dans cet article. Ces options de ligne de commande peuvent être utiles pour votre projet. Vous pouvez trouver toutes les options de ligne de commande Google Chrome prises en charge dans la page Liste des commutateurs de ligne de commande Chromium par Peter Beverloo.