Ce n'est pas une nouvelle que Google est le plus grand moteur de recherche au monde. Beaucoup de gens feront un effort supplémentaire pour que leur contenu soit bien classé sur Google avant tout autre moteur de recherche. En conséquence, Google a beaucoup de résultats de qualité pour chaque recherche et avec d'excellents algorithmes de classement, vous pouvez vous attendre à obtenir le meilleur des résultats de recherche sur Google.

Cela a une implication. Son implication est qu'il existe de nombreuses données utiles sur Google et cela nécessite de gratter ces données dorées. Les données grattées peuvent être utilisées pour une analyse de données de qualité et la découverte de merveilleuses informations. Il peut également être important d'obtenir d'excellentes informations de recherche en une seule tentative.

En parlant de grattage, cela peut être fait avec des outils tiers. Cela peut également être fait avec une bibliothèque Python connue sous le nom de Scrapy. Scrapy est considéré comme l'un des meilleurs outils de grattage et peut être utilisé pour gratter presque toutes les pages Web. Vous pouvez en savoir plus sur la bibliothèque Scrapy.

Cependant, quels que soient les points forts de cette merveilleuse bibliothèque. Gratter des données sur Google pourrait être une tâche difficile. Google réprime sévèrement toutes les tentatives de scraping Web, en veillant à ce que les scripts de scraping ne fassent même pas autant de 10 demandes de scrap en une heure avant que l'adresse IP soit interdite. Cela rend inutiles les scripts de grattage Web tiers et personnels.

Google donne la possibilité de récupérer des informations. Cependant, quel que soit le grattage qui serait effectué, il doit l'être via une interface de programmation d'application (API).

Juste au cas où vous ne sauriez pas déjà ce qu'est une interface de programmation d'applications, il n'y a rien à craindre car je vais vous fournir une brève explication. Par définition, une API est un ensemble de fonctions et de procédures qui permettent la création d'applications qui accèdent aux fonctionnalités ou aux données d'un système d'exploitation, d'une application ou d'un autre service. Fondamentalement, une API vous permet d'accéder au résultat final des processus sans avoir à être impliqué dans ces processus. Par exemple, une API de température vous fournirait les valeurs Celsius/Fahrenheit d'un lieu sans que vous ayez à vous y rendre avec un thermomètre pour faire vous-même les mesures.

En intégrant cela dans le cadre de la récupération des informations de Google, l'API que nous utiliserions nous permet d'accéder aux informations nécessaires sans avoir à écrire de script pour récupérer la page de résultats d'une recherche Google. Grâce à l'API, nous pouvons simplement avoir accès au résultat final (après que Google ait effectué le « grattage » à leur fin) sans écrire de code pour gratter les pages Web.

Bien que Google dispose de nombreuses API à des fins différentes, nous allons utiliser l'API JSON de recherche personnalisée pour les besoins de cet article. Plus d'informations sur cette API peuvent être trouvées ici.

Cette API nous permet de faire 100 requêtes de recherche par jour gratuitement, avec des plans tarifaires disponibles pour faire plus de requêtes si nécessaire.

Créer un moteur de recherche personnalisé

Pour pouvoir utiliser l'API JSON de recherche personnalisée, nous aurions besoin d'un ID de moteur de recherche personnalisé. Cependant, nous devrions d'abord créer un moteur de recherche personnalisé, ce qui peut être fait ici.

Lorsque vous visitez la page Moteur de recherche personnalisé, cliquez sur le bouton « Ajouter » pour créer un nouveau moteur de recherche.

Dans la case « sites à rechercher », mettez simplement « www.astuce linux.com" et dans la case "Nom du moteur de recherche", mettez n'importe quel nom descriptif de votre choix (Google serait préférable).

Cliquez maintenant sur « Créer » pour créer le moteur de recherche personnalisé et cliquez sur le bouton « Panneau de configuration » de la page pour confirmer le succès de la création.

Vous verrez une section « ID du moteur de recherche » et un ID en dessous, c'est l'ID dont nous aurions besoin pour l'API et nous y ferons référence plus tard dans ce didacticiel. L'ID du moteur de recherche doit rester privé.

Avant de partir, n'oubliez pas que nous avons mis "www.linuint.com" plus tôt. Avec ce paramètre, nous n'obtiendrions des résultats que du seul site. Si vous souhaitez obtenir les résultats normaux de la recherche Web totale, cliquez sur « Configuration » dans le menu de gauche, puis cliquez sur l'onglet « Bases ». Accédez à la section « Rechercher sur tout le Web » et activez cette fonctionnalité.

Création d'une clé API

Après avoir créé un moteur de recherche personnalisé et obtenu son identifiant, la prochaine étape consisterait à créer une clé API. La clé API permet d'accéder au service API et doit être conservée en toute sécurité après sa création, tout comme l'ID du moteur de recherche.

Pour créer une clé API, visitez le site et cliquez sur le bouton « Obtenir une clé ».

Créez un nouveau projet et donnez-lui un nom descriptif. En cliquant sur "suivant", vous auriez la clé API générée.

Sur la page suivante, nous aurions différentes options de configuration qui ne sont pas nécessaires pour ce didacticiel, vous n'avez donc qu'à cliquer sur le bouton « enregistrer » et nous sommes prêts à commencer.

Accéder à l'API

Nous avons bien réussi à obtenir l'ID de recherche personnalisé et la clé API. Ensuite, nous allons utiliser l'API.

Bien que vous puissiez accéder à l'API avec d'autres langages de programmation, nous allons le faire avec Python.

Pour pouvoir accéder à l'API avec Python, vous devez installer le client API Google pour Python. Cela peut être installé à l'aide du package d'installation pip avec la commande ci-dessous :

pip installer google-api-python-client

Après l'installation avec succès, vous pouvez maintenant importer la bibliothèque dans notre code.

La plupart de ce qui sera fait se fera via la fonction ci-dessous :

de googleapiclient.build d'importation de découverte
my_api_key = "Votre clé API"
my_cse_id = "Votre identifiant CSE"
def google_search(search_term, api_key, cse_id, **kwargs):
service = build("customsearch", "v1", developerKey=api_key)
res = service.cse().list(q=search_term, cx=cse_id, **kwargs).exécuter()
retour res

Dans la fonction ci-dessus, le my_api_key et mon_cse_id les variables doivent être remplacées par la clé API et l'ID du moteur de recherche respectivement en tant que valeurs de chaîne.

Il ne reste plus qu'à appeler la fonction en passant le terme de recherche, la clé api et l'identifiant cse.

result = google_search("Café", my_api_key, my_cse_id)
imprimer (résultat)

L'appel de fonction ci-dessus rechercherait le mot-clé « Café » et affecterait la valeur renvoyée au résultat variable, qui est ensuite imprimée. Un objet JSON est renvoyé par l'API de recherche personnalisée, donc toute analyse ultérieure de l'objet résultant nécessiterait une petite connaissance de JSON.

Cela peut être vu à partir d'un échantillon du résultat comme on le voit ci-dessous:

L'objet JSON renvoyé ci-dessus est très similaire au résultat de la recherche Google :

Résumé

Gratter Google à la recherche d'informations ne vaut pas vraiment la peine d'être stressé. L'API de recherche personnalisée facilite la vie de tout le monde, car la seule difficulté est d'analyser l'objet JSON pour les informations nécessaires. Pour rappel, n'oubliez jamais de garder vos valeurs d'ID de moteur de recherche personnalisé et de clé API privées.

Utilisation de l'API de recherche Google avec Python

Créer un moteur de recherche personnalisé

Création d'une clé API

Accéder à l'API

Résumé