Apache Solr

Meilleurs moteurs de recherche auto-hébergés

Meilleurs moteurs de recherche auto-hébergés
Votre patron sait-il que vous cherchez un autre emploi? Avez-vous parlé à votre partenaire de l'incapacité de décider si vous voulez avoir des enfants ou non? Vos parents sont-ils au courant de votre orientation sexuelle? Eh bien, Google et d'autres moteurs de recherche majeurs le font.

"La plupart des utilisateurs effectuent des recherches sur Google lorsqu'ils sont connectés, de sorte que toutes les informations sur leur vie en ligne sont disponibles : recherches YouTube, e-mails et historique des recherches passées", explique Adam Tauber, développeur principal du métamoteur de recherche respectueux de la vie privée Searx.

Bien sûr, vous pouvez utiliser Tor pour l'anonymat et toujours supprimer toutes les traces de votre activité après chaque recherche, mais le faire après chaque recherche vieillirait très probablement assez rapidement. Au lieu de cela, vous devriez envisager d'installer un moteur de recherche auto-hébergé capable de récupérer des informations pour vous sans divulguer quoi que ce soit de sensible à votre sujet.

Nous avons sélectionné deux de ces moteurs de recherche et nous présentons également trois moteurs de recherche supplémentaires pour vous montrer qu'il existe déjà d'excellentes alternatives aux moteurs de recherche propriétaires tels que Google ou Bing et qu'elles sont plus faciles à installer et à utiliser que vous ne le pensez.

1. YaCy

YaCy est un moteur de recherche peer-to-peer distribué gratuit dont le composant principal est écrit en Java. Parce que tous les utilisateurs de YaCy sont égaux et parce que le moteur de recherche ne stocke pas les demandes de recherche des utilisateurs, la censure est tout simplement impossible.

Actuellement, YaCy indexe environ 1.4 milliards de documents dans son index grâce à l'activité de plus de 600 opérateurs pairs qui y contribuent chaque mois. À titre de comparaison, l'index de recherche Google contient des centaines de milliards de pages Web et dépasse largement les 100 000 000 gigaoctets.

Bien que YaCy ait encore un long chemin à parcourir avant de pouvoir rivaliser avec les plus grands moteurs de recherche centralisés au monde, il est déjà utilisable comme portail de recherche pour les intranets privés et les applications spécifiques à un projet, car YaCy peut fonctionner comme une seule appliance de recherche sans mise en réseau avec d'autres pairs.

YaCy peut être facilement intégré dans n'importe quelle page Web grâce à ses extraits de code simples qui peuvent être facilement copiés et collés sans aucune modification.

2. Searx

Searx est décrit comme un métamoteur de recherche piratable respectueux de la vie privée. Il est disponible sous la licence publique générale GNU Affero version 3, et son objectif principal est de protéger la confidentialité de ses utilisateurs en ne partageant jamais les adresses IP ou l'historique de recherche des utilisateurs avec les moteurs de recherche à partir desquels il recueille les résultats.

"Lorsque vous utilisez Searx, l'adresse IP de Searx, un User-Agent aléatoire et une requête de recherche sont envoyés à Google par défaut", explique Adam Tauber, alias asciimoo, comment fonctionne son métamoteur de recherche. "Bien sûr, vous pouvez personnaliser Searx pour transmettre d'autres paramètres supplémentaires tels que la langue de recherche ou le numéro de page de la page de résultats demandée."

Searx bloque automatiquement tous les cookies de suivi servis par les moteurs de recherche pour empêcher la modification des résultats basée sur le profilage de l'utilisateur, ce qui peut résulter d'un moteur de recherche essayant de mettre en œuvre une recherche individualisée en fonction de ce que le moteur sait de l'utilisateur. Searx est 100% gratuit, et n'importe qui peut le modifier au besoin. Vous pouvez même prendre le code Searx et exécuter le métamoteur de recherche sur votre propre serveur, ce qui devrait certainement répondre à toutes vos préoccupations concernant les journaux.

3. Recherche élastique

ElasticSearch est un moteur de recherche basé sur Lucene, une bibliothèque logicielle de recherche d'informations gratuite et open source prise en charge par Apache Software Foundation et publiée sous la licence de logiciel Apache.

ElasticSearch fournit un moteur de recherche en texte intégral avec une interface Web HTTP. Le moteur de recherche peut être utilisé pour rechercher toutes sortes de documents, et il peut être facilement distribué sur plusieurs nœuds.

Il est possible de créer un moteur de recherche auto-hébergé en utilisant ElasticSearch et Docker, et vous pouvez trouver un tutoriel qui décrit le processus ici.

4. Ambar

Ambar est un moteur de recherche de documents open source avec de nombreuses fonctionnalités utiles. Il prend en charge l'exploration automatisée, le balisage et la recherche instantanée en texte intégral, juste pour donner quelques exemples. L'une des fonctionnalités les plus intéressantes d'Ambar est sa capacité à effectuer une OCR sur des images et des fichiers PDF. Les langues prises en charge sont l'anglais, l'allemand, le russe, l'italien, le français, l'espagnol, le polonais et le néerlandais.

Ambar peut être facilement déployé avec un seul fichier docker-compose, et vous pouvez apprendre comment le faire ici.

5. Apache Solr

Écrit en Java, Apache Solr est une plate-forme de recherche d'entreprise qui inclut la recherche en texte intégral, la mise en évidence des hits, la recherche à facettes, l'indexation en temps réel, le clustering dynamique et de nombreuses autres fonctionnalités importantes. Il a été créé en 2004 pour un projet interne à CNET Networks. CNET Networks l'a gracieusement fait don à l'Apache Software Foundation en 2006, où il est passé du statut d'incubation à un projet autonome de haut niveau en 2007.

Aujourd'hui, Solr est une plate-forme de recherche d'entreprise hautement fiable, évolutive et tolérante aux pannes qui alimente les fonctionnalités de recherche et de navigation de plusieurs des plus grands sites Internet au monde, notamment DuckDuckGo, eHarmony et BestBuy. Vous pouvez

Comment installer et configurer YaCy

L'installation de YaCy est très simple et ne prend que quelques minutes car vous n'avez pas besoin d'installer une base de données externe ou un serveur Web. YaCy est livré avec tout le nécessaire.

  1. Allez sur le site officiel de YaCy et téléchargez le dernier package pour Linux.
  2. Installer l'environnement d'exécution OpenJDK 8.
    • Si vous utilisez une distribution basée sur Debian, utilisez la commande suivante : $ sudo apt-get install openjdk-8-jre
    • Sinon, suivez les instructions spécifiques à votre distribution.
  3. Extrayez le package téléchargé dans votre emplacement préféré.
  4. Allez dans le nouveau dossier et lancez le "startYACY.sh" script dans le terminal.
  5. Vous devriez voir un message de confirmation vous informant que YaCy a démarré en tant que démon

Conclusion

Les moteurs de recherche en savent plus sur nous que la plupart des gens ne voudraient l'admettre. Si vous souhaitez arrêter de nourrir les grandes entreprises avec des données juteuses, vous pouvez prendre les choses en main et configurer un moteur de recherche auto-hébergé pour protéger votre vie privée. Bien que les moteurs de recherche auto-hébergés aient encore un long chemin à parcourir pour devenir pleinement utilisables, le potentiel pour eux de surpasser Google est là et le capturer n'est qu'une question d'attirer plus d'utilisateurs.

SuperTuxKart pour Linux
SuperTuxKart est un excellent titre conçu pour vous apporter l'expérience Mario Kart gratuitement sur votre système Linux. C'est assez stimulant et am...
Tutoriel Bataille pour Wesnoth
The Battle for Wesnoth est l'un des jeux de stratégie open source les plus populaires auxquels vous pouvez jouer en ce moment. Non seulement ce jeu es...
0 A.ré. Didacticiel
Sur les nombreux jeux de stratégie disponibles, 0 A.ré. parvient à se démarquer comme un titre complet et un jeu tactique très profond bien qu'il soit...