Pour comprendre le concept de recherche en texte intégral, vous devez vous souvenir des connaissances sur la recherche de modèles via le mot-clé LIKE. Supposons donc une table 'person' dans la base de données 'test' contenant les enregistrements suivants.
>> SÉLECTIONNER * DE LA personne ;
Supposons que vous vouliez récupérer les enregistrements de cette table, où la colonne 'nom' a un caractère 'i' dans l'une de ses valeurs. Essayez la requête SELECT ci-dessous en utilisant la clause LIKE dans le shell de commande. D'après la sortie ci-dessous, vous pouvez voir que nous n'avons que 5 enregistrements pour ce caractère particulier 'i' dans la colonne 'nom'.
>> SELECT * FROM personne WHERE nom LIKE '%i%';
Utilisation de TVsector :
Parfois, il est inutile d'utiliser le mot-clé LIKE pour faire une recherche rapide de modèle, bien que le mot soit là. Peut-être envisageriez-vous d'utiliser des expressions standard, et bien qu'il s'agisse d'une alternative faisable, les expressions régulières sont à la fois fortes et lentes. Avoir un vecteur procédural pour des mots entiers dans un texte, une description vernaculaire de ces mots, est un moyen beaucoup plus efficace de résoudre ce problème. Le concept de recherche de texte complet et le type de données tsvector a été créé pour y répondre. Il existe deux méthodes dans PostgreSQL qui font exactement ce que nous voulons :
- Vers_tvsecteur : Utilisé pour faire une liste de jetons (ts signifie "recherche de texte").
- À_tsquery : Utilisé pour rechercher dans le vecteur les incidences de termes ou d'expressions spécifiques.
Exemple 01 :
Commençons par une illustration simple de la création d'un vecteur. Supposons que vous vouliez créer un vecteur pour la chaîne : « Certaines personnes ont les cheveux bruns bouclés grâce à un brossage approprié.". Vous devez donc écrire une fonction to_tvsector() avec cette phrase entre parenthèses d'une requête SELECT comme annexé ci-dessous. À partir de la sortie ci-dessous, vous pouvez voir que cela produirait un vecteur de références (positions de fichiers) pour chaque jeton, et également où les termes avec peu de contexte, comme les articles (le) et les conjonctions (et, ou), sont délibérément ignorés.
>> SELECT to_tsvector('Certaines personnes ont les cheveux bruns bouclés grâce à un brossage approprié');
Exemple 02 :
Supposons que vous ayez deux documents avec des données dans les deux. Pour stocker ces données, nous allons maintenant utiliser un exemple réel de génération de jetons. Supposons que vous ayez créé une table 'Data' dans votre base de données 'test' avec quelques colonnes à l'aide de la requête CREATE TABLE ci-dessous. N'oubliez pas de créer une colonne de type TVSECTOR nommée 'token' dedans. À partir de la sortie ci-dessous, vous pouvez consulter le tableau qui a été créé.
>> CREATE TABLE Data (Id SERIAL PRIMARY KEY, info TEXT, token TSVECTOR);
Maintenant, il s'agit pour nous d'ajouter les données globales des deux documents dans ce tableau. Essayez donc la commande INSERT ci-dessous dans votre shell de ligne de commande pour le faire. Enfin, les enregistrements des deux documents ont été ajoutés avec succès dans le tableau « Données ».
>> INSÉRER DANS LES VALEURS de données (info) ('Deux torts ne peuvent jamais en réparer un.'), ('C'est lui qui sait jouer au foot.'), ('Puis-je jouer un rôle dans ce?'), ('La douleur à l'intérieur de l'un ne peut pas être comprise'), ('Apportez la pêche dans votre vie);
Vous devez maintenant coloniser la colonne token des deux documents avec leur vecteur spécifique. En fin de compte, une simple requête UPDATE remplira la colonne des jetons par leur vecteur correspondant pour chaque fichier. Donc, vous devez exécuter la requête ci-dessous dans le shell de commande pour le faire. La sortie montre que la mise à jour a finalement été effectuée.
>> MISE À JOUR Données f1 SET jeton = to_tsvector(f1.info) À PARTIR des données f2 ;
Maintenant que tout est en place, revenons à notre illustration de « can one » avec un scan. To_tsquery avec l'opérateur AND, comme indiqué précédemment, ne fait aucune différence entre les emplacements des fichiers dans les fichiers, comme indiqué dans la sortie indiquée ci-dessous.
>> SELECT Id, info FROM Data WHERE jeton @@ to_tsquery('can & one');
Exemple 04 :
Pour trouver des mots « à côté » les uns des autres, nous allons essayer la même requête avec le '<->'opérateur. Le changement est affiché dans la sortie ci-dessous.
>> SELECT Id, info FROM Data WHERE jeton @@ to_tsquery('can <-> une');
Voici un exemple d'aucun mot immédiat à côté d'un autre.
>> SELECT Id, info FROM Data WHERE token @@ to_tsquery('one <-> la douleur');
Exemple 05 :
Nous trouverons les mots qui ne sont pas immédiatement côte à côte en utilisant un nombre dans l'opérateur de distance pour référencer la distance. La proximité entre « apporter » et « la vie est de 4 mots en dehors de l'image affichée.
>> SELECT * FROM Data WHERE jeton @@ to_tsquery('bring <4> vie');
Pour vérifier la proximité entre les mots pour près de 5 mots est annexé ci-dessous.
>> SELECT * FROM Data WHERE jeton @@ to_tsquery('wrong <5> droite');
Conclusion:
Enfin, vous avez fait tous les exemples simples et compliqués de recherche en texte intégral en utilisant les opérateurs et fonctions To_tvsector et to_tsquery.