🤖 Comment fonctionne l’algorithme de pertinence ?

Notre solution de recherche permet d'indexer et interroger des documents dans de nombreux formats différents.

Lorsqu’un utilisateur lance une recherche, plusieurs techniques sont combinées afin de présenter les résultats les plus pertinents en fonction de la requête.

📊 Calcul du Score de Pertinence

La recherche repose sur un calcul de score de pertinence (ou « score de match »).

Pour chaque document trouvé, le moteur attribue un score qui représente dans quelle mesure ce document correspond à la requête de l’utilisateur.

Ce score est déterminé par plusieurs facteurs, notamment :

Correspondance textuelle : Le moteur analyse dans quelles mesures les mots de la requête figurent dans le document.
La fréquence des mots : Plus un mot apparaît dans un document (et dans des champs importants), plus il contribue au score.
Des pondérations spécifiques : Certains champs (comme le titre) ont un poids (ou « boost ») plus élevé que d’autres (comme le contenu).

🎯 Priorisation des Champs de Recherche

Pour améliorer la pertinence, notre moteur de recherche accorde plus d’importance à certains champs que d’autres. Concrètement :

Le Titre a un fort impact : Un mot apparaissant dans le champ « titre » peut être pondéré jusqu’à 10 fois plus fortement qu’un mot dans le contenu.
Le Contenu et les Autres Champs : Par exemple, les zones comme le contenu ou certains champs de métadonnées (nom de l’auteur, adresses e-mail) ont une pondération plus faible (par exemple, 1 ou 3) par rapport au titre.

Cela signifie que si un document possède le mot recherché dans son titre, il sera considéré comme plus pertinent que s’il ne le trouvait que dans le contenu.

🔁 Impact de la Fréquence d’Apparition d’un Mot

Le nombre d’occurrences (ou la fréquence) d’un mot dans un document joue également un rôle. Voici comment cela fonctionne :

Plus un mot apparaît dans un document, plus cela renforce son score de pertinence pour la requête, surtout si ce mot apparaît dans un champ bien pondéré (comme le titre).
Moins un mot est fréquent dans le corpus complet, plus la présence de ce mot est importante (stratégie dite des "mots rares")
Les fonctions de score intègrent ces occurrences pour calculer un score global qui permet ensuite de classer les documents de manière à mettre en avant ceux qui correspondent le mieux à la recherche.

🚫 Gestion des Mots Vides (stopwords)

Pour éviter que des mots très courants et peu porteurs de sens (par exemple, « le », « la », « les », etc.) ne viennent fausser le calcul du score, notre système utilise des filtres de stopwords.

Ces mots sont automatiquement exclus de l’analyse du texte afin que seuls les mots significatifs influent sur le score.
Ces mots sont également exclus des surlignages (highlights) afin que l'utilisateur puisse plus facilement se rendre compte de la pertinence des résultats.

🧠 Recherche Sémantique et Traitement Linguistique

Notre solution intègre plusieurs techniques de traitement du langage naturel qui permettent d’améliorer la correspondance :

Stemming et Normalisation

Grâce à des analyseurs spécialement configurés notamment pour le français et d'autres langues européennes, les mots sont ramenés à leur racine. Ceci permet par exemple qu’une recherche pour « général » puisse aussi trouver « généraux », car les deux termes seront réduits à une forme commune.

Synonymes et Variations

Des filtres de synonymes sont également appliqués, ce qui aide à couvrir des variations linguistiques ou orthographiques.

Recherche par Phrase et Expression

En plus d’une recherche classique, le système utilise des requêtes "phrase" pour donner un coup de pouce aux documents dans lesquels les mots recherchés apparaissent proches les uns des autres, améliorant ainsi la cohérence contextuelle.

🕒 Autres Facteurs (comme la Date)

En plus du contenu textuel, notre algorithme peut également prendre en compte la fraîcheur des documents.

Une fonction de décroissance (dite "gaussienne") est appliquée sur le champ de la date, ce qui signifie que les documents plus récents sont favorisés dans le classement, surtout si leur contenu est pertinent pour la recherche.

📌 En Résumé

Calcul du Score : Le score est un calcul combinant la correspondance des mots, leur fréquence et l’importance du champ dans lequel ils apparaissent.
Boosting des Champs : Les mots dans le titre (avec un boost élevé) sont considérés comme plus significatifs que ceux du contenu.
Impact de la Fréquence : Plus un mot apparaît dans un document, plus celui-ci est considéré comme pertinent.
Exclusion des Mots Vides : Des mots courants (comme « le ») sont automatiquement éliminés pour se concentrer sur les termes essentiels.
Traitement Linguistique : Grâce au stemming et à l’utilisation de synonymes, différentes formes d’un mot (par exemple, « général » vs. « généraux ») sont traitées de manière similaire, ce qui enrichit la recherche.
Fraîcheur des Documents : La date du document intervient également pour offrir des résultats à la fois pertinents et d’actualité.

Ce système de recherche permet donc d’afficher en premier les documents les plus susceptibles de correspondre à l’intention de l’utilisateur, tout en prenant en compte des nuances linguistiques et contextuelles.