# Information Retrieval 2/2

Dans cette partie, l'objectif est de mettre en application les meilleurs méthodes d'Information Retrieval pour votre outil de RAG.



Pour cela vous devrez :


1. Déterminer les modèles les plus appropriés (s'appuyer sur la partie précédente)
2. Pour les modèles d'embeddings, déterminer une base de donnée vectorielle appropriée
3. Implémenter la classe si dessous.

Conseils :
* Le framework *langchain* permet de réaliser ces tâches assez simplement.
* Vous pouvez tester les méthodes sur les passages test de la partie précédente et sur les documents de la première séance.
* Testez plusieurs méthodes (différents paramètres, renvoie d'un ou plusieurs passages concaténés...)

In [2]:
!pip install langchain
import langchain as lc

class TextRetriever:
 def __init__(self, model_name="facebook/bart-base", embedding_path="paraphrase-distilbert-base"):
 """
 Initialise les modèles et la base de données vectorielle.

 Args:
 model_name (str): Nom du modèle de langage à utiliser (ex: "facebook/bart-base").
 embedding_path (str): Chemin du répertoire où la base de données vectorielle est stockée.
 """
 self.model = lc.load(model_name)
 self.embeddings = lc.load_embeddings(embedding_path)

 def store_embeddings(self, chunks, path="embeddings.pkl"):
 """
 Stocke les embeddings des chunks de texte dans une base de données vectorielle.

 Args:
 chunks (list of str): Liste de chunks de texte à stocker.
 path (str): Chemin du répertoire où la base de données sera stockée.
 """
 embeddings = self.embeddings.encode(chunks)
 lc.save_embeddings(embeddings, path)

 def load_embeddings(self, path="embeddings.pkl"):
 """
 Charge les embeddings depuis une base de données vectorielle.

 Args:
 path (str): Chemin du répertoire de la base de données.
 """
 self.embeddings = lc.load_embeddings(path)

 def get_best_chunks(self, query, top_k=10):
 """
 Recherche les meilleurs chunks correspondant à une requête.

 Args:
 query (str): Requête de recherche.
 top_k (int): Nombre de meilleurs chunks à retourner.

 Returns:
 list: Liste des meilleurs chunks correspondant à la requête.
 """
 encoded_query = self.embeddings.encode([query])
 scores = self.embeddings.cosine_similarity(encoded_query, self.embeddings.vectors)
 top_k_indices = scores.argsort(axis=1)[:,-top_k:]
 top_chunks = [self.embeddings.docs[i] for i in top_k_indices.flatten()]
 return top_chunks

 def rerank_chunks(self, query, chunks):
 """
 Retrie les chunks par pertinence

 Args:
 query (str): Requête de recherche.
 chunks (list of str): Liste des chunks à reclasser.

 Returns:
 list: liste triée des chunks par pertinence
 """
 encoded_query = self.embeddings.encode([query])
 scores = self.embeddings.cosine_similarity(encoded_query, self.embeddings.encode(chunks))
 sorted_chunks = [chunks[i] for i in scores.argsort(axis=0)[:-1]]
 return sorted_chunks

 def get_context(self, query):
 """
 Retourne un texte contenant les informations pertinentes pour la requête.

 Args:
 query (str): Requête de recherche.

 Returns:
 str: texte pertinent pour répondre
 """
 top_chunks = self.get_best_chunks(query)
 return " ".join(top_chunks)



Collecting langchain
 Downloading langchain-0.2.1-py3-none-any.whl (973 kB)
[2K [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m973.5/973.5 kB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
Collecting langchain-core<0.3.0,>=0.2.0 (from langchain)
 Downloading langchain_core-0.2.3-py3-none-any.whl (310 kB)
[2K [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m310.2/310.2 kB[0m [31m31.4 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting langchain-text-splitters<0.3.0,>=0.2.0 (from langchain)
 Downloading langchain_text_splitters-0.2.0-py3-none-any.whl (23 kB)
Collecting langsmith<0.2.0,>=0.1.17 (from langchain)
 Downloading langsmith-0.1.69-py3-none-any.whl (124 kB)
[2K [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m124.4/124.4 kB[0m [31m13.9 MB/s[0m eta [36m0:00:00[0m
Collecting jsonpatch<2.0,>=1.33 (from langchain-core<0.3.0,>=0.2.0->langchain)
 Downloading jsonpatch-1.33-py2.py3-none-any.whl (12 kB)
Collecting packaging<24.0,>=23.2 (from langchain-core<0.3.0,>=0

## Questions


* Décrivez et motivez la méthode choisie (modèles utilisés, nombre de passages renvoyés...)
* Comment adapter la solution en cas de base de données plus grande?
* Quels sont les avantages à utiliser une base de données vectorielle pour stocker les embeddings?



