# Implémentation d'un Chatbot documentaire (RAG)

# New Section

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## PARTIE 1 : Récupération de la base de données

Les rapports du GIEC (**Groupe intergouvernemental d’experts sur l’évolution du climat**) ou IPCC en anglais, fournissent un état des lieux régulier des connaissances les plus avancées sur le changement climatique, ses causes, ses impacts et les mesures possibles pour l’atténuer et s’y adapter.

La synthèse du sixième rapport d’évaluation du GIEC a été publiée le lundi 20 mars 2023. Fruit d’une collaboration internationale, ce nouveau rapport synthétise les connaissances scientifiques acquises entre 2015 et 2021. D'autres rapports ont été publiés entre temps sur des sujets spécifiques.

Nous nous intéressons à quatre de ces documents:

*   Sixth Assessment Report
*   The Ocean and Cryosphere in a Changing Climate
*   Climate Change and Land
*   Global Warming of 1.5°C




### 1. Récupération des documents

In [None]:
# Créez un dossier 'RAG_IPCC' dans les fichiers de votre session colab

In [None]:
# Téléchargez les 4 fichiers suivants dans ce dossier

import os
import requests

# Chemin du dossier où vous souhaitez télécharger les fichiers
chemin_dossier = "/content/drive/My Drive/RAG_IPCC"

# Vérifier si le dossier existe, sinon le créer
if not os.path.exists(chemin_dossier):
    os.makedirs(chemin_dossier)
    print("Le dossier 'RAG_IPCC' a été créé avec succès.")
else:
    print("Le dossier 'RAG_IPCC' existe déjà.")

# URLs des fichiers à télécharger
urls = {
    "6th_report": "https://www.ipcc.ch/report/ar6/syr/downloads/report/IPCC_AR6_SYR_FullVolume.pdf",
    "ocean": "https://www.ipcc.ch/site/assets/uploads/sites/3/2022/03/02_SROCC_TS_FINAL.pdf",
    "land": "https://www.ipcc.ch/site/assets/uploads/sites/4/2022/11/SRCCL_Technical-Summary.pdf",
    "warming": "https://www.ipcc.ch/site/assets/uploads/sites/2/2022/06/SPM_version_report_LR.pdf"
}

# Télécharger les fichiers dans le dossier
for name, url in urls.items():
    response = requests.get(url)
    with open(os.path.join(chemin_dossier, f"{name}.pdf"), 'wb') as file:
        file.write(response.content)
    print(f"{name} a été téléchargé.")


Le dossier 'RAG_IPCC' existe déjà.
6th_report a été téléchargé.
ocean a été téléchargé.
land a été téléchargé.
warming a été téléchargé.


### 2. Extraction du contenu textuel

In [None]:
# Choisissez une méthode d'extraction du contenu du pdf page à page

!pip install PyPDF2

import PyPDF2

# Chemin du dossier contenant les fichiers PDF
chemin_dossier = "/content/drive/My Drive/RAG_IPCC"

# Liste des fichiers PDF dans le dossier
fichiers_pdf = [f for f in os.listdir(chemin_dossier) if f.endswith('.pdf')]

# Liste pour stocker le texte extrait de chaque PDF
extracted_text = []

# Boucle à travers chaque fichier PDF
for pdf in fichiers_pdf:
    print(f"*** PROCESSING FILE : {pdf} ***")

    # Chemin complet du fichier PDF
    chemin_pdf = os.path.join(chemin_dossier, pdf)

    # Ouverture du fichier PDF en mode lecture binaire
    with open(chemin_pdf, 'rb') as file:
        # Création d'un objet de lecteur PDF
        pdf_reader = PyPDF2.PdfReader(file)

        # Boucle à travers chaque page du PDF
        for page_num in range(len(pdf_reader.pages)):
            # Extraction du texte de la page actuelle
            page = pdf_reader.pages[page_num]
            text = page.extract_text()

            # Ajout du texte extrait à la liste
            extracted_text.append(text)

# Affichage du texte extrait
for text in extracted_text:
    print(text)



[1;30;43mLe flux de sortie a été tronqué et ne contient que les 5000 dernières lignes.[0m
enhanced fishery 
productivity, improved 
water quality. Provision 
of food, medicine, fuel, 
wood and cultural 
benefits {4.4.2.3.5}Opportunity for 
community 
involvement,
{4.4.2.3.1}Effective up to 
0.5 cm yr
–¹ SLR. 
Strongly limited by 
ocean warming and 
acidification. 
Constrained at 1.5°C 
warming and lost at 
2°C at many places. 
{4.3.3.5.2, 4.4.2.3.2, 
5.3.4}
Effective up to 0.5–1 
cm yr–¹ SLR, 
decreased at 2°C 
{4.3.3.5.1, 4.4.2.3.2, 
5.3.7}(Marshes, Mangroves) 
(Marshes, 
Mangroves) High if the value of 
assets behind 
protection is high, as 
found in many urban and densely populated 
coastal areas 
{4.4.2.2.7}Destruction of habitat 
through coastal 
squeeze,flooding & 
erosion downdrift, 
lock-in, disastrous 
consequence in case 
of defence failure 
{4.3.2.4, 4.4.2.2.5}Predictable levels of 
safety {4.4.2.2.4}Multifunctional dikes 
such as for recreation, 
or other land use 
{4.4.2

### 3. Création des chunks

In [None]:
# Implémentez une fonction de splitting par nombre de mots
!pip install
import re
import nltk
from nltk.tokenize import word_tokenize
nltk.download('punkt')
def splitting_by_numer_of_words(text, chunk_size):
  list_text=word_tokenize(text)
  print(list_text)
  chunks=[]
  l=0
  str=""
  for mot in list_text:
    #if re.search('[a-zA-Z0-9]', mot):
      l+=1
      if l<chunk_size:
        str+=mot+" "
      else:
        chunks.append(str+mot)
        str=""
        l=0
  str = str[:-1] if str.endswith(" ") else str
  chunks.append(str)
  return chunks

# Implémentez une fonction de splitting par phrase
print(splitting_by_numer_of_words("Bonjour, aujourd'hui c'est. le 26 Mars 2019 ça marche?",5))
def splitting_by_sentences(text):
  sentences=text.split('.')
  return sentences
print(splitting_by_sentences("Bonjour, aujourd'hui c'est. le 26 Mars 2019 ça marche?"))

[31mERROR: You must give at least one requirement to install (see "pip help install")[0m[31m
[0m['Bonjour', ',', "aujourd'hui", "c'est", '.', 'le', '26', 'Mars', '2019', 'ça', 'marche', '?']
["Bonjour , aujourd'hui c'est .", 'le 26 Mars 2019 ça', 'marche ?']
["Bonjour, aujourd'hui c'est", ' le 26 Mars 2019 ça marche?']


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [None]:
# Implémentez une fonction de splitting intelligente avec différents paramètres
 #(nombre maximal de mots, caractère de fin de chunks etc.)



In [None]:
# Créez vos chunks avec la fonction de splitting qui semble la plus pertinente
# ATTENTION : on veut garder un maximum de metadonnées dans la base (titre, page etc.)

chunks = []
for page_content in extracted_text:
  ...
  chunks.append(...)


### 4. Nettoyage de la base documentaire

In [None]:
# Créez un ensemble de fonctions pour nettoyer le contenu de chaque chunk




In [None]:
# Créez différentes fonction pour retirer les chunks sans intérêt



### BONUS : Augmentation des métadonnées

Avoir un maximum d'informations sur chaque chunk (titre du document, page, nom du chapitre, description du document, date ...) est toujours intéressant : comme informations complémentaires pour l'utilisateur mais aussi potentiellement pour affiner la recherche en elle-même.

In [None]:
# Implémentez des fonctions permettant d'ajouter des métadonnées

