Spaces:

ahaahaaha
/

adaptive_rag

Paused

App Files Files Community

lanny xu commited on Nov 9

Commit

ef805fe

1 Parent(s): 7787f0c

modifies bug

Browse files

Files changed (7) hide show

.env +26 -1
config.py +22 -0
document_processor.py +314 -39
main.py +6 -0
requirements.txt +1 -0
setup_and_run.py +2 -0
workflow_nodes.py +32 -5

.env CHANGED Viewed

@@ -1,2 +1,27 @@
 TAVILY_API_KEY="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"
-# NOMIC_API_KEY="nk-kt4Tu3UdwFpIlDdxLcd9AK3a7cfdAKhoXvPbJ78oVlE"

 TAVILY_API_KEY="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"
+# NOMIC_API_KEY="nk-kt4Tu3UdwFpIlDdxLcd9AK3a7cfdAKhoXvPbJ78oVlE"
+# 混合检索配置
+ENABLE_HYBRID_SEARCH=true
+BM25_K1=1.5
+BM25_B=0.75
+ENSEMBLE_WEIGHTS=[0.5, 0.5]
+# 查询扩展配置
+ENABLE_QUERY_EXPANSION=true
+QUERY_EXPANSION_MODEL="all-MiniLM-L6-v2"
+QUERY_EXPANSION_TOP_K=5
+# 多模态配置
+ENABLE_MULTIMODAL=true
+MULTIMODAL_MODEL="openai/clip-vit-base-patch32"
+MULTIMODAL_IMAGE_MODEL="openai/clip-vit-base-patch32"
+# GraphRAG配置
+ENABLE_GRAPH_RAG=true
+GRAPH_ENTITY_EXTRACTION_MODEL="llama2"
+GRAPH_RELATION_EXTRACTION_MODEL="llama2"
+GRAPH_COMMUNITY_DETECTION=true
+GRAPH_COMMUNITY_ALGORITHM="louvain"
+GRAPH_VISUALIZATION=true
+GRAPH_LAYOUT="spring"

config.py CHANGED Viewed

@@ -75,6 +75,28 @@ GRAPHRAG_MAX_HOPS = 2  # 本地查询最大跳数
 GRAPHRAG_TOP_K_COMMUNITIES = 5  # 全局查询使用的社区数量
 GRAPHRAG_BATCH_SIZE = 10  # 实体提取批处理大小
 def get_api_keys():
     """获取API密钥并返回字典"""

 GRAPHRAG_TOP_K_COMMUNITIES = 5  # 全局查询使用的社区数量
 GRAPHRAG_BATCH_SIZE = 10  # 实体提取批处理大小
+# 混合检索策略配置
+ENABLE_HYBRID_SEARCH = True  # 是否启用混合检索策略
+HYBRID_SEARCH_WEIGHTS = {"vector": 0.7, "keyword": 0.3}  # 向量检索和关键词检索的权重
+KEYWORD_SEARCH_K = 5  # 关键词检索返回的文档数量
+BM25_K1 = 1.2  # BM25算法的k1参数
+BM25_B = 0.75  # BM25算法的b参数
+# 查询扩展优化配置
+ENABLE_QUERY_EXPANSION = True  # 是否启用查询扩展
+QUERY_EXPANSION_MODEL = "mistral"  # 用于查询扩展的模型
+QUERY_EXPANSION_PROMPT = """请为以下查询生成3-5个相关的扩展查询，这些查询应该从不同角度探索原始查询的主题。
+原始查询: {query}
+扩展查询: """  # 查询扩展提示模板
+MAX_EXPANDED_QUERIES = 3  # 最多使用的扩展查询数量
+# 多模态支持配置
+ENABLE_MULTIMODAL = True  # 是否启用多模态支持
+MULTIMODAL_IMAGE_MODEL = "openai/clip-vit-base-patch32"  # 图像嵌入模型
+SUPPORTED_IMAGE_FORMATS = ["jpg", "jpeg", "png", "gif", "bmp"]  # 支持的图像格式
+IMAGE_EMBEDDING_DIM = 512  # 图像嵌入维度
+MULTIMODAL_WEIGHTS = {"text": 0.7, "image": 0.3}  # 文本和图像检索的权重
 def get_api_keys():
     """获取API密钥并返回字典"""

document_processor.py CHANGED Viewed

@@ -11,16 +11,42 @@ except ImportError:
 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from config import (
     KNOWLEDGE_BASE_URLS,
     CHUNK_SIZE,
     CHUNK_OVERLAP,
     COLLECTION_NAME,
-    EMBEDDING_MODEL
 )
 from reranker import create_reranker
 class DocumentProcessor:
     """文档处理器类，负责文档加载、处理和向量化"""
@@ -56,10 +82,20 @@ class DocumentProcessor:
         self.vectorstore = None
         self.retriever = None
         # 初始化重排器
         self.reranker = None
         self._setup_reranker()
     def _setup_reranker(self):
         """
@@ -86,6 +122,43 @@ class DocumentProcessor:
                 print(f"⚠️ 重排器初始化完全失败: {e2}")
                 print("⚠️ 将使用基础检索，不进行重排")
     def load_documents(self, urls=None):
         """从URL加载文档"""
         if urls is None:
@@ -113,6 +186,30 @@ class DocumentProcessor:
             embedding=self.embeddings,
         )
         self.retriever = self.vectorstore.as_retriever()
         print("向量数据库创建完成")
         return self.vectorstore, self.retriever
@@ -133,31 +230,164 @@ class DocumentProcessor:
         # 返回doc_splits用于GraphRAG索引
         return vectorstore, retriever, doc_splits
-    def enhanced_retrieve(self, query: str, top_k: int = 5, rerank_candidates: int = 20):
-        """增强检索：先检索更多候选，然后重排"""
-        if not self.retriever:
-            print("⚠️ 检索器未初始化")
-            return []
-        # 1. 初始检索：获取更多候选文档 (使用 invoke 替代 get_relevant_documents)
-        initial_docs = self.retriever.invoke(query)
-        # 获取更多候选（如果可能）
-        if hasattr(self.retriever, 'search_kwargs'):
-            # 修改检索参数以获取更多结果
-            original_k = self.retriever.search_kwargs.get('k', 4)
-            self.retriever.search_kwargs['k'] = min(rerank_candidates, len(initial_docs))
-            candidate_docs = self.retriever.invoke(query)
-            self.retriever.search_kwargs['k'] = original_k  # 恢复原设置
-        else:
-            candidate_docs = initial_docs
-        print(f"初始检索获得 {len(candidate_docs)} 个候选文档")
-        # 2. 重排（如果重排器可用）
-        if self.reranker and len(candidate_docs) > top_k:
             try:
-                reranked_results = self.reranker.rerank(query, candidate_docs, top_k)
                 final_docs = [doc for doc, score in reranked_results]
                 scores = [score for doc, score in reranked_results]
@@ -167,40 +397,85 @@ class DocumentProcessor:
                 return final_docs
             except Exception as e:
                 print(f"⚠️ 重排失败: {e}，使用原始检索结果")
-                return candidate_docs[:top_k]
         else:
             # 不重排或候选数量不足
-            return candidate_docs[:top_k]
-    def compare_retrieval_methods(self, query: str, top_k: int = 5):
         """比较不同检索方法的效果"""
         if not self.retriever:
             return {}
         # 原始检索 (使用 invoke 替代 get_relevant_documents)
         original_docs = self.retriever.invoke(query)[:top_k]
-        # 增强检索（带重排）
-        enhanced_docs = self.enhanced_retrieve(query, top_k)
-        return {
-            'query': query,
-            'original_retrieval': {
-                'count': len(original_docs),
                 'documents': [{
                     'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
                     'metadata': getattr(doc, 'metadata', {})
-                } for doc in original_docs]
-            },
-            'enhanced_retrieval': {
-                'count': len(enhanced_docs),
                 'documents': [{
                     'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
                     'metadata': getattr(doc, 'metadata', {})
-                } for doc in enhanced_docs]
-            },
-            'reranker_used': self.reranker is not None
         }
     def format_docs(self, docs):
         """格式化文档用于生成"""

 from langchain_community.document_loaders import WebBaseLoader
 from langchain_community.vectorstores import Chroma
 from langchain_community.embeddings import HuggingFaceEmbeddings
+from langchain.retrievers import BM25Retriever
+from langchain_community.retrievers import EnsembleRetriever
 from config import (
     KNOWLEDGE_BASE_URLS,
     CHUNK_SIZE,
     CHUNK_OVERLAP,
     COLLECTION_NAME,
+    EMBEDDING_MODEL,
+    # 混合检索配置
+    ENABLE_HYBRID_SEARCH,
+    HYBRID_SEARCH_WEIGHTS,
+    KEYWORD_SEARCH_K,
+    BM25_K1,
+    BM25_B,
+    # 查询扩展配置
+    ENABLE_QUERY_EXPANSION,
+    QUERY_EXPANSION_MODEL,
+    QUERY_EXPANSION_PROMPT,
+    MAX_EXPANDED_QUERIES,
+    # 多模态配置
+    ENABLE_MULTIMODAL,
+    MULTIMODAL_IMAGE_MODEL,
+    SUPPORTED_IMAGE_FORMATS,
+    IMAGE_EMBEDDING_DIM,
+    MULTIMODAL_WEIGHTS
 )
 from reranker import create_reranker
+# 多模态支持相关导入
+import base64
+import io
+from PIL import Image
+import numpy as np
+from typing import List, Dict, Any, Optional, Union
 class DocumentProcessor:
     """文档处理器类，负责文档加载、处理和向量化"""
         self.vectorstore = None
         self.retriever = None
+        self.bm25_retriever = None  # BM25检索器
+        self.ensemble_retriever = None  # 集成检索器
         # 初始化重排器
         self.reranker = None
         self._setup_reranker()
+        # 初始化多模态支持
+        self.image_embeddings_model = None
+        self._setup_multimodal()
+        # 初始化查询扩展
+        self.query_expansion_model = None
+        self._setup_query_expansion()
     def _setup_reranker(self):
         """
                 print(f"⚠️ 重排器初始化完全失败: {e2}")
                 print("⚠️ 将使用基础检索，不进行重排")
+    def _setup_multimodal(self):
+        """设置多模态支持"""
+        if not ENABLE_MULTIMODAL:
+            print("⚠️ 多模态支持已禁用")
+            return
+        try:
+            print("🔧 正在初始化多模态支持...")
+            from transformers import CLIPProcessor, CLIPModel
+            import torch
+            device = 'cuda' if torch.cuda.is_available() else 'cpu'
+            self.image_embeddings_model = CLIPModel.from_pretrained(MULTIMODAL_IMAGE_MODEL).to(device)
+            self.image_processor = CLIPProcessor.from_pretrained(MULTIMODAL_IMAGE_MODEL)
+            print(f"✅ 多模态支持初始化成功 (设备: {device})")
+        except Exception as e:
+            print(f"⚠️ 多模态支持初始化失败: {e}")
+            print("⚠️ 将仅使用文本检索")
+            self.image_embeddings_model = None
+    def _setup_query_expansion(self):
+        """设置查询扩展"""
+        if not ENABLE_QUERY_EXPANSION:
+            print("⚠️ 查询扩展已禁用")
+            return
+        try:
+            print("🔧 正在初始化查询扩展...")
+            from langchain_community.llms import Ollama
+            self.query_expansion_model = Ollama(model=QUERY_EXPANSION_MODEL)
+            print(f"✅ 查询扩展初始化成功 (模型: {QUERY_EXPANSION_MODEL})")
+        except Exception as e:
+            print(f"⚠️ 查询扩展初始化失败: {e}")
+            print("⚠️ 将不使用查询扩展")
+            self.query_expansion_model = None
     def load_documents(self, urls=None):
         """从URL加载文档"""
         if urls is None:
             embedding=self.embeddings,
         )
         self.retriever = self.vectorstore.as_retriever()
+        # 如果启用混合检索，创建BM25检索器和集成检索器
+        if ENABLE_HYBRID_SEARCH:
+            print("正在初始化混合检索...")
+            try:
+                # 创建BM25检索器
+                self.bm25_retriever = BM25Retriever.from_documents(
+                    doc_splits,
+                    k=KEYWORD_SEARCH_K,
+                    k1=BM25_K1,
+                    b=BM25_B
+                )
+                # 创建集成检索器，结合向量检索和BM25检索
+                self.ensemble_retriever = EnsembleRetriever(
+                    retrievers=[self.retriever, self.bm25_retriever],
+                    weights=[HYBRID_SEARCH_WEIGHTS["vector"], HYBRID_SEARCH_WEIGHTS["keyword"]]
+                )
+                print("✅ 混合检索初始化成功")
+            except Exception as e:
+                print(f"⚠️ 混合检索初始化失败: {e}")
+                print("⚠️ 将仅使用向量检索")
+                self.ensemble_retriever = None
         print("向量数据库创建完成")
         return self.vectorstore, self.retriever
         # 返回doc_splits用于GraphRAG索引
         return vectorstore, retriever, doc_splits
+    def expand_query(self, query: str) -> List[str]:
+        """扩展查询，生成相关查询"""
+        if not self.query_expansion_model:
+            return [query]
+        try:
+            # 使用LLM生成扩展查询
+            prompt = QUERY_EXPANSION_PROMPT.format(query=query)
+            expanded_queries_text = self.query_expansion_model.invoke(prompt)
+            # 解析扩展查询
+            expanded_queries = [query]  # 包含原始查询
+            for line in expanded_queries_text.strip().split('\n'):
+                line = line.strip()
+                if line and not line.startswith('#') and not line.startswith('//'):
+                    # 移除可能的编号前缀
+                    if line[0].isdigit() and '.' in line[:5]:
+                        line = line.split('.', 1)[1].strip()
+                    expanded_queries.append(line)
+            # 限制扩展查询数量
+            return expanded_queries[:MAX_EXPANDED_QUERIES + 1]  # +1 因为包含原始查询
+        except Exception as e:
+            print(f"⚠️ 查询扩展失败: {e}")
+            return [query]
+    def encode_image(self, image_path: str) -> np.ndarray:
+        """编码图像为嵌入向量"""
+        if not self.image_embeddings_model:
+            raise ValueError("多模态支持未初始化")
+        try:
+            # 加载并处理图像
+            image = Image.open(image_path).convert('RGB')
+            inputs = self.image_processor(images=image, return_tensors="pt")
+            # 获取图像嵌入
+            with torch.no_grad():
+                image_features = self.image_embeddings_model.get_image_features(**inputs)
+                # 标准化嵌入向量
+                image_features = image_features / image_features.norm(p=2, dim=-1, keepdim=True)
+            return image_features.cpu().numpy().flatten()
+        except Exception as e:
+            print(f"⚠️ 图像编码失败: {e}")
+            raise
+    def multimodal_retrieve(self, query: str, image_paths: List[str] = None, top_k: int = 5) -> List:
+        """多模态检索，结合文本和图像"""
+        if not ENABLE_MULTIMODAL or not self.image_embeddings_model:
+            # 如果多模态未启用，回退到文本检索
+            return self.hybrid_retrieve(query, top_k) if ENABLE_HYBRID_SEARCH else self.retriever.invoke(query)[:top_k]
+        # 文本检索
+        text_docs = self.hybrid_retrieve(query, top_k) if ENABLE_HYBRID_SEARCH else self.retriever.invoke(query)[:top_k]
+        # 如果没有提供图像，直接返回文本检索结果
+        if not image_paths:
+            return text_docs
+        try:
+            # 图像检索
+            image_results = []
+            for image_path in image_paths:
+                # 检查文件格式
+                file_ext = image_path.split('.')[-1].lower()
+                if file_ext not in SUPPORTED_IMAGE_FORMATS:
+                    print(f"⚠️ 不支持的图像格式: {file_ext}")
+                    continue
+                # 编码图像
+                image_embedding = self.encode_image(image_path)
+                # 这里应该实现图像到文本的匹配逻辑
+                # 由于原始实现中没有图像数据库，我们简化处理
+                # 在实际应用中，应该有一个图像数据库和相应的检索逻辑
+            # 合并文本和图像结果（简化版本）
+            # 在实际应用中，应该有更复杂的融合逻辑
+            final_docs = text_docs  # 简化版本，仅返回文本结果
+            print(f"✅ 多���态检索完成，返回 {len(final_docs)} 个结果")
+            return final_docs
+        except Exception as e:
+            print(f"⚠️ 多模态检索失败: {e}")
+            print("回退到文本检索")
+            return text_docs
+    def hybrid_retrieve(self, query: str, top_k: int = 5) -> List:
+        """混合检索，结合向量检索和关键词检索"""
+        if not ENABLE_HYBRID_SEARCH or not self.ensemble_retriever:
+            # 如果混合检索未启用，回退到向量检索
+            return self.retriever.invoke(query)[:top_k]
+        try:
+            # 使用集成检索器进行混合检索
+            results = self.ensemble_retriever.invoke(query)
+            return results[:top_k]
+        except Exception as e:
+            print(f"⚠️ 混合检索失败: {e}")
+            print("回退到向量检索")
+            return self.retriever.invoke(query)[:top_k]
+    def enhanced_retrieve(self, query: str, top_k: int = 5, rerank_candidates: int = 20,
+                         image_paths: List[str] = None, use_query_expansion: bool = None):
+        """增强检索：先检索更多候选，然后重排，支持查询扩展和多模态
+        Args:
+            query: 查询字符串
+            top_k: 返回的文档数量
+            rerank_candidates: 重排前的候选文档数量
+            image_paths: 图像路径列表，用于多模态检索
+            use_query_expansion: 是否使用查询扩展，None表示使用配置默认值
+        """
+        # 确定是否使用查询扩展
+        if use_query_expansion is None:
+            use_query_expansion = ENABLE_QUERY_EXPANSION
+        # 如果启用查询扩展，生成扩展查询
+        if use_query_expansion:
+            expanded_queries = self.expand_query(query)
+            print(f"查询扩展: {len(expanded_queries)} 个查询")
+        else:
+            expanded_queries = [query]
+        # 多模态检索（如果提供了图像）
+        if image_paths and ENABLE_MULTIMODAL:
+            return self.multimodal_retrieve(query, image_paths, top_k)
+        # 混合检索或向量检索
+        all_candidate_docs = []
+        for expanded_query in expanded_queries:
+            if ENABLE_HYBRID_SEARCH:
+                # 使用混合检索
+                docs = self.hybrid_retrieve(expanded_query, rerank_candidates)
+            else:
+                # 使用向量检索
+                docs = self.retriever.invoke(expanded_query)
+                if len(docs) > rerank_candidates:
+                    docs = docs[:rerank_candidates]
+            all_candidate_docs.extend(docs)
+        # 去重（基于文档内容）
+        unique_docs = []
+        seen_content = set()
+        for doc in all_candidate_docs:
+            content = doc.page_content
+            if content not in seen_content:
+                seen_content.add(content)
+                unique_docs.append(doc)
+        print(f"检索获得 {len(unique_docs)} 个候选文档")
+        # 重排（如果重排器可用）
+        if self.reranker and len(unique_docs) > top_k:
             try:
+                reranked_results = self.reranker.rerank(query, unique_docs, top_k)
                 final_docs = [doc for doc, score in reranked_results]
                 scores = [score for doc, score in reranked_results]
                 return final_docs
             except Exception as e:
                 print(f"⚠️ 重排失败: {e}，使用原始检索结果")
+                return unique_docs[:top_k]
         else:
             # 不重排或候选数量不足
+            return unique_docs[:top_k]
+    def compare_retrieval_methods(self, query: str, top_k: int = 5, image_paths: List[str] = None):
         """比较不同检索方法的效果"""
         if not self.retriever:
             return {}
+        results = {
+            'query': query,
+            'image_paths': image_paths
+        }
         # 原始检索 (使用 invoke 替代 get_relevant_documents)
         original_docs = self.retriever.invoke(query)[:top_k]
+        results['vector_retrieval'] = {
+            'count': len(original_docs),
+            'documents': [{
+                'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
+                'metadata': getattr(doc, 'metadata', {})
+            } for doc in original_docs]
+        }
+        # 混合检索（如果启用）
+        if ENABLE_HYBRID_SEARCH and self.ensemble_retriever:
+            hybrid_docs = self.hybrid_retrieve(query, top_k)
+            results['hybrid_retrieval'] = {
+                'count': len(hybrid_docs),
+                'documents': [{
+                    'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
+                    'metadata': getattr(doc, 'metadata', {})
+                } for doc in hybrid_docs]
+            }
+        # 查询扩展检索（如果启用）
+        if ENABLE_QUERY_EXPANSION and self.query_expansion_model:
+            expanded_docs = self.enhanced_retrieve(query, top_k, use_query_expansion=True)
+            results['expanded_query_retrieval'] = {
+                'count': len(expanded_docs),
                 'documents': [{
                     'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
                     'metadata': getattr(doc, 'metadata', {})
+                } for doc in expanded_docs]
+            }
+        # 多模态检索（如果启用且有图像）
+        if ENABLE_MULTIMODAL and image_paths:
+            multimodal_docs = self.multimodal_retrieve(query, image_paths, top_k)
+            results['multimodal_retrieval'] = {
+                'count': len(multimodal_docs),
                 'documents': [{
                     'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
                     'metadata': getattr(doc, 'metadata', {})
+                } for doc in multimodal_docs]
+            }
+        # 增强检索（带重排）
+        enhanced_docs = self.enhanced_retrieve(query, top_k)
+        results['enhanced_retrieval'] = {
+            'count': len(enhanced_docs),
+            'documents': [{
+                'content': doc.page_content[:200] + '...' if len(doc.page_content) > 200 else doc.page_content,
+                'metadata': getattr(doc, 'metadata', {})
+            } for doc in enhanced_docs]
+        }
+        # 添加配置信息
+        results['configuration'] = {
+            'hybrid_search_enabled': ENABLE_HYBRID_SEARCH,
+            'query_expansion_enabled': ENABLE_QUERY_EXPANSION,
+            'multimodal_enabled': ENABLE_MULTIMODAL,
+            'reranker_used': self.reranker is not None,
+            'hybrid_weights': HYBRID_SEARCH_WEIGHTS if ENABLE_HYBRID_SEARCH else None,
+            'multimodal_weights': MULTIMODAL_WEIGHTS if ENABLE_MULTIMODAL else None
         }
+        return results
     def format_docs(self, docs):
         """格式化文档用于生成"""

main.py CHANGED Viewed

@@ -47,6 +47,12 @@ class AdaptiveRAGSystem:
     def _build_workflow(self):
         """构建工作流图"""
         workflow = StateGraph(GraphState)
         # 定义节点

     def _build_workflow(self):
         """构建工作流图"""
+        # 创建工作流节点实例，传递DocumentProcessor实例
+        self.workflow_nodes = WorkflowNodes(
+            doc_processor=self.doc_processor,
+            graders=self.graders
+        )
         workflow = StateGraph(GraphState)
         # 定义节点

requirements.txt CHANGED Viewed

@@ -20,6 +20,7 @@ transformers>=4.30.0
 tiktoken>=0.5.0
 beautifulsoup4>=4.12.0
 requests>=2.31.0
 # 幻觉检测
 sentence-transformers>=2.2.0  # NLI 模型支持

 tiktoken>=0.5.0
 beautifulsoup4>=4.12.0
 requests>=2.31.0
+Pillow>=9.0.0  # 图像处理，支持多模态功能
 # 幻觉检测
 sentence-transformers>=2.2.0  # NLI 模型支持

setup_and_run.py CHANGED Viewed

@@ -44,6 +44,8 @@ def setup_environment():
     if current_dir not in sys.path:
         sys.path.insert(0, current_dir)
         print(f"\n   ✅ 已添加到 Python 路径: {current_dir}")
 # ============================================================
 # 2. 运行 main_graphrag.py

     if current_dir not in sys.path:
         sys.path.insert(0, current_dir)
         print(f"\n   ✅ 已添加到 Python 路径: {current_dir}")
+    print("\n   💡 注意: 新增的多模态功能需要Pillow库，请确保已安装")
 # ============================================================
 # 2. 运行 main_graphrag.py

workflow_nodes.py CHANGED Viewed

@@ -17,7 +17,8 @@ try:
 except ImportError:
     from langchain.prompts import PromptTemplate
-from config import LOCAL_LLM, WEB_SEARCH_RESULTS_COUNT
 from pprint import pprint
@@ -38,8 +39,9 @@ class GraphState(TypedDict):
 class WorkflowNodes:
     """工作流节点类，包含所有节点函数"""
-    def __init__(self, retriever, graders):
-        self.retriever = retriever
         self.graders = graders
         # 设置RAG链 - 使用本地提示模板
@@ -73,8 +75,33 @@ class WorkflowNodes:
         print("---检索---")
         question = state["question"]
-        # 检索 (使用 invoke 替代 get_relevant_documents)
-        documents = self.retriever.invoke(question)
         return {"documents": documents, "question": question}
     def generate(self, state):

 except ImportError:
     from langchain.prompts import PromptTemplate
+from config import LOCAL_LLM, WEB_SEARCH_RESULTS_COUNT, ENABLE_HYBRID_SEARCH, ENABLE_QUERY_EXPANSION, ENABLE_MULTIMODAL
+from document_processor import DocumentProcessor
 from pprint import pprint
 class WorkflowNodes:
     """工作流节点类，包含所有节点函数"""
+    def __init__(self, doc_processor, graders):
+        self.doc_processor = doc_processor  # 接收DocumentProcessor实例
+        self.retriever = doc_processor.retriever  # 保持向后兼容
         self.graders = graders
         # 设置RAG链 - 使用本地提示模板
         print("---检索---")
         question = state["question"]
+        # 使用增强检索方法，支持混合检索、查询扩展和多模态
+        try:
+            # 检查是否有图像路径（多模态检索）
+            image_paths = state.get("image_paths", None)
+            # 使用增强检索
+            documents = self.doc_processor.enhanced_retrieve(
+                question,
+                top_k=5,
+                rerank_candidates=20,
+                image_paths=image_paths,
+                use_query_expansion=ENABLE_QUERY_EXPANSION
+            )
+            # 记录使用的检索方法
+            if ENABLE_HYBRID_SEARCH:
+                print("---使用混合检索---")
+            if ENABLE_QUERY_EXPANSION:
+                print("---使用查询扩展---")
+            if image_paths and ENABLE_MULTIMODAL:
+                print("---使用多模态检索---")
+        except Exception as e:
+            print(f"⚠️ 增强检索失败: {e}，回退到基本检索")
+            # 回退到基本检索
+            documents = self.retriever.invoke(question)
         return {"documents": documents, "question": question}
     def generate(self, state):