Spaces:

ahaahaaha
/

adaptive_rag

Paused

App Files Files Community

lanny xu commited on 26 days ago

Commit

69629dd

1 Parent(s): 67e46c9

add cuda

Browse files

Files changed (2) hide show

document_processor.py +29 -1
main_graphrag.py +7 -5

document_processor.py CHANGED Viewed

@@ -49,6 +49,14 @@ from PIL import Image
 import numpy as np
 from typing import List, Dict, Any, Optional, Union
 class CustomEnsembleRetriever:
     """自定义集成检索器，结合向量检索和BM25检索"""
@@ -264,6 +272,26 @@ class DocumentProcessor:
         print(f"✅ 向量数据库创建完成并持久化到: {persist_directory}")
         return self.vectorstore, self.retriever
     def setup_knowledge_base(self, urls=None, enable_graphrag=False):
         """设置完整的知识库（加载、分割、向量化）
@@ -626,4 +654,4 @@ def initialize_document_processor():
     except Exception as e:
         print(f"⚠️  保存元数据失败: {e}")
-    return processor, vectorstore, retriever, doc_splits

 import numpy as np
 from typing import List, Dict, Any, Optional, Union
+try:
+    from langchain_core.documents import Document
+except ImportError:
+    try:
+        from langchain_core.documents import Document
+    except ImportError:
+        from langchain.schema import Document
 class CustomEnsembleRetriever:
     """自定义集成检索器，结合向量检索和BM25检索"""
         print(f"✅ 向量数据库创建完成并持久化到: {persist_directory}")
         return self.vectorstore, self.retriever
+    def get_all_documents_from_vectorstore(self, limit: Optional[int] = None) -> List[Document]:
+        """从已持久化的向量数据库读取所有文档内容并构造 Document 列表"""
+        if not self.vectorstore:
+            return []
+        try:
+            data = self.vectorstore._collection.get(include=["documents", "metadatas"])  # type: ignore
+            docs_raw = data.get("documents") or []
+            metas = data.get("metadatas") or []
+            docs: List[Document] = []
+            for i, content in enumerate(docs_raw):
+                if content:
+                    meta = metas[i] if i < len(metas) else {}
+                    docs.append(Document(page_content=content, metadata=meta))
+            if limit:
+                return docs[:limit]
+            return docs
+        except Exception as e:
+            print(f"⚠️ 读取向量库文档失败: {e}")
+            return []
     def setup_knowledge_base(self, urls=None, enable_graphrag=False):
         """设置完整的知识库（加载、分割、向量化）
     except Exception as e:
         print(f"⚠️  保存元数据失败: {e}")
+    return processor, vectorstore, retriever, doc_splits

main_graphrag.py CHANGED Viewed

@@ -70,14 +70,16 @@ class AdaptiveRAGWithGraph:
             else:
                 print("📝 首次构建索引...")
-            # 当持久化向量库已加载时，doc_splits 可能为 None；为 GraphRAG 索引补齐文档块
             if self.doc_splits is None:
-                print("   ℹ️ 未提供文档块，重新加载默认数据源以供GraphRAG索引...")
                 try:
-                    docs = self.doc_processor.load_documents()
-                    self.doc_splits = self.doc_processor.split_documents(docs)
                 except Exception as e:
-                    print(f"   ❌ 重新加载文档失败: {e}")
                     raise
             # 构建索引

             else:
                 print("📝 首次构建索引...")
             if self.doc_splits is None:
                 try:
+                    docs_from_vs = self.doc_processor.get_all_documents_from_vectorstore()
+                    if docs_from_vs:
+                        self.doc_splits = docs_from_vs
+                    else:
+                        docs = self.doc_processor.load_documents()
+                        self.doc_splits = self.doc_processor.split_documents(docs)
                 except Exception as e:
+                    print(f"   ❌ 准备GraphRAG文档块失败: {e}")
                     raise
             # 构建索引