Add File

2025-11-07 09:05:44 +08:00
parent dc07167953
commit c87fd5cbb6
1 changed files with 234 additions and 0 deletions
--- a/src/summeryanyfile/core/chunkers/hybrid_chunker.py
+++ b/src/summeryanyfile/core/chunkers/hybrid_chunker.py
@@ -0,0 +1,234 @@
+"""
+混合分块器 - 结合多种分块策略的智能分块器
+"""
+
+import logging
+from typing import List, Dict, Any, Optional
+
+from .base_chunker import BaseChunker, DocumentChunk
+from .semantic_chunker import SemanticChunker
+from .paragraph_chunker import ParagraphChunker
+from .recursive_chunker import RecursiveChunker
+
+logger = logging.getLogger(__name__)
+
+
+class HybridChunker(BaseChunker):
+    """
+    混合分块器，智能选择和组合多种分块策略
+    
+    这个分块器首先尝试语义分块，然后对过大的块使用段落分块，
+    最后对仍然过大的块使用递归分块
+    """
+    
+    def __init__(
+        self, 
+        chunk_size: int = 1000,
+        chunk_overlap: int = 200,
+        size_tolerance: float = 1.2
+    ) -> None:
+        """
+        初始化混合分块器
+        
+        Args:
+            chunk_size: 每个块的最大大小
+            chunk_overlap: 块之间的重叠
+            size_tolerance: 大小容忍度（超过此倍数的块将被进一步分割）
+        """
+        super().__init__(chunk_size, chunk_overlap)
+        self.size_tolerance = size_tolerance
+        
+        # 初始化子分块器
+        self.semantic_chunker = SemanticChunker(chunk_size, chunk_overlap)
+        self.paragraph_chunker = ParagraphChunker(chunk_size, chunk_overlap)
+        self.recursive_chunker = RecursiveChunker(chunk_size, chunk_overlap)
+    
+    def chunk_text(self, text: str, metadata: Optional[Dict[str, Any]] = None) -> List[DocumentChunk]:
+        """
+        使用混合策略分块文本
+        
+        Args:
+            text: 输入文本
+            metadata: 可选的元数据
+            
+        Returns:
+            DocumentChunk对象列表
+        """
+        if metadata is None:
+            metadata = {}
+        
+        logger.info("开始混合分块策略")
+        
+        # 第一步：尝试语义分块
+        try:
+            chunks = self.semantic_chunker.chunk_text(text, metadata)
+            logger.info(f"语义分块产生了 {len(chunks)} 个块")
+            
+            # 检查是否有过大的块需要进一步处理
+            final_chunks = []
+            for chunk in chunks:
+                if self._is_chunk_too_large(chunk):
+                    logger.info(f"块 {chunk.chunk_id} 过大，应用段落分块")
+                    sub_chunks = self._apply_paragraph_chunking(chunk)
+                    final_chunks.extend(sub_chunks)
+                else:
+                    final_chunks.append(chunk)
+            
+            # 第三步：对仍然过大的块应用递归分块
+            ultra_final_chunks = []
+            for chunk in final_chunks:
+                if self._is_chunk_too_large(chunk):
+                    logger.info(f"块 {chunk.chunk_id} 仍然过大，应用递归分块")
+                    sub_chunks = self._apply_recursive_chunking(chunk)
+                    ultra_final_chunks.extend(sub_chunks)
+                else:
+                    ultra_final_chunks.append(chunk)
+            
+            # 更新元数据
+            for i, chunk in enumerate(ultra_final_chunks):
+                chunk.metadata["final_chunk_index"] = i
+                chunk.metadata["chunking_strategy"] = "hybrid"
+            
+            logger.info(f"混合分块完成，最终产生了 {len(ultra_final_chunks)} 个块")
+            return ultra_final_chunks
+            
+        except Exception as e:
+            logger.error(f"混合分块失败，回退到段落分块: {e}")
+            return self.paragraph_chunker.chunk_text(text, metadata)
+    
+    def _is_chunk_too_large(self, chunk: DocumentChunk) -> bool:
+        """
+        检查块是否过大
+        
+        Args:
+            chunk: 要检查的块
+            
+        Returns:
+            是否过大
+        """
+        return chunk.size > self.chunk_size * self.size_tolerance
+    
+    def _apply_paragraph_chunking(self, chunk: DocumentChunk) -> List[DocumentChunk]:
+        """
+        对单个块应用段落分块
+        
+        Args:
+            chunk: 要分块的块
+            
+        Returns:
+            分块后的块列表
+        """
+        # 创建新的元数据，保留原始信息
+        new_metadata = chunk.metadata.copy()
+        new_metadata["parent_chunk_id"] = chunk.chunk_id
+        new_metadata["parent_strategy"] = chunk.metadata.get("chunking_strategy", "unknown")
+        
+        # 应用段落分块
+        sub_chunks = self.paragraph_chunker.chunk_text(chunk.content, new_metadata)
+        
+        # 更新元数据
+        for i, sub_chunk in enumerate(sub_chunks):
+            sub_chunk.metadata["sub_chunk_index"] = i
+            sub_chunk.metadata["chunking_strategy"] = "hybrid_paragraph"
+        
+        return sub_chunks
+    
+    def _apply_recursive_chunking(self, chunk: DocumentChunk) -> List[DocumentChunk]:
+        """
+        对单个块应用递归分块
+        
+        Args:
+            chunk: 要分块的块
+            
+        Returns:
+            分块后的块列表
+        """
+        # 创建新的元数据，保留原始信息
+        new_metadata = chunk.metadata.copy()
+        new_metadata["parent_chunk_id"] = chunk.chunk_id
+        new_metadata["parent_strategy"] = chunk.metadata.get("chunking_strategy", "unknown")
+        
+        # 应用递归分块
+        sub_chunks = self.recursive_chunker.chunk_text(chunk.content, new_metadata)
+        
+        # 更新元数据
+        for i, sub_chunk in enumerate(sub_chunks):
+            sub_chunk.metadata["sub_chunk_index"] = i
+            sub_chunk.metadata["chunking_strategy"] = "hybrid_recursive"
+        
+        return sub_chunks
+    
+    def analyze_text_structure(self, text: str) -> Dict[str, Any]:
+        """
+        分析文本结构以选择最佳分块策略
+        
+        Args:
+            text: 输入文本
+            
+        Returns:
+            结构分析结果
+        """
+        analysis = {
+            "text_length": len(text),
+            "line_count": len(text.split('\n')),
+            "paragraph_count": len([p for p in text.split('\n\n') if p.strip()]),
+            "has_markdown_headers": False,
+            "header_count": 0,
+            "recommended_strategy": "paragraph"
+        }
+        
+        # 检查Markdown头部
+        lines = text.split('\n')
+        header_count = 0
+        for line in lines:
+            line = line.strip()
+            if line.startswith('#'):
+                header_count += 1
+        
+        analysis["header_count"] = header_count
+        analysis["has_markdown_headers"] = header_count > 0
+        
+        # 推荐策略
+        if header_count >= 3:
+            analysis["recommended_strategy"] = "semantic"
+        elif analysis["paragraph_count"] >= 5:
+            analysis["recommended_strategy"] = "paragraph"
+        else:
+            analysis["recommended_strategy"] = "recursive"
+        
+        return analysis
+    
+    def get_chunking_statistics(self, chunks: List[DocumentChunk]) -> Dict[str, Any]:
+        """
+        获取分块统计信息
+        
+        Args:
+            chunks: 块列表
+            
+        Returns:
+            统计信息
+        """
+        if not chunks:
+            return {"total_chunks": 0}
+        
+        # 基础统计
+        base_stats = self.get_chunk_statistics(chunks)
+        
+        # 策略统计
+        strategy_counts = {}
+        for chunk in chunks:
+            strategy = chunk.metadata.get("chunking_strategy", "unknown")
+            strategy_counts[strategy] = strategy_counts.get(strategy, 0) + 1
+        
+        # 大小分布
+        sizes = [chunk.size for chunk in chunks]
+        oversized_count = sum(1 for size in sizes if size > self.chunk_size)
+        
+        base_stats.update({
+            "strategy_distribution": strategy_counts,
+            "oversized_chunks": oversized_count,
+            "oversized_percentage": (oversized_count / len(chunks)) * 100 if chunks else 0,
+            "size_tolerance": self.size_tolerance
+        })
+        
+        return base_stats