Add File

2025-11-07 09:05:43 +08:00
parent f37d9a20f2
commit dc07167953
1 changed files with 202 additions and 0 deletions
--- a/src/summeryanyfile/core/chunkers/recursive_chunker.py
+++ b/src/summeryanyfile/core/chunkers/recursive_chunker.py
@@ -0,0 +1,202 @@
 """
 递归分块器 - 使用递归字符分割策略
 """
 import logging
 from typing import List, Dict, Any, Optional
 from .base_chunker import BaseChunker, DocumentChunk
 logger = logging.getLogger(__name__)
 class RecursiveChunker(BaseChunker):
    """
    递归分块器，使用分层分隔符递归分割文本
    这个分块器尝试在自然断点处分割文本，如段落、句子等
    """
    def __init__(
        self, 
        chunk_size: int = 1000,
        chunk_overlap: int = 200,
        separators: Optional[List[str]] = None
    ) -> None:
        """
        初始化递归分块器
        Args:
            chunk_size: 每个块的最大大小
            chunk_overlap: 块之间的重叠
            separators: 分隔符列表，按优先级排序
        """
        super().__init__(chunk_size, chunk_overlap)
        if separators is None:
            self.separators = [
                "\n\n",  # 段落分隔符
                "\n",    # 行分隔符
                ". ",    # 英文句子分隔符
                "。",    # 中文句子分隔符
                "! ",    # 英文感叹句
                "！",    # 中文感叹句
                "? ",    # 英文疑问句
                "？",    # 中文疑问句
                "; ",    # 分号
                "；",    # 中文分号
                ", ",    # 逗号
                "，",    # 中文逗号
                " ",     # 空格
                ""       # 字符级分割（最后手段）
            ]
        else:
            self.separators = separators
    def chunk_text(self, text: str, metadata: Optional[Dict[str, Any]] = None) -> List[DocumentChunk]:
        """
        使用递归策略分块文本
        Args:
            text: 输入文本
            metadata: 可选的元数据
        Returns:
            DocumentChunk对象列表
        """
        if metadata is None:
            metadata = {}
        # 递归分割文本
        text_chunks = self._split_text_recursive(text)
        # 转换为DocumentChunk对象
        chunks = []
        for i, chunk_text in enumerate(text_chunks):
            chunk_metadata = metadata.copy()
            chunk_metadata.update({
                "chunk_index": i,
                "chunking_strategy": "recursive"
            })
            chunks.append(self._create_chunk(chunk_text, chunk_metadata))
        # 添加重叠
        if self.chunk_overlap > 0:
            chunks = self._add_overlap_to_chunks(chunks)
        logger.info(f"创建了 {len(chunks)} 个递归块")
        return chunks
    def _split_text_recursive(self, text: str) -> List[str]:
        """
        递归分割文本
        Args:
            text: 要分割的文本
        Returns:
            文本块列表
        """
        if len(text) <= self.chunk_size:
            return [text] if text.strip() else []
        # 尝试每个分隔符
        for separator in self.separators:
            if separator in text:
                return self._split_by_separator(text, separator)
        # 如果没有找到分隔符，强制分割
        logger.warning("未找到合适的分隔符，强制分割文本")
        return [text[:self.chunk_size], text[self.chunk_size:]]
    def _split_by_separator(self, text: str, separator: str) -> List[str]:
        """
        使用指定分隔符分割文本
        Args:
            text: 要分割的文本
            separator: 分隔符
        Returns:
            文本块列表
        """
        if separator == "":
            # 字符级分割
            mid_point = self.chunk_size
            left_part = text[:mid_point]
            right_part = text[mid_point:]
            left_chunks = self._split_text_recursive(left_part)
            right_chunks = self._split_text_recursive(right_part)
            return left_chunks + right_chunks
        # 分割文本
        parts = text.split(separator)
        # 重新组合块
        chunks = []
        current_chunk = ""
        for part in parts:
            # 检查添加这部分是否会超过限制
            potential_chunk = current_chunk + separator + part if current_chunk else part
            if len(potential_chunk) <= self.chunk_size:
                current_chunk = potential_chunk
            else:
                # 保存当前块
                if current_chunk:
                    chunks.append(current_chunk)
                # 如果单个部分太大，递归分割
                if len(part) > self.chunk_size:
                    sub_chunks = self._split_text_recursive(part)
                    chunks.extend(sub_chunks)
                    current_chunk = ""
                else:
                    current_chunk = part
        # 添加最后一个块
        if current_chunk:
            chunks.append(current_chunk)
        return chunks
    def _add_overlap_to_chunks(self, chunks: List[DocumentChunk]) -> List[DocumentChunk]:
        """
        为块添加重叠
        Args:
            chunks: 原始块列表
        Returns:
            带重叠的块列表
        """
        if len(chunks) <= 1:
            return chunks
        overlapped_chunks = [chunks[0]]
        for i in range(1, len(chunks)):
            prev_chunk = chunks[i - 1]
            current_chunk = chunks[i]
            # 从前一个块的末尾提取重叠内容
            prev_content = prev_chunk.content
            overlap_text = prev_content[-self.chunk_overlap:] if len(prev_content) > self.chunk_overlap else prev_content
            # 创建新的块内容
            new_content = overlap_text + "\n\n" + current_chunk.content
            # 更新块内容
            new_metadata = current_chunk.metadata.copy()
            new_metadata["has_overlap"] = True
            new_metadata["overlap_size"] = len(overlap_text)
            overlapped_chunk = self._create_chunk(new_content, new_metadata)
            overlapped_chunk.chunk_id = current_chunk.chunk_id  # 保持原始ID
            overlapped_chunks.append(overlapped_chunk)
        return overlapped_chunks