Add File

2025-11-07 09:05:42 +08:00
parent fdef68388a
commit c60740abd9
1 changed files with 222 additions and 0 deletions
--- a/src/summeryanyfile/core/chunkers/paragraph_chunker.py
+++ b/src/summeryanyfile/core/chunkers/paragraph_chunker.py
@@ -0,0 +1,222 @@
 """
 段落分块器 - 基于段落边界的分块策略
 """
 import re
 import logging
 from typing import List, Dict, Any, Optional
 from .base_chunker import BaseChunker, DocumentChunk
 logger = logging.getLogger(__name__)
 class ParagraphChunker(BaseChunker):
    """
    段落分块器，基于段落边界分割文本
    这个分块器尝试保持段落的完整性，只在段落边界处分割
    """
    def __init__(
        self, 
        chunk_size: int = 1000,
        chunk_overlap: int = 200,
        paragraph_separator: str = r'\n\s*\n'
    ) -> None:
        """
        初始化段落分块器
        Args:
            chunk_size: 每个块的最大大小
            chunk_overlap: 块之间的重叠
            paragraph_separator: 段落分隔符的正则表达式
        """
        super().__init__(chunk_size, chunk_overlap)
        self.paragraph_separator = paragraph_separator
    def chunk_text(self, text: str, metadata: Optional[Dict[str, Any]] = None) -> List[DocumentChunk]:
        """
        基于段落分块文本
        Args:
            text: 输入文本
            metadata: 可选的元数据
        Returns:
            DocumentChunk对象列表
        """
        if metadata is None:
            metadata = {}
        # 按段落分割
        paragraphs = re.split(self.paragraph_separator, text)
        paragraphs = [p.strip() for p in paragraphs if p.strip()]
        if not paragraphs:
            return []
        chunks = []
        current_chunk = ""
        chunk_index = 0
        for paragraph in paragraphs:
            # 检查添加此段落是否会超过块大小
            potential_chunk = current_chunk + "\n\n" + paragraph if current_chunk else paragraph
            if len(potential_chunk) <= self.chunk_size:
                current_chunk = potential_chunk
            else:
                # 保存当前块
                if current_chunk:
                    chunk_metadata = metadata.copy()
                    chunk_metadata.update({
                        "chunk_index": chunk_index,
                        "chunking_strategy": "paragraph"
                    })
                    chunks.append(self._create_chunk(current_chunk, chunk_metadata))
                    chunk_index += 1
                # 如果单个段落太长，需要进一步分割
                if len(paragraph) > self.chunk_size:
                    sub_chunks = self._split_long_paragraph(paragraph, metadata, chunk_index)
                    chunks.extend(sub_chunks)
                    chunk_index += len(sub_chunks)
                    current_chunk = ""
                else:
                    current_chunk = paragraph
        # 添加最后一个块
        if current_chunk:
            chunk_metadata = metadata.copy()
            chunk_metadata.update({
                "chunk_index": chunk_index,
                "chunking_strategy": "paragraph"
            })
            chunks.append(self._create_chunk(current_chunk, chunk_metadata))
        # 添加重叠
        if self.chunk_overlap > 0:
            chunks = self._add_overlap_to_chunks(chunks)
        logger.info(f"创建了 {len(chunks)} 个段落块")
        return chunks
    def _split_long_paragraph(self, paragraph: str, metadata: Dict[str, Any], start_index: int) -> List[DocumentChunk]:
        """
        分割过长的段落
        Args:
            paragraph: 要分割的段落
            metadata: 基础元数据
            start_index: 起始索引
        Returns:
            DocumentChunk对象列表
        """
        # 尝试按句子分割
        sentences = re.split(r'[.!?。！？]\s*', paragraph)
        sentences = [s.strip() for s in sentences if s.strip()]
        if not sentences:
            # 如果没有句子，强制分割
            chunks = []
            for i in range(0, len(paragraph), self.chunk_size):
                chunk_text = paragraph[i:i + self.chunk_size]
                chunk_metadata = metadata.copy()
                chunk_metadata.update({
                    "chunk_index": start_index + i // self.chunk_size,
                    "chunking_strategy": "paragraph_forced",
                    "is_split_paragraph": True
                })
                chunks.append(self._create_chunk(chunk_text, chunk_metadata))
            return chunks
        chunks = []
        current_chunk = ""
        chunk_index = start_index
        for sentence in sentences:
            # 检查添加此句子是否会超过限制
            potential_chunk = current_chunk + ". " + sentence if current_chunk else sentence
            if len(potential_chunk) <= self.chunk_size:
                current_chunk = potential_chunk
            else:
                # 保存当前块
                if current_chunk:
                    chunk_metadata = metadata.copy()
                    chunk_metadata.update({
                        "chunk_index": chunk_index,
                        "chunking_strategy": "paragraph_sentence",
                        "is_split_paragraph": True
                    })
                    chunks.append(self._create_chunk(current_chunk, chunk_metadata))
                    chunk_index += 1
                # 如果单个句子太长，强制分割
                if len(sentence) > self.chunk_size:
                    for i in range(0, len(sentence), self.chunk_size):
                        chunk_text = sentence[i:i + self.chunk_size]
                        chunk_metadata = metadata.copy()
                        chunk_metadata.update({
                            "chunk_index": chunk_index,
                            "chunking_strategy": "paragraph_forced",
                            "is_split_paragraph": True,
                            "is_split_sentence": True
                        })
                        chunks.append(self._create_chunk(chunk_text, chunk_metadata))
                        chunk_index += 1
                    current_chunk = ""
                else:
                    current_chunk = sentence
        # 添加最后一个块
        if current_chunk:
            chunk_metadata = metadata.copy()
            chunk_metadata.update({
                "chunk_index": chunk_index,
                "chunking_strategy": "paragraph_sentence",
                "is_split_paragraph": True
            })
            chunks.append(self._create_chunk(current_chunk, chunk_metadata))
        return chunks
    def _add_overlap_to_chunks(self, chunks: List[DocumentChunk]) -> List[DocumentChunk]:
        """
        为块添加重叠
        Args:
            chunks: 原始块列表
        Returns:
            带重叠的块列表
        """
        if len(chunks) <= 1:
            return chunks
        overlapped_chunks = [chunks[0]]
        for i in range(1, len(chunks)):
            prev_chunk = chunks[i - 1]
            current_chunk = chunks[i]
            # 从前一个块的末尾提取重叠内容
            prev_content = prev_chunk.content
            overlap_text = prev_content[-self.chunk_overlap:] if len(prev_content) > self.chunk_overlap else prev_content
            # 创建新的块内容
            new_content = overlap_text + "\n\n" + current_chunk.content
            # 更新块内容
            new_metadata = current_chunk.metadata.copy()
            new_metadata["has_overlap"] = True
            new_metadata["overlap_size"] = len(overlap_text)
            overlapped_chunk = self._create_chunk(new_content, new_metadata)
            overlapped_chunk.chunk_id = current_chunk.chunk_id  # 保持原始ID
            overlapped_chunks.append(overlapped_chunk)
        return overlapped_chunks