Add File

2025-11-07 09:05:42 +08:00
parent c60740abd9
commit 0703cf0f9c
1 changed files with 269 additions and 0 deletions
--- a/src/summeryanyfile/core/chunkers/fast_chunker.py
+++ b/src/summeryanyfile/core/chunkers/fast_chunker.py
@@ -0,0 +1,269 @@
 """
 快速分块器 - 基于 max_tokens 的简单快速分块策略
 """
 import logging
 import os
 from typing import List, Dict, Any, Optional
 from .base_chunker import BaseChunker, DocumentChunk
 logger = logging.getLogger(__name__)
 def _get_default_max_tokens() -> int:
    """
    从环境变量获取默认的 max_tokens 值
    Returns:
        默认的 max_tokens 值
    """
    try:
        # 尝试从环境变量读取
        env_value = os.getenv("MAX_TOKENS")
        if env_value:
            return int(env_value)
    except (ValueError, TypeError):
        logger.warning(f"无效的 MAX_TOKENS 环境变量值: {env_value}")
    # 如果环境变量不存在或无效，返回默认值
    return 4000
 class FastChunker(BaseChunker):
    """
    快速分块器，基于 max_tokens 的简单分块策略
    - 块大小：max_tokens 的 1/3
    - 重叠大小：max_tokens 的 1/10
    - 优化速度，适合大文档的快速处理
    """
    def __init__(
        self,
        max_tokens: Optional[int] = None,
        chars_per_token: float = 4.0
    ) -> None:
        """
        初始化快速分块器
        Args:
            max_tokens: 最大 token 数量，如果为 None 则从环境变量读取
            chars_per_token: 每个 token 的平均字符数（用于估算）
        """
        # 如果没有提供 max_tokens，从环境变量获取默认值
        if max_tokens is None:
            max_tokens = _get_default_max_tokens()
        # 计算块大小和重叠大小（以 token 为单位）
        self.chunk_size_tokens = max_tokens // 3
        self.chunk_overlap_tokens = max_tokens // 10
        # 为了与 BaseChunker 兼容，我们使用 token 数量作为"字符"数量
        # 实际的字符长度控制在 _split_text_fast 方法中处理
        chunk_size = self.chunk_size_tokens
        chunk_overlap = self.chunk_overlap_tokens
        super().__init__(chunk_size, chunk_overlap)
        self.max_tokens = max_tokens
        self.chars_per_token = chars_per_token
        logger.info(f"快速分块器初始化: max_tokens={max_tokens}, "
                   f"chunk_size={self.chunk_size_tokens}, chunk_overlap={self.chunk_overlap_tokens}")
    def chunk_text(self, text: str, metadata: Optional[Dict[str, Any]] = None) -> List[DocumentChunk]:
        """
        使用快速策略分块文本
        Args:
            text: 输入文本
            metadata: 可选的元数据
        Returns:
            DocumentChunk对象列表
        """
        if metadata is None:
            metadata = {}
        # 快速分割文本
        text_chunks = self._split_text_fast(text)
        # 转换为DocumentChunk对象
        chunks = []
        for i, chunk_text in enumerate(text_chunks):
            chunk_metadata = metadata.copy()
            chunk_metadata.update({
                "chunk_index": i,
                "chunking_strategy": "fast",
                "estimated_tokens": len(chunk_text) / self.chars_per_token
            })
            chunks.append(self._create_chunk(chunk_text, chunk_metadata))
        logger.info(f"创建了 {len(chunks)} 个快速块")
        return chunks
    def _split_text_fast(self, text: str) -> List[str]:
        """
        快速分割文本，基于 token 数量进行分割
        Args:
            text: 要分割的文本
        Returns:
            文本块列表
        """
        # 估算文本的 token 数量
        estimated_tokens = self.get_token_estimate(text)
        if estimated_tokens <= self.chunk_size_tokens:
            return [text] if text.strip() else []
        chunks = []
        start = 0
        while start < len(text):
            # 计算当前块的字符长度（基于 token 限制）
            max_chars = int(self.chunk_size_tokens * self.chars_per_token)
            end = min(start + max_chars, len(text))
            if end >= len(text):
                # 最后一个块
                remaining_text = text[start:]
                if remaining_text.strip():
                    chunks.append(remaining_text)
                break
            # 尝试在自然断点处分割
            chunk_text = text[start:end]
            split_point = self._find_split_point(chunk_text)
            if split_point > 0:
                # 在自然断点处分割
                actual_end = start + split_point
                chunk_content = text[start:actual_end]
                chunks.append(chunk_content)
                # 下一个块的开始位置考虑重叠
                overlap_chars = int(self.chunk_overlap_tokens * self.chars_per_token)
                start = actual_end - overlap_chars
            else:
                # 没有找到自然断点，强制分割
                chunks.append(chunk_text)
                overlap_chars = int(self.chunk_overlap_tokens * self.chars_per_token)
                start = end - overlap_chars
            # 确保不会无限循环
            if start < 0:
                start = 0
        return [chunk for chunk in chunks if chunk.strip()]
    def _find_split_point(self, text: str) -> int:
        """
        在文本中找到最佳分割点
        Args:
            text: 要分析的文本
        Returns:
            分割点位置，如果没有找到返回0
        """
        # 优先级分隔符列表（从后往前查找）
        separators = [
            "\n\n",  # 段落分隔符
            "\n",    # 行分隔符
            ". ",    # 英文句子分隔符
            "。",    # 中文句子分隔符
            "! ",    # 英文感叹句
            "！",    # 中文感叹句
            "? ",    # 英文疑问句
            "？",    # 中文疑问句
            "; ",    # 分号
            "；",    # 中文分号
            ", ",    # 逗号
            "，",    # 中文逗号
            " "      # 空格
        ]
        # 从文本末尾向前查找最佳分割点
        for separator in separators:
            # 在文本的后半部分查找分隔符
            search_start = len(text) // 2
            pos = text.rfind(separator, search_start)
            if pos != -1:
                return pos + len(separator)
        return 0
    def get_token_estimate(self, text: str) -> int:
        """
        估算文本的 token 数量
        Args:
            text: 要估算的文本
        Returns:
            估算的 token 数量
        """
        return int(len(text) / self.chars_per_token)
    def adjust_for_token_limit(self, chunks: List[DocumentChunk], token_limit: int) -> List[DocumentChunk]:
        """
        根据 token 限制调整块
        Args:
            chunks: 原始块列表
            token_limit: token 限制
        Returns:
            调整后的块列表
        """
        adjusted_chunks = []
        for chunk in chunks:
            estimated_tokens = self.get_token_estimate(chunk.content)
            if estimated_tokens <= token_limit:
                adjusted_chunks.append(chunk)
            else:
                # 如果块太大，进一步分割
                sub_chunks = self._split_large_chunk(chunk, token_limit)
                adjusted_chunks.extend(sub_chunks)
        return adjusted_chunks
    def _split_large_chunk(self, chunk: DocumentChunk, token_limit: int) -> List[DocumentChunk]:
        """
        分割过大的块
        Args:
            chunk: 要分割的块
            token_limit: token 限制
        Returns:
            分割后的块列表
        """
        max_chars = int(token_limit * self.chars_per_token)
        if len(chunk.content) <= max_chars:
            return [chunk]
        # 创建临时分块器
        temp_chunker = FastChunker(
            max_tokens=token_limit,
            chars_per_token=self.chars_per_token
        )
        # 分割内容
        sub_chunks = temp_chunker.chunk_text(chunk.content, chunk.metadata)
        # 更新元数据
        for i, sub_chunk in enumerate(sub_chunks):
            sub_chunk.metadata.update({
                "parent_chunk_id": chunk.chunk_id,
                "sub_chunk_index": i,
                "is_sub_chunk": True
            })
        return sub_chunks