Add File

2025-11-07 09:05:45 +08:00
parent ee21fee34a
commit 7e773b1284
1 changed files with 403 additions and 0 deletions
--- a/src/summeryanyfile/core/magic_pdf_converter.py
+++ b/src/summeryanyfile/core/magic_pdf_converter.py
@@ -0,0 +1,403 @@
+"""
+Magic-PDF转换器 - 本地高质量PDF转Markdown转换
+基于 mineru 库实现
+"""
+
+import copy
+import json
+import logging
+import os
+import tempfile
+import shutil
+from typing import Tuple, Optional, Dict, Any, List
+from pathlib import Path
+
+from loguru import logger as loguru_logger
+
+logger = logging.getLogger(__name__)
+
+
+class MagicPDFConverter:
+    """
+    Magic-PDF转换器，使用mineru库进行本地PDF转Markdown转换
+
+    mineru是一个强大的本地PDF处理库，提供：
+    - 高质量的PDF解析
+    - OCR文字识别
+    - 布局分析
+    - 表格和图片提取
+    - 公式识别
+    - 多种后端支持（pipeline, vlm等）
+    - 本地处理，无需网络
+    """
+
+    def __init__(self, output_dir: Optional[str] = None):
+        """
+        初始化Magic-PDF转换器
+
+        Args:
+            output_dir: 输出目录，如果为None则使用临时目录
+        """
+        self.output_dir = output_dir or tempfile.mkdtemp(prefix="magic_pdf_")
+        self._is_available = None
+
+        # 确保输出目录存在
+        os.makedirs(self.output_dir, exist_ok=True)
+        logger.info(f"Mineru转换器初始化，输出目录: {self.output_dir}")
+    
+    def is_available(self) -> bool:
+        """检查mineru是否可用"""
+        if self._is_available is None:
+            try:
+                from mineru.cli.common import convert_pdf_bytes_to_bytes_by_pypdfium2, prepare_env, read_fn
+                from mineru.data.data_reader_writer import FileBasedDataWriter
+                from mineru.utils.enum_class import MakeMode
+                from mineru.backend.pipeline.pipeline_analyze import doc_analyze as pipeline_doc_analyze
+                from mineru.backend.pipeline.pipeline_middle_json_mkcontent import union_make as pipeline_union_make
+                from mineru.backend.pipeline.model_json_to_middle_json import result_to_middle_json as pipeline_result_to_middle_json
+
+                self._is_available = True
+                logger.info("Mineru库检查成功")
+            except ImportError as e:
+                self._is_available = False
+                logger.warning(f"Mineru库未安装: {e}")
+
+        return self._is_available
+    
+    def convert_pdf_file(self, file_path: str,
+                        lang: str = "ch",
+                        backend: str = "pipeline",
+                        method: str = "auto",
+                        formula_enable: bool = True,
+                        table_enable: bool = True) -> Tuple[str, str]:
+        """
+        转换PDF文件为Markdown
+
+        Args:
+            file_path: PDF文件路径
+            lang: 语言选项，默认'ch'，可选值包括['ch', 'ch_server', 'ch_lite', 'en', 'korean', 'japan', 'chinese_cht', 'ta', 'te', 'ka']
+            backend: 解析后端，默认'pipeline'，可选值包括['pipeline', 'vlm-transformers', 'vlm-sglang-engine', 'vlm-sglang-client']
+            method: 解析方法，默认'auto'，可选值包括['auto', 'txt', 'ocr']
+            formula_enable: 是否启用公式解析
+            table_enable: 是否启用表格解析
+
+        Returns:
+            (转换后的Markdown内容, 编码)
+
+        Raises:
+            FileNotFoundError: 文件不存在
+            ValueError: 转换失败
+            ImportError: mineru库未安装
+        """
+        if not self.is_available():
+            raise ImportError(
+                "mineru库未安装。请安装: pip install mineru 或参考官方文档"
+            )
+
+        path = Path(file_path)
+        if not path.exists():
+            raise FileNotFoundError(f"文件不存在: {file_path}")
+
+        if not path.suffix.lower() == '.pdf':
+            raise ValueError(f"不支持的文件格式: {path.suffix}")
+
+        logger.info(f"开始使用Mineru转换文件: {file_path}")
+
+        try:
+            # 导入必要的模块
+            from mineru.cli.common import convert_pdf_bytes_to_bytes_by_pypdfium2, prepare_env, read_fn
+            from mineru.data.data_reader_writer import FileBasedDataWriter
+            from mineru.utils.enum_class import MakeMode
+            from mineru.backend.pipeline.pipeline_analyze import doc_analyze as pipeline_doc_analyze
+            from mineru.backend.pipeline.pipeline_middle_json_mkcontent import union_make as pipeline_union_make
+            from mineru.backend.pipeline.model_json_to_middle_json import result_to_middle_json as pipeline_result_to_middle_json
+
+            # 准备文件名和目录
+            pdf_file_name = str(path.absolute())
+            name_without_suff = path.stem
+
+            # 读取PDF文件
+            pdf_bytes = read_fn(path)
+
+            # 准备输出目录
+            local_image_dir, local_md_dir = prepare_env(self.output_dir, name_without_suff, method)
+            image_dir = os.path.basename(local_image_dir)
+
+            # 创建数据写入器
+            image_writer = FileBasedDataWriter(local_image_dir)
+            md_writer = FileBasedDataWriter(local_md_dir)
+
+            # 使用pipeline后端进行处理
+            if backend == "pipeline":
+                # 转换PDF字节
+                new_pdf_bytes = convert_pdf_bytes_to_bytes_by_pypdfium2(pdf_bytes, 0, None)
+
+                # 进行文档分析
+                infer_results, all_image_lists, all_pdf_docs, lang_list, ocr_enabled_list = pipeline_doc_analyze(
+                    [new_pdf_bytes], [lang],
+                    parse_method=method,
+                    formula_enable=formula_enable,
+                    table_enable=table_enable
+                )
+
+                # 处理结果
+                model_list = infer_results[0]
+                model_json = copy.deepcopy(model_list)
+                images_list = all_image_lists[0]
+                pdf_doc = all_pdf_docs[0]
+                _lang = lang_list[0]
+                _ocr_enable = ocr_enabled_list[0]
+
+                # 转换为中间JSON格式
+                middle_json = pipeline_result_to_middle_json(
+                    model_list, images_list, pdf_doc, image_writer,
+                    _lang, _ocr_enable, formula_enable
+                )
+
+                pdf_info = middle_json["pdf_info"]
+
+                # 生成调试文件（可选）
+                try:
+                    from mineru.utils.draw_bbox import draw_layout_bbox, draw_span_bbox
+
+                    # 绘制布局边界框
+                    draw_layout_bbox(pdf_info, new_pdf_bytes, local_md_dir, f"{name_without_suff}_layout.pdf")
+
+                    # 绘制span边界框
+                    draw_span_bbox(pdf_info, new_pdf_bytes, local_md_dir, f"{name_without_suff}_span.pdf")
+
+                    logger.debug(f"调试文件已生成: {local_md_dir}")
+                except Exception as e:
+                    logger.warning(f"生成调试文件失败: {e}")
+
+                # 保存原始PDF
+                try:
+                    md_writer.write(f"{name_without_suff}_origin.pdf", new_pdf_bytes)
+                except Exception as e:
+                    logger.warning(f"保存原始PDF失败: {e}")
+
+                # 生成Markdown内容
+                md_content = pipeline_union_make(pdf_info, MakeMode.MM_MD, image_dir)
+
+                # 保存Markdown文件
+                md_writer.write_string(f"{name_without_suff}.md", md_content)
+
+                # 保存内容列表（JSON格式）
+                try:
+                    content_list = pipeline_union_make(pdf_info, MakeMode.CONTENT_LIST, image_dir)
+                    md_writer.write_string(
+                        f"{name_without_suff}_content_list.json",
+                        json.dumps(content_list, ensure_ascii=False, indent=4)
+                    )
+
+                    # 保存中间JSON
+                    md_writer.write_string(
+                        f"{name_without_suff}_middle.json",
+                        json.dumps(middle_json, ensure_ascii=False, indent=4)
+                    )
+
+                    # 保存模型输出JSON
+                    md_writer.write_string(
+                        f"{name_without_suff}_model.json",
+                        json.dumps(model_json, ensure_ascii=False, indent=4)
+                    )
+
+                    logger.debug(f"额外文件已保存: content_list.json, middle.json, model.json")
+                except Exception as e:
+                    logger.warning(f"保存额外文件失败: {e}")
+
+            else:
+                raise ValueError(f"不支持的后端: {backend}")
+
+            if not md_content or not md_content.strip():
+                raise ValueError("Mineru转换结果为空")
+
+            logger.info(f"Mineru转换成功，内容长度: {len(md_content)} 字符")
+            return md_content, "utf-8"
+
+        except Exception as e:
+            logger.error(f"Mineru转换失败: {e}")
+            raise ValueError(f"Mineru转换失败: {e}")
+
+    def get_conversion_info(self, file_path: str) -> Dict[str, Any]:
+        """
+        获取转换信息（不执行实际转换）
+
+        Args:
+            file_path: PDF文件路径
+
+        Returns:
+            转换信息字典
+        """
+        if not self.is_available():
+            return {"available": False, "error": "mineru库未安装"}
+
+        path = Path(file_path)
+        if not path.exists():
+            return {"available": False, "error": f"文件不存在: {file_path}"}
+
+        try:
+            from mineru.cli.common import read_fn
+
+            # 读取PDF文件
+            pdf_bytes = read_fn(path)
+
+            return {
+                "available": True,
+                "file_path": str(path.absolute()),
+                "file_size": path.stat().st_size,
+                "pdf_type": "auto",  # mineru会自动检测
+                "recommended_ocr": True,  # 默认推荐OCR
+                "output_dir": self.output_dir,
+                "supported_backends": ["pipeline", "vlm-transformers", "vlm-sglang-engine", "vlm-sglang-client"],
+                "supported_methods": ["auto", "txt", "ocr"],
+                "supported_languages": ["ch", "ch_server", "ch_lite", "en", "korean", "japan", "chinese_cht", "ta", "te", "ka"]
+            }
+
+        except Exception as e:
+            return {"available": False, "error": str(e)}
+
+    def parse_documents(self,
+                       path_list: List[Path],
+                       lang: str = "ch",
+                       backend: str = "pipeline",
+                       method: str = "auto",
+                       server_url: Optional[str] = None,
+                       start_page_id: int = 0,
+                       end_page_id: Optional[int] = None) -> List[Tuple[str, str]]:
+        """
+        批量解析多个文档
+
+        Args:
+            path_list: 文档路径列表，可以是PDF或图片文件
+            lang: 语言选项，默认'ch'
+            backend: 解析后端
+            method: 解析方法
+            server_url: 当backend为sglang-client时需要指定服务器URL
+            start_page_id: 开始页面ID，默认0
+            end_page_id: 结束页面ID，默认None（解析到文档末尾）
+
+        Returns:
+            (Markdown内容, 编码) 的列表
+        """
+        if not self.is_available():
+            raise ImportError("mineru库未安装")
+
+        results = []
+        for path in path_list:
+            try:
+                md_content, encoding = self.convert_pdf_file(
+                    str(path), lang=lang, backend=backend, method=method
+                )
+                results.append((md_content, encoding))
+                logger.info(f"成功处理文档: {path}")
+            except Exception as e:
+                logger.error(f"处理文档失败 {path}: {e}")
+                results.append(("", "utf-8"))  # 失败时返回空内容
+
+        return results
+
+    def cleanup(self):
+        """清理临时文件"""
+        if self.output_dir and os.path.exists(self.output_dir):
+            try:
+                # 只清理临时目录
+                if "magic_pdf_" in self.output_dir:
+                    shutil.rmtree(self.output_dir)
+                    logger.info(f"已清理临时目录: {self.output_dir}")
+            except Exception as e:
+                logger.warning(f"清理临时目录失败: {e}")
+
+    def get_output_files(self, file_path: str, method: str = "auto") -> Dict[str, str]:
+        """
+        获取输出文件路径
+
+        Args:
+            file_path: 原始PDF文件路径
+            method: 解析方法，用于确定输出目录结构
+
+        Returns:
+            输出文件路径字典
+        """
+        name_without_suff = Path(file_path).stem
+
+        # 根据method确定输出目录结构
+        if method in ["auto", "txt", "ocr"]:
+            method_dir = os.path.join(self.output_dir, name_without_suff, method)
+        else:
+            method_dir = os.path.join(self.output_dir, name_without_suff)
+
+        return {
+            "markdown": os.path.join(method_dir, f"{name_without_suff}.md"),
+            "content_list": os.path.join(method_dir, f"{name_without_suff}_content_list.json"),
+            "middle_json": os.path.join(method_dir, f"{name_without_suff}_middle.json"),
+            "model_json": os.path.join(method_dir, f"{name_without_suff}_model.json"),
+            "origin_pdf": os.path.join(method_dir, f"{name_without_suff}_origin.pdf"),
+            "layout_pdf": os.path.join(method_dir, f"{name_without_suff}_layout.pdf"),
+            "span_pdf": os.path.join(method_dir, f"{name_without_suff}_span.pdf"),
+            "images_dir": os.path.join(method_dir, "images")
+        }
+    
+    def __del__(self):
+        """析构函数，自动清理临时文件"""
+        self.cleanup()
+
+
+def parse_doc(path_list: List[Path],
+              output_dir: str,
+              lang: str = "ch",
+              backend: str = "pipeline",
+              method: str = "auto",
+              server_url: Optional[str] = None,
+              start_page_id: int = 0,
+              end_page_id: Optional[int] = None) -> None:
+    """
+    便利函数：解析文档列表，兼容参考代码的API
+
+    Args:
+        path_list: 文档路径列表，可以是PDF或图片文件
+        output_dir: 输出目录
+        lang: 语言选项，默认'ch'，可选值包括['ch', 'ch_server', 'ch_lite', 'en', 'korean', 'japan', 'chinese_cht', 'ta', 'te', 'ka']
+        backend: 解析后端，可选值：
+            pipeline: 更通用
+            vlm-transformers: 更通用
+            vlm-sglang-engine: 更快（引擎）
+            vlm-sglang-client: 更快（客户端）
+        method: 解析方法，可选值：
+            auto: 根据文件类型自动确定方法
+            txt: 使用文本提取方法
+            ocr: 对基于图像的PDF使用OCR方法
+        server_url: 当backend为sglang-client时需要指定服务器URL，例如：http://127.0.0.1:30000
+        start_page_id: 开始页面ID，默认0
+        end_page_id: 结束页面ID，默认None（解析到文档末尾）
+    """
+    try:
+        # 创建转换器实例
+        converter = MagicPDFConverter(output_dir=output_dir)
+
+        # 检查可用性
+        if not converter.is_available():
+            raise ImportError("mineru库未安装。请安装: pip install mineru")
+
+        # 处理每个文件
+        for path in path_list:
+            try:
+                file_name = str(Path(path).stem)
+                logger.info(f"开始处理文件: {path}")
+
+                # 转换文件
+                md_content, encoding = converter.convert_pdf_file(
+                    str(path),
+                    lang=lang,
+                    backend=backend,
+                    method=method
+                )
+
+                logger.info(f"成功处理文件: {path}, 输出目录: {output_dir}")
+
+            except Exception as e:
+                logger.error(f"处理文件失败 {path}: {e}")
+
+    except Exception as e:
+        logger.error(f"批量处理失败: {e}")
+        raise