pdf ファイルから markdown に変換

下記から、制度が高いのは、Maker と Docling であり、目的に応じて使い分けるのが良さそう。

レビューブログ

https://note.com/suh_sunaneko/n/na6687b2e01c8

  • 2025/08/23

Perplexity 回答

2025/12/03 時点

  • PDF→Markdown精度最優先(表・数式・コード含む)で、OSS前提
    • Maker
      • PDF・画像・Office系から Markdown/JSON/HTML へ高精度に変換できる OSS
      • 表・数式・コードブロック・画像抽出など構造保持に強いと評価されている
    • Docling
      • Python ライブラリ(CLI)
      • PDF を含む多種ドキュメントを AI レイアウト解析で構造化し、Markdown/HTML/JSON に出力
      • 「PDF→Markdownの変換精度だけを見ると Marker の方が上」と評価されているケースが複数ある
      • AI レイアウト解析は、LLM を構築等せず、Doclingの内部であらかじめ用意された AI モデル(レイアウト解析モデルや表構造認識モデルなど)が、PDF のページ構造・段落・見出し・表・画像の位置関係を解析し、その構造情報から Markdown テキストを組み立てる。
      • インターネット上に、.pdf のファイルの内容が渡ることはない
  • 多フォーマット・拡張性・パイプライン統合重視
    • Docling、MarkItDown(Microsoft)、Pandoc を組み合わせたワークフロー設計

Perplexity では、MarkItDown も提案されたが、レビューブログでは精度は高くなさそうだった。

  • MarkItDown(Microsoft)
    • 「構造よりテキスト抽出寄り」で、見出しレベルや複雑な表・レイアウト保持は Docling や Marker に劣るとのレビューが多い


コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です