\

Pythonは多機能なプログラミング言語で、様々なタスクを自動化するのに役立ちます。その一つが、Microsoft Wordファイルからテキストを抽出することです。特に、Wordファイルからコメントを抽出することは、文書のレビューや分析に非常に有用です。

この記事では、Pythonとpython-docxライブラリを使用して、Wordファイルからコメントを抽出する方法を紹介します。

必要なライブラリのインストール

まず、python-docxライブラリをインストールする必要があります。このライブラリは、PythonでWordファイルを読み書きするためのものです。以下のコマンドでインストールできます。

pip install python-docx

テキストの抽出

次に、Wordファイルからテキストを抽出します。以下のコードは、Wordファイルからテキストを抽出し、それを表示する基本的な例です。

from docx import Document

# Wordファイルを開く
document = Document('sample.docx')

# パラグラフごとにテキストを抽出
for paragraph in document.paragraphs:
    print(paragraph.text)

このコードは、Wordファイルの各パラグラフをループし、そのテキストを表示します。

コメントの抽出

Wordファイルからコメントを抽出するには、commentsプロパティを使用します。以下のコードは、Wordファイルからコメントを抽出し、それを表示する例です。

from docx import Document

# Wordファイルを開く
document = Document('sample.docx')

# コメントを抽出
for comment in document.comments:
    print(comment.text)

このコードは、Wordファイルの各コメントをループし、そのテキストを表示します。

以上が、Pythonとpython-docxライブラリを使用して、Wordファイルからコメントを抽出する基本的な方法です。この方法を使用すれば、Wordファイルのレビューや分析を自動化することが可能になります。

参考文献

  • : Qiita, “【Python】Wordファイルからのテキスト抽出 #Python – Qiita”, 2022.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です