ストップワードとは、自然言語処理を行う際に一般的で役に立たない等の理由で処理対象外とする単語のことです。Pythonで日本語のストップワードを除去する方法について説明します。
ライブラリのインストール
まずは必要なライブラリをインストールします。今回はja_stopword_remover
というライブラリを使用します。
pip install ja_stopword_remover
ストップワードの除去
以下のコードは、形態素解析済みの単語をリストとして持つ文のリストからストップワードを除去する例です。
from ja_stopword_remover.remover import StopwordRemover
# 形態素解析済みの単語をリストとして持つ文のリスト
text_list = [
["僕", "たち", "は", "プラネタリウム", "に", "立て籠もり", "夜明け", "の", "シーン", "だけ", "繰り返す"],
["桜", "って", "「", "さくら", "」", "って", "読む", "って", "あなた", "から", "教えて", "もらう", "人", "に", "なりたい"],
]
stopwordRemover = StopwordRemover()
text_list_result = stopwordRemover.remove(text_list)
このコードは、StopwordRemover
クラスからインスタンスを作成し、remove()
メソッドの引数に単語のリストの分のリストを指定して呼び出すことで、結果のリストが返されます。
以上がPythonで日本語のストップワードを除去する基本的な方法です。自然言語処理の一環として、このような前処理が重要となります。.