Pythonでワードクラウドを作成するためには、wordcloud
というライブラリが便利です。このライブラリは以下の特徴を持っています:
- 利用可能なスペースをすべて埋める
- 任意のマスクを利用できる
- 容易に変更可能な単純なアルゴリズムである
- Pythonである
また、日本語のワードクラウドを作成する際には、形態素解析ライブラリであるMeCab
を使用すると良いです。MeCab
を使用することで、文章を単語レベルに分割し、名詞だけを抽出することができます。
以下に、wordcloud
とMeCab
を使用してワードクラウドを作成するサンプルコードを示します。
from wordcloud import WordCloud
import MeCab
# テキストデータの読み込み
with open('text.txt', 'r') as f:
text = f.read()
# MeCabで形態素解析
mecab = MeCab.Tagger("-Ochasen")
node = mecab.parse(text)
# 名詞だけを抽出
words = [n.split()[0] for n in node.split("\n") if "名詞" in n.split()[-1]]
# ワードクラウドの作成
wordcloud = WordCloud(background_color="white", max_words=100, contour_width=3, contour_color='steelblue', width=800, height=400)
wordcloud.generate(' '.join(words))
# ワードクラウドの表示
wordcloud.to_file("wordcloud.png")
このコードでは、まずテキストデータを読み込み、次にMeCab
で形態素解析を行い、名詞だけを抽出しています。その後、wordcloud
ライブラリを使用してワードクラウドを作成し、画像として保存しています。
以上がPythonでワードクラウドを作成する方法です。この方法を用いることで、テキストデータから頻出する単語を視覚的に把握することができます。