この記事では、PythonのライブラリであるPandasを用いて、特定の文字列を含むデータを抽出する方法について解説します。
Pandasとは
PandasはPythonで使用するデータ分析ライブラリの一つで、データ操作や分析を容易に行うことができます。特に、PandasのDataFrameは大量のデータを効率的に扱うための強力なツールです。
文字列を含むデータの抽出
Pandasでは、特定の文字列を含むデータを抽出するためのメソッドが提供されています。具体的には、以下の5つのメソッドがあります。
- 完全一致:
==
- 部分一致:
df.contains()
- 開始文字一致:
df.startswith()
- 終了文字一致:
df.endswith()
- 否定:
~
これらのメソッドを用いることで、データから特定の条件に一致する行を効率的に抽出することが可能です。
実践例
以下に、実際のデータを用いた抽出の例を示します。
import pandas as pd
# データの作成
data = [['S12014', '千草台店', '千葉県', '千葉県千葉市稲毛区千草台一丁目'],
['C13002', '国分寺店', '東京都', '東京都国分寺市本多二丁目'],
['C14010', '菊名店', '神奈川県', '神奈川県横浜市港北区菊名一丁目'],
['S14033', '阿久和店', '神奈川県', '神奈川県横浜市瀬谷区阿久和西一丁目'],
['S13051', '板橋大原店', '東京都', '東京都板橋区大原町'],
['S14036', '相模原中央店', '神奈川県', '神奈川県相模原市中央二丁目'],
['H13015', '南砂店', '東京都', '東京都江東区南砂二丁目']]
columns = ['store_cd', 'store_name', 'prefecture', 'address']
df = pd.DataFrame(data=data, columns=columns)
# '横浜市'を含むデータの抽出
df_yokohama = df[df['address'].str.contains('横浜市')]
このコードでは、address
列から’横浜市’を含む行を抽出しています。
- 以上が、PythonとPandasを用いたデータ抽出の基本的な方法です。これらのメソッドを活用することで、大量のデータから必要な情報を効率的に取り出すことが可能となります。