Pythonのデータ分析ライブラリであるPandasは、データフレーム内の文字列操作に非常に便利な機能を提供しています。特に、特定の文字列を含む行を抽出する方法は、データのフィルタリングやクリーニングに頻繁に使用されます。
以下に、Pandasを使用して特定の文字列を含む行を抽出する基本的な手順を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
"col_A": ["dataA_1", "dataA_2", "dataA_3", "dataA_4"],
"col_B": ["dataB_1", "dataB_2", "dataB_3", "dataB_4"]
})
# 'col_A'に特定の文字列が含まれる行を抽出
df[df['col_A'].str.contains('A_1')]
このコードは、’col_A’列に文字列’A_1’を含むすべての行を抽出します。同様に、特定の文字列を含まない行を抽出するには、~
演算子を使用します。
# 'col_A'に特定の文字列が含まれない行を抽出
df[~df['col_A'].str.contains('A_1')]
このコードは、’col_A’列に文字列’A_1’を含まないすべての行を抽出します。
以上のように、Pandasのstr.contains
メソッドを使用すると、データフレームから特定の文字列を含む行または含まない行を簡単に抽出することができます。これらの技術は、データ分析の初期段階でデータをフィルタリングする際に非常に役立ちます。.