Pythonのデータ分析ライブラリであるPandasを使って、特定の条件に一致する文字列データを抽出する方法について説明します。
PandasのインポートとExcelファイル読み込み
まずはPandasをインポートし、Excelファイルを読み込みます。
import pandas as pd
fruits_df = pd.read_excel('/content/fruits_20201018.xlsx')
fruits_df
条件に一致する行のみデータ抽出(文字列)
次に、特定の文字列が一致する行だけを抽出します。例えば、フルーツが”りんご”と一致する行だけを抽出するには以下のようにします。
fruits_df1 = fruits_df[fruits_df.フルーツ == 'りんご']
fruits_df1
条件に一致しない行のみデータ抽出(文字列)
逆に、特定の文字列が一致しない行だけを抽出することも可能です。フルーツが”りんご”以外と一致する行だけを抽出するには以下のようにします。
fruits_df1 = fruits_df[fruits_df.フルーツ != 'りんご']
fruits_df1
条件に一致する行のみデータ抽出(一部の文字列)
特定の文字列を含む行だけを抽出することも可能です。例えば、商品コードに”C”が含まれている行だけを抽出するには以下のようにします。
fruits_df4 = fruits_df[fruits_df['商品コード'].str.contains('C')]
fruits_df4
以上がPythonとPandasを使って、特定の条件に一致する文字列データを抽出する基本的な方法です。これらの方法を組み合わせることで、より複雑な条件に一致するデータの抽出も可能となります。.