Pythonのglob
モジュールは、特定のパターンにマッチするファイルを取得するための便利なツールです。特に、数字のパターンマッチングについては、多くの実用的なシナリオで役立ちます。
globモジュールとは
glob
はPythonの標準ライブラリの一部で、特定のパターンにマッチするファイル名を抽出するのに使用されます。glob
モジュールにはglob()
, iglob()
, escape()
などの関数が含まれています。
glob()関数の基本的な使い方
glob()
関数は、ファイルの抽出条件を引数として与えると、その条件にマッチしたファイルやフォルダの一覧をリストとして返します。以下に基本的な使用例を示します。
import glob
# 'train'ディレクトリ内の全ての'.csv'ファイルを取得
files = glob.glob("train/*.csv")
print(files)
このコードは、train
ディレクトリ内の全ての.csv
ファイルを取得します。ここで、*
はワイルドカード文字と呼ばれ、任意の文字列を表します。
数字のパターンマッチング
数字のパターンマッチングを行う場合、文字範囲[0-9]
を使用します。これは1つの数字にマッチします。例えば、以下のコードはtrain
ディレクトリ内の01
から09
までの数字がついた.csv
ファイルを取得します。
import glob
# 'train'ディレクトリ内の'01'から'09'の数字がついた'.csv'ファイルを取得
files = glob.glob("train/[0][1-9].csv")
print(files)
このように、Pythonのglob
モジュールを使用すると、特定のパターンにマッチするファイルを効率的に取得することができます。特に、数字のパターンマッチングは、大量のデータファイルを扱うデータ分析の場面などで非常に役立ちます。