Pythonのpandasライブラリには、Excelファイルを読み込む際に特定の列だけを読み込むためのusecols
というパラメータがあります。この記事では、その使用方法について詳しく説明します。
基本的な使用方法
まずは、基本的な使用方法から見ていきましょう。以下のコードは、Excelファイルを読み込み、特定の列だけをDataFrameとして取り出す例です。
import pandas as pd
# Excelファイルを指定して読み込む
df = pd.read_excel('excel1.xlsx', usecols=[0, 2])
print(df)
このコードでは、usecols=[0, 2]
と指定することで、0番目と2番目の列だけを読み込んでいます。
シート名を指定する方法
また、read_excel
関数は、デフォルトでは初めのシート (一番左のシート)が読み込まれます。シート名を明確に指定したい場合には、 sheet_name
でシート名を指定します。
import pandas as pd
# シート名を指定して読み込む
df = pd.read_excel('excel1.xlsx', sheet_name='sample_1', usecols=[0, 2])
print(df)
このコードでは、sheet_name='sample_1'
と指定することで、’sample_1’という名前のシートからデータを読み込んでいます。
まとめ
以上、Pythonのpandasライブラリのread_excel
関数でExcelファイルを読み込む際に、usecols
パラメータを使って特定の列だけを読み込む方法について説明しました。この機能を使うことで、大量のデータが含まれるExcelファイルから必要なデータだけを効率的に取り出すことができます。