Pythonのデータ分析ライブラリであるPandasは、データをSeriesやDataFrameという型に収納できます。Seriesは一次元、DataFrameは二次元のデータを収納するために使われます。それぞれの列が別々のデータ型をもっていることがあります。
Pandasのデータ型とPython・NumPyのデータ型との対応
Pythonのデータ型を元に、これに対応するPandasの代表的なデータ型とNumPyのデータ型を確認しましょう。
Pandas dtype | Python type | NumPy type | Usage
--- | --- | --- | ---
object | str | string_, unicode_ | Text
int64 | int | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers
float64 | float | float_, float16, float32, float64 | Floating point numbers
bool | bool | bool_ | True/False values
datetime64 | NA | datetime64 [ns] | Date and time values
timedelta [ns] | NA | NA | Differences between two datetimes
category | NA | NA | Finite list of text values
Series、DataFrameのdtypeの確認
SeriesやDataFrameの要素のデータ型を確認するには、dtype
やdtypes
を使用します。
import pandas as pd
data = {
"名前": ["太郎", "次郎", "三郎"],
"身長": [180.0, 170.0, 160.0],
"年齢": [30, 25, 20],
}
df = pd.DataFrame(data)
# DataFrameの各列のデータ型を確認
print(df.dtypes)
このコードを実行すると、各列のデータ型が表示されます。
astypeによるキャスト変更
データ型の変換はastype
メソッドを使用します。以下に例を示します。
# DataFrameの'年齢'列のデータ型をfloatに変換
df['年齢'] = df['年齢'].astype(float)
# 変換後のデータ型を確認
print(df.dtypes)
このコードを実行すると、’年齢’列のデータ型がfloat64に変更されていることが確認できます。
以上、PythonとPandasを使用してSeriesのデータ型を確認し、必要に応じてデータ型を変換する方法について説明しました。これらの知識は、データ分析を行う際に非常に重要です。適切なデータ型を使用することで、効率的なデータ処理と正確な分析結果を得ることができます。.