PythonのライブラリであるPandasは、データ分析を行う際に非常に便利なツールです。特に、PandasのDataFrameは、さまざまなデータ型を扱うことができ、その柔軟性から多くのデータサイエンティストに利用されています。
Pandasのデータ型
PandasのDataFrameでは、各列ごとに異なるデータ型を持つことができます。これは、DataFrameが非常に柔軟なクラスであるため、それぞれの列が別々のデータ型を持つことがあります。
以下に、Pandasの主要なデータ型とそれらがどのようにPythonやNumPyのデータ型と対応するかを示します。
| Pandas dtype | Python type | NumPy type | Usage |
|--------------|-------------|------------|-------|
| object | str | string_, unicode_ | Text |
| int64 | int | int_, int8, int16, int32, int64, uint8, uint16, uint32, uint64 | Integer numbers |
| float64 | float | float_, float16, float32, float64 | Floating point numbers |
| bool | bool | bool_ | True/False values |
| datetime64 | NA | datetime64 [ns] | Date and time values |
| timedelta [ns] | NA | NA | Differences between two datetimes |
| category | NA | NA | Finite list of text values |
データ型の確認と変換
DataFrameの各列のデータ型を確認するには、dtypes
属性を使用します。以下に例を示します。
import pandas as pd
data = {
"名前": ["太郎", "次郎", "三郎"],
"身長": [180.0, 170.0, 160.0],
"年齢": [30, 25, 20],
}
df = pd.DataFrame(data)
print(df.dtypes)
このコードを実行すると、各列のデータ型が表示されます。
また、データ型を変換するにはastype
メソッドを使用します。以下に例を示します。
df = df.astype({"年齢": float})
print(df.dtypes)
このコードを実行すると、”年齢”列のデータ型がint64からfloat64に変更されます。
以上が、PythonとPandasでDataFrameのデータ型を理解するための基本的な情報です。これらの知識を持つことで、データ分析をより効率的に行うことができます。.