Pythonのデータ分析ライブラリであるPandasを使用して、DataFrameからユニークな値を取得する方法について説明します。
Pandasのunique関数
Pandasのunique
関数は、SeriesやIndexのユニークな値を取得するために使用します。この関数は、DataFrame全体ではなく、SeriesオブジェクトやDataFrameの各列、またはIndexオブジェクトに対して実行する必要があります。
以下に、unique
関数の基本的な使用方法を示します。
import pandas as pd
# サンプルのDataFrameを作成
df = pd.DataFrame({
'name': ['Satoh', 'Takahashi', 'Egawa', 'Maeda', 'Satoh', 'Egawa'],
'age': [32, 28, None, 25, 29, 32],
'state': ['Kanagawa', None, 'Ohsaka', 'Hiroshima', 'Ohsaka', 'Kanagawa'],
'id': [1021, 2152, 1432, 1104, 2413, None]
})
# 'age'列のユニークな値を取得
unique_ages = df['age'].unique()
print(unique_ages)
このコードを実行すると、age
列のユニークな値がNumPyの配列として出力されます。
すべての列のユニークな値を取得する
DataFrameのすべての列からユニークな値を取得するには、以下のようにします。
unique_values = {col: df[col].unique() for col in df.columns}
print(unique_values)
このコードを実行すると、各列のユニークな値が辞書として出力されます。
以上が、PythonとPandasを使用してDataFrameからユニークな値を取得する基本的な方法です。これらのテクニックを使用することで、データ分析の際に重複を避け、より正確な結果を得ることができます。.