PythonのライブラリであるPandasを使用して、CSVファイルから重複行を削除する方法について説明します。
Pandasのインポート
まずはPandasをインポートし、CSVファイルを読み込みます。
import pandas as pd
hoge = pd.read_csv('hoge.csv')
重複行の削除
次に、重複行を削除するために、データをソートします。ソートすることで、先にヒットする行を残すという処理が可能になります。
sorted_hoge = hoge.sort_values(['hoge', 'fuga'], ascending=[1, 0])
no_duplicated_hoge = sorted_hoge.drop_duplicates('hoge', keep='first')
最後に、結果を新しいCSVファイルに書き込みます。
no_duplicated_hoge.to_csv('result.csv', index=False)
以上で、PythonとPandasを使用してCSVファイルから重複行を削除する処理が完了します。.