\

PythonのライブラリであるPandasを使用して、CSVファイルから重複行を削除する方法について説明します。

Pandasのインポート

まずはPandasをインポートし、CSVファイルを読み込みます。

import pandas as pd
hoge = pd.read_csv('hoge.csv')

重複行の削除

次に、重複行を削除するために、データをソートします。ソートすることで、先にヒットする行を残すという処理が可能になります。

sorted_hoge = hoge.sort_values(['hoge', 'fuga'], ascending=[1, 0])
no_duplicated_hoge = sorted_hoge.drop_duplicates('hoge', keep='first')

最後に、結果を新しいCSVファイルに書き込みます。

no_duplicated_hoge.to_csv('result.csv', index=False)

以上で、PythonとPandasを使用してCSVファイルから重複行を削除する処理が完了します。.

投稿者 admin

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です