Pythonのデータ分析ライブラリであるPandasは、データの前処理や分析に非常に便利なツールです。特に、文字列の分割はデータクレンジングや特徴量エンジニアリングの際に頻繁に行われる操作です。
Pandasでの文字列分割
Pandasでは、str.split()
メソッドを使用して文字列を分割することができます。このメソッドは、指定した区切り文字や正規表現パターンで文字列を分割し、新たな列を作成します。
以下に、簡単な例を示します。
import pandas as pd
# データフレームの作成
df = pd.DataFrame({
'name': ['John Doe', 'Jane Smith', 'Mary Johnson'],
})
# 空白で文字列を分割
df[['first_name', 'last_name']] = df['name'].str.split(' ', expand=True)
print(df)
このコードは、name
列の文字列を空白で分割し、first_name
とlast_name
の2つの新しい列を作成します。
まとめ
PythonとPandasを使用すれば、複雑な文字列操作も簡単に行うことができます。データ分析の現場で頻繁に遭遇する問題を効率的に解決するために、これらのツールを活用しましょう。.