Pythonで日本語のテキストファイルを読み込む際には、文字コードの扱いが重要となります。特に、Windows環境でUTF-8でエンコードされたテキストファイルを読み込む場合、’cp932′ codecがデコードできないバイト列に遭遇するとエラーが発生します。
この問題を解決するためには、open
関数でファイルを開く際に、encoding
引数を使って文字コードを明示的に指定します。以下にそのコードを示します。
# coding: utf-8
with open('ファイル名.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()
このコードでは、open
関数のencoding
引数に'utf-8'
を指定しています。これにより、ファイルはUTF-8でエンコードされたものとして読み込まれます。
また、日本語を含むパスを扱う際にも注意が必要です。Pythonの標準文字エンコードはUTF-8なので、プログラムで日本語を扱う場合にはUTF-8に統一しておくと、余計なトラブルを避けられます。
以上がPythonで日本語のテキストファイルを読み込む方法についての説明です。この情報がPythonのファイル操作を行う際の参考になれば幸いです。