Pythonのgzip
モジュールを使用して、UTF-8エンコードされたテキストを圧縮および解凍する方法について説明します。
gzipモジュールの基本
Pythonのgzip
モジュールは、GNUのgzipやgunzipのようにファイルを圧縮、展開するシンプルなインターフェイスを提供しています。このモジュールは、通常のファイルオブジェクトと同様にgzip形式のファイルを読み書きし、データを自動的に圧縮または展開します。
gzipファイルの作成と読み込み
バイナリデータ(bytesオブジェクト)からgzip圧縮ファイルを作成するには、gzip.open()
関数に'wb'
を指定してファイルをオープンします。gzipファイルへの書き込みにはwrite()
関数を使います。
テキストデータ(文字列)からgzip圧縮ファイルを作成するには、gzip.open()
関数に'wt'
を指定してファイルをオープンします。
UTF-8テキストの圧縮と解凍
UTF-8エンコードされたテキストをgzipで圧縮し、その後で解凍するための基本的なコードは以下の通りです:
import gzip
# 圧縮
text = "あなたのテキスト"
with gzip.open('file.gz', 'wt', encoding='utf-8') as f:
f.write(text)
# 解凍
with gzip.open('file.gz', 'rt', encoding='utf-8') as f:
text = f.read()
このコードでは、gzip.open()
関数を使用してgzipファイルを開き、write()
関数でテキストを書き込みます。解凍時には、同じgzip.open()
関数を使用してファイルを開き、read()
関数で内容を読み込みます。
以上がPythonとgzipを使ったUTF-8テキストの圧縮と解凍の基本的な方法です。これらの知識を活用して、さまざまなデータ処理タスクを効率的に行うことができます。