Pythonでは、漢字の読み方を取得するために、文字情報基盤データベースのAPIを利用することができます。以下にその方法を示します。
import urllib.request
import json
def get_yomi(character):
# convert character to hex unicode
letter_a = str(character)
decimal_a = ord(letter_a)
hex_A = hex(decimal_a)
# insert into api request format
request_url = "https://mojikiban.ipa.go.jp/mji/q?UCS=*"
request_url = request_url.replace('*', hex_A[2:])
req = urllib.request.Request(request_url)
with urllib.request.urlopen(req) as res:
body = json.load(res)
return body['results'][0]['読み']
# 使い方
print(get_yomi('蛇')) # {'音読み': ['ジャ', 'ダ', 'タ', 'シャ', 'チ', 'イ', 'ヤ', 'ジ'], '訓読み': ['へび']}
このコードは、指定した漢字の音読みと訓読みを取得します。例えば、’蛇’の音読みは[‘ジャ’, ‘ダ’, ‘タ’, ‘シャ’, ‘チ’, ‘イ’, ‘ヤ’, ‘ジ’]、訓読みは[‘へび’]となります。
このように、Pythonを使用して漢字の読み方を取得することは、日本語のテキスト処理において非常に有用です。特に、自然言語処理や機械学習の分野で、テキストデータの前処理として利用することができます。.