PythonとBiopythonを使用したNCBI XMLパーサー

PythonとBiopythonを使用して、NCBIのEntrezデータベースにアクセスする方法について説明します。BiopythonのBio.Entrezモジュールを使用すると、PubMedやGenBankのレコードにアクセスすることが可能になります。

Entrezとは

EntrezはPubMed, GenBank, GEO等のNCBIのデータベースに対する、ユーザー向けに作られたデータ取得システムです。ブラウザから直接アクセスして手動でクエリを行うこともできますが、BiopythonのBio.Entrezモジュールを介したプログラムによるアクセスも可能です。

Bio.Entrezモジュール

Bio.Entrezモジュールは、Entrez Programming Utilities (a.k.a EUtils)を利用しています。このモジュールはクエリ用のURLが正しいことを保証し、クエリの頻度が (NCBIの要求を満たすよう)最大でも一秒間に三度以下になることを保証します。

XMLのパース

Entrez Programming Utilitiesによって返されるアウトプットは大抵XMLフォーマットで書かれています。パースの方法はいくつかあります。

Bio.Entrezのパーサーを使用してPythonのオブジェクトに変換する。
Python標準ライブラリのDOMパーサを用いる。
Python標準ライブラリのSAX (Simple API for XML)パーサを用いる。
XMLのraw textを読み、文字列解析をして扱う。

ここでは、Bio.Entrezのパーサーについて説明します。

Bio.Entrezのパーサー

Bio.Entrezは、NCBIによって使用されるDTDファイルのほとんどを含んでいます。このDTDファイルを用いて取得したXMLのパースを行います。まれに、特定のXMLファイルと対応するDTDファイルが、Biopythonのディストリビューションから欠けている場合があります。具体的には、NCBIがDTDをアップデートした際に発生する可能性があります。

このような場合、Entrez.readが警告メッセージを表示し、欠けているDTDファイルのURLと名前を提示します。そしてパーサはXMLのパースを続行するため、DTDファイルをweb上から取得しようと試みます。しかし、DTDファイルがローカルにあった方がパースははるかに早く進みます。

以上がPythonとBiopythonを使用したNCBI XMLパーサーの基本的な使い方になります。これを基に、さらに深く学んでいくことをお勧めします。

PythonとBiopythonを使用したNCBI XMLパーサー

Entrezとは

Bio.Entrezモジュール

XMLのパース

Bio.Entrezのパーサー

投稿者 admin

コメントを残すコメントをキャンセル

見逃しています

Pandasでデータフレームの要約統計量を計算する方法

ラズベリーパイとPythonを使用した画像処理

Javaでのプロキシの設定方法

WindowsでPythonを動かす方法

Entrezとは

Bio.Entrezモジュール

XMLのパース

Bio.Entrezのパーサー

投稿者 admin

関連投稿

コメントを残す コメントをキャンセル

見逃しています

コメントを残すコメントをキャンセル