2015年8月23日日曜日

ウェブ上で公開されているデータの取得

2015-08-23発信

FMEはインターネットとの接続を標準でサポートしており、ウェブサーバーに保存されているファイルは、リーダーなどのソースデータセットとしてそのURLを指定するだけで読み込むことができます。
内部的にはファイルを一時フォルダにダウンロードして(zipならばそれを解凍してから)読み込み、変換が終了したらダウンロードしたファイルを削除するということを行います。
手動でダウンロード、解凍するのと手順は同じですが、多数のファイルがある場合などには便利な機能です。

ウェブ上で公開されているデータはファイルダウンロードの形態によるものばかりではなく、ウェブページ(HTML文書)に埋め込んだテキストとして提供されているものもあります。
その場合には、HTML文書の取得、データ部分の抽出、テーブル形式への変換といった一連の処理を自動化するためのデータフローを定義する必要があります。
HTTPCallerというトランスフォーマーを使うとウェブサーバーに対するGET, POST等のリクエストの発行とレスポンスの取得ができるので、これによってHTML文書を取得することができます。

試験的に防災科学技術研究所が公開している「Hi-net自動処理震源リスト」(HTMLに記述された固定長フォーマットのテーブル)を取得し、任意のフォーマットでの出力が可能なテーブルに変換するまでのワークスペースを作成したところ、良好な結果が得られたので紹介いたします。

FMEケーススタディ > HTML文書の取得と変換
http://fme-casestudy.blogspot.com/2015/08/html.html

Hi-net自動処理震源リストは逐次更新されているので、継続的にデータを取得する必要があるならば、Windows タスクスケジューラによって毎日ワークスペースを実行してデータベースにデータを蓄積していくという仕組みも考えられます。
ソースデータがどこにどんな形態で存在していてもアクセス権限さえあれば取得・変換できることを示した例であり、これもFMEの特長のひとつであると言えます。

0 件のコメント:

コメントを投稿