2015-07-05発信
データ統合 - 既存の複数のデータセットからデータを抽出・統合して新たなデータセットを作成することは、FMEの典型的な用途のひとつです。 多くの場合、データ統合の過程ではデータベースの世界で言うところのテーブル結合に相当する処理が必要になり、それがデータ統合の要(かなめ)であるケースも多いと思われます。 今回は次の例によって、FMEでテーブル結合に相当する処理を行うための基本的な方法を紹介いたします。 ===== 平成22年国勢調査の人口、世帯数の市区町村別集計表(CSV形式)と調査時点の市区町村の区域を表すGISポリゴンデータ(Shape形式)に基づき、人口、世帯数を属性として持つ市区町村ポリゴンデータ(KML形式, 都道府県別レイヤ)を作成する。 ソースデータセット (1) 平成22年国勢調査による市区町村別人口、世帯数集計結果 e-Stat 政府統計の総合窓口からダウンロードした「男女別人口及び世帯の種類(2区分)別世帯数」テーブル(CSV 形式, 全国1ファイル) e-Stat 政府統計の総合窓口 平成22年国勢調査 > 人口等基本集計(男女・年齢・配偶関係,世帯の構成,住居の状態など)> 全国結果 総人口・総世帯数 表番号2「男女別人口及び世帯の種類(2区分)別世帯数」 (2) 平成22年国勢調査時点(2010年10月1日現在)の市区町村ポリゴンデータ 次のツールによって作成した2010年10月1日現在の市区町村ポリゴン(Esri Shape 形式, 全国1ファイル) Municipality Map Maker ウェブ版 市区町村区域のGISデータ生成ツール ===== これらのソースデータセットから読み込まれるCSVレコード、ポリゴンはどちらも市区町村コードを属性として持っているので、それが一致することを条件としてCSVの各レコードを対応する市区町村ポリゴンに結合することができます。 これがテーブル結合に相当するもので、FMEでは、FeatureMerger などのトランスフォーマーによってそれが実現されます。 具体的なワークスペースの例は次のページに掲載しましたので、ご参照ください。
FMEケーススタディ「属性結合の基本的な方法」
----- FMEが多数のフォーマットをサポートし、多種多様なデータ変換機能を備えているということは、統合前の複数のデータセットの間、あるいは、統合前後のデータセットの間でフォーマットが異なっていたとしても、データ抽出、加工、スキーマ変更といったデータ統合に必要な一連のプロセスをひとつのワークスペースで定義・実行できる可能性が高いということを意味します。 データ統合のための全プロセスがひとつのワークスペースで完結できるならば、いくつかの工程に分割して作業分担するよりもはるかに効率的であり、工程ごとに生じる中間データや全体の進捗を管理するためのコストも不要になります。 データセットの多様性、データ変換の複雑さが増せば当然、ワークスペースも複雑で大規模なものになりますが、それによってもたらされる効果もそれだけ大きくなると考えられます。
0 件のコメント:
コメントを投稿