2015年6月7日日曜日

日本語文字列に固有の処理について

2015-06-07発信

FMEは空間データ処理だけでなく豊富な文字列処理機能も持っており、データベースの構築や移行などの際の文字列データの検証や修正にも活用することができます。
文字列処理を行うためのトランスフォーマーは日本語文字にも対応しており、特に問題なく使用することができます。

しかし、日本語の文字列に固有の処理(典型的には全角文字と半角文字の間の変換など)がデフォルトの設定で簡単に行えるようなトランスフォーマーはありません。
思うような処理をするには、ユーザーがトランスフォーマーのパラメーターに面倒な入力をしたり、データフローの中にスクリプトを組み込んだりしなければならないこともあり、これには結構手間がかかります。

そこで、これまでに当社が日本語文字列処理を伴うデータ変換用に作成したワークスペースの中から日本語文字列に固有の処理で、かつ、汎用的に使えそうな部分を抽出・再構成してカスタムトランスフォーマーを作成し、公開することにしました。
現在公開中の主なものを掲げます。

JpCaharacterWidthChanger
属性文字列内のひらがな/全角カタカナ/半角カタカナの変換、英数字や記号の全角/半角の変換を行います。

JpWarekiConvertor
日付文字列に含まれる年について和暦と西暦(グレゴリオ暦)の間の変換を行い、変換後の日付文字列を新しい属性に格納します。

JpAddressPartExtractor
都道府県名から始まる住所文字列を、都道府県名、振興局等名、政令市・郡名、市区町村名、その他に分割するとともに、都道府県コードを抽出します。

これらのカスタムトランスフォーマーは次のウェブページからダウンロードできます(ダウンロードするにはメール本文の後に記載しているサポートリソースアクセス用のユーザー名とパスワードによる認証が必要です)。
http://www.pragmatica.jp/fme/jpformats.html

ダウンロードしたファイル(zip圧縮)を解凍して展開される"*.fmx"ファイルを"マイ ドキュメント/FME/Transformers"フォルダに保存してください。
その後FMEワークベンチを起動すると、Transformer Gallery の Categorized/Pragmatica フォルダ内にそのトランスフォーマーが現れ、標準のトランスフォーマーと全く同じ方法でワークスペースに追加して利用できるようになります。
各トランスフォーマーの使用方法についてはそれぞれのヘルプを参照してください。

日本語文字列処理に関してご意見やご要望がありましたら、随時お知らせください。

0 件のコメント:

コメントを投稿