BLOGTIMES
2013/09/03

Regexp::Assemble で正規表現を生成する

  perl  regex 
このエントリーをはてなブックマークに追加

詳説 正規表現 第3版

以前、Regexp Assemble For PHP は使ったことがありましたがオリジナルの Regexp::Assemble は使ったことがなかったのでちょっと動かしてみました。
このモジュールを使えば、フクロウ本とにらめっこしなくても、複雑な正規表現を効率よく組み立てることができます。

サンプルほとんどそのままですが、UTF-8が通るようにしてあります。

#!/usr/bin/env perl use Regexp::Assemble; use warnings; use strict; use utf8; binmode STDIN, ":utf8"; binmode STDOUT, ":utf8"; my $ra = Regexp::Assemble->new(); while (my $line = <STDIN>){ chomp($line); $ra->add($line); } print $ra->re;

以下、実行例。

このサンプルは標準入力を読み取って正規表現を組み立てるようになっています。
試しに全国の47都道府県を入力して正規表現を生成してみます。

$ ./assenble.pl 北海道 青森県 岩手県 宮城県 秋田県 山形県 福島県 茨城県 栃木県 群馬県 埼玉県 千葉県 東京都 神奈川県 新潟県 富山県 石川県 福井県 山梨県 長野県 岐阜県 静岡県 愛知県 三重県 滋賀県 京都府 大阪府 兵庫県 奈良県 和歌山県 鳥取県 島根県 岡山県 広島県 山口県 徳島県 香川県 愛媛県 高知県 福岡県 佐賀県 長崎県 熊本県 大分県 宮崎県 鹿児島県 沖縄県 (?-xism:(?:(?:(?:[富岡]|和歌)山|(?:[広徳]|鹿児)島|(?:[石香]|神奈)川|山[口形梨]|福[井岡島]|[佐滋]賀|宮[城崎]|愛[媛知]|長[崎野]|三重|兵庫|千葉|埼玉|奈良|岐阜|岩手|島根|新潟|栃木|沖縄|熊本|秋田|群馬|茨城|青森|静岡|高知|鳥取)県|大(?:分県|阪府)|京都府|北海道|東京都))

最後の行が生成された正規表現なので、これを使えば都道府県名に一撃でマッチさせることができます。


    トラックバックについて
    Trackback URL:
    お気軽にどうぞ。トラックバック前にポリシーをお読みください。[policy]
    このエントリへのTrackbackにはこのURLが必要です→https://blog.cles.jp/item/6120
    Trackbacks
    このエントリにトラックバックはありません
    Comments
    愛のあるツッコミをお気軽にどうぞ。[policy]
    古いエントリについてはコメント制御しているため、即時に反映されないことがあります。
    コメントはありません
    Comments Form

    コメントは承認後の表示となります。
    OpenIDでログインすると、即時に公開されます。

    OpenID を使ってログインすることができます。

    Identity URL: Yahoo! JAPAN IDでログイン