皆さん 大名です。 テキストデータを Unicode ベースのツールで処理するケースが増えてきて いるようですが,正規表現で漢字を指定する時には,CJK Compatibility Ideographs に気を付けてください。 漢字をまとめて指定する場合,統合漢字 (CJK Unified Ideographs) にある 文字を指定することが多いのではないかと思います。  CJK Unified Ideographs  http://infosys.gsid.nagoya-u.ac.jp/~ohna/charlist/cjk_uni_ideo.html 拡張Aなどの文字は,ちょっと見ただけでも,必要なら特別にそれらを 指定しけなればならないことはわかりますが,互換漢字の方は見過ごされる 可能性があります。(実際,私自身,比較的最近まで互換漢字には注意を 払っていなかった。)  CJK Unified Ideographs Extension A  http://infosys.gsid.nagoya-u.ac.jp/~ohna/charlist/cjk_uni_ideo_ext_A.html  CJK Compatibility Ideographs  http://infosys.gsid.nagoya-u.ac.jp/~ohna/charlist/cjk_comp_ideogr.html 互換漢字の方を見ると,「年」のように,基本的と思える文字もあります。 統合漢字の方に「年」は収録されているので,重複して登録されていることに なります。なぜこのようなことになっているかというと,「年」という文字の 場合,韓国の文字コード (KS X 1001) で,"nyeon" と発音される「年」と "yeon" と発音される「年」を区別して文字コードに収録していており, 「KS X 1001 → Unicode → KS X 1001」と変換した時に,元のテキストと 同じになるようにするためには,この二つの「年」を Unicode でも 区別できるようにしておく必要があるためです。 文字コードの変換を行う場合,互換漢字がどう処理されるかは,ツールによって 異なる可能性があります。    年1 ─┬→ 年 (統合漢字)    年2 ─┘    年1 ──→ 年 (統合漢字)    年2 ──→ 年 (互換漢字) また,データ入力の際,気づかないうちに互換漢字を入力していた,という ケースもあるかもしれません。見た目だけで判断し,ー (音引き),─ (罫線), − (ハイフン),一 (漢数字) などを区別せずに入力する人も多いので, データ作成時には気を付ける必要があります。入力を業者に依頼する場合, 納入されたデータは,一度,互換漢字が入っていないか,チェックしてから 利用するようにした方が無難かもしれません。 検索時に二つの「年」を同一の文字として扱うかどうかも,ツールの仕様, 設定に依存します。例えば,Mac OS X のテキストエディットでは同一の 文字として検索してくれますが,jEditでは別文字扱いになるようです。 以上,参考まで。 -- 名古屋大学 大学院 国際開発研究科 国際コミュニケーション専攻 大名 力 (Tsutomu OHNA)