[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[openoffice:11931] ふりがな関数0.6/ふりがな 関数用NAIST辞書0.2をUplo adしました。



curvirgoです。

(2010年03月25日 23:41), たぼたぼ wrote:
> 漢字の読みから住所のヘボン式英字化は到底無理と思われます。たぶん数千以上
> は違うのでは?
> 同一の漢字でも読み方が違うのはもちろん、どうしてそう読むの?ってものもあ
> ります。

ふりがな関数0.6、及びふりがな関数用NAIST辞書0.2をUploadしました。

ふりがな関数に関する変更点は、以下の通りです。
1. IMM32 APIを利用したふりがな取得を廃止
   これはVista以降は、IMM32ではなくTSFがデフォルトに変更となったこと、TSFのみ対応したIMEやTSFが有効になっている状態で
   ふりがな関数ないでIMM32 APIを呼び出した際に、場合によってはOpenOffice.org本体を巻き込んでクラッシュしてしまうこと、
   IMM32の場合とMecabでの場合に取得結果が異なる場合があること、などを考えた上で廃止することにしました。
2. ASCII文字あるいはそれ以外の文字を変換対象と指定して、全角あるいは半角に変換するA2J関数、J2A関数を追加
   とある方から私信にて要望があったもので、以前この拡張でもっていたASC関数、JIS関数の派生版的な内容なので追加してみました。
3. HEPBURN関数での長音の取り扱いに問題があった為、長音の識別及び変換をしないように変更
   全角カタカナ文字列からの長音の判別は困難であることから、識別すること及び長音の処理をしないことに変更しました。
4. 漢字かな混じり文字列からヘボン式ローマ字に変換するJ2HEPBURN関数を追加
   3.での長音の取り扱いへんこうに対する代替索敵な関数です。
   MeCabを利用して漢字かな混じり文の発音を取得することで長音の識別をせずに済むことから、取得した発音をHEPBURN関数を
   内部的に呼び出してローマ字変換することで、漢字かな混じり文からローマ字変換を実現しました。
   ただし、形態素解析はMeCabに依存してい瑠為にMeCabで正しく解析出来ない場合は期待した結果を返しません。
5. FURIGANA関数での「々」のとりか使いが抜けていたのを修正
   「々」が含まれている文字列からFURIGANA関数でふりがなを取得し用とした場合に、「々」をふりがな取得対象文字と
   判断していなかったのを修正しました。

NAIST辞書に関する変更点は、
1. オリジナルの単語を追加
2. 都道府県や市区町村の(都道府県などの文字を含んだ)単語が登録されておらず、住所の識別が正しくなかった為、たぼたぼさん作の
   郵便番号データをベースにこれらの単語を追加


MLホームページ: http://www.freeml.com/openoffice

----------------------------------------------------------------------
自分好みのMLを作成して気の合う仲間と情報を共有しよう♪
http://ad.freeml.com/cgi-bin/sa.cgi?id=fkdrb
-----------------------------------------------------[freeml by GMO]--