★★ POBox辞書作成スクリプト(Windows用) ★★
POBoxとは, ペン等を入力手段とするコンピュータでの日本語, 英語の
文章入力を効率的に行うことのできる, 画期的なシステムです.
このスクリプトは, POBoxの作者,増井俊之氏が作られた辞書ツール
(http://www.csl.sony.co.jp/person/masui/POBox/index.html)を参考にして
作成したAWKスクリプトで, Windows95などのDOSプロンプトで使います.
形態素解析プログラム「茶筌」を使って、自分の書いたテキストファイルから
自分用の辞書ファイル word, phrase を作ることができます.
私がこのスクリプトを作ったのは, 伊藤栄一郎氏が
WindowsCE用に移植,チューニングされたPOBox for WinCE
(http://www.oohito.com の Alpha-Ver.のページからダウンロード可)
用の辞書を作るためです. (ComPOBoxの分割辞書は直接は生成できません.)
わざわざ公開するほどのものでもなく,
ほとんど使いすてスクリプトみたいなものですが,
POBoxを発案された増井俊之氏への敬意と,
数々の便利なWindowsCEアプリ無償で公開されている
伊藤栄一郎氏への謝意をこめて公開するものです.
これからPOBoxを使い始める人の役に立てば幸いです.
このスクリプトの動作確認は, Windows95上で
・Gnu Awk (gawk) 2.15, patchlevel 4 + multi-byte extension 1.03
・日本語形態素解析システム「茶筌(ChaSen)」for Windows95 version 1.0
を用いて行っています.
(sort には \windows\command\sort.exe を使用しています.)
このスクリプトの改変, 再配布は自由とします.
このスクリプトを実行することによって生じた被害に対して,
喜多は責任を負わないものとします.
各自の責任の元で使用してください.
質問, コメントなどがありましたら, 喜多までメールを下さい.
運がよければ, 反応があります. (^^;
* 使い方
1. gawk win32 (マルチバイト対応)をインストールする.
http://www.vector.co.jp の ダウンロード -> ライブラリ ->
Windows95 -> ユーティリティ -> テキストファイル用 -> AWK
('99 8月現在ここにある)
などから入手できる.
2. 日本語形態素解析システム「茶筌」のWindows版をインストールする.
茶筌の最新版は以下のURLから入手できる.
http://cactus.aist-nara.ac.jp/lab/nlt/chasen.html
あるいは http://www.vector.co.jp の ダウンロード -> ライブラリ ->
Windows95 -> 学習&教育 -> 日本語 ('99 8月現在ここにある)
からも入手可能である.
3. スクリプトの圧縮ファイルをダウンロードする.
スクリプトのダウンロード (約 10KBytes)
4. 適当な場所で解凍する. 例えば C:\ で解凍すると
C:\mkpdic\ 以下にすべてのファイル,フォルダか作られる.
以下は C:\ で解凍した場合について説明する.
5. 作成されたフォルダ txt に辞書作成の元となるテキストファイルを
置く.
例えばこのファイル(readme.htm)を C:\mkpdic\txt\ にコピーするとよい.
もちろん, まともな辞書を作りたければある程度の量のファイルが必要.
6. 伊藤栄一郎氏のWebページ http://www.oohito.com
の Other Information -> Application Data -> Dictionaries(辞書データ) の
箇所から, SKK辞書(小)あるいは(中)をダウンロードし,
解凍した辞書 jisyo.s または jisyo.m を C:\mkpdic\jisyo\ に置く.
(この作業は必須ではない)
7. C:\mkpdic\include\ に自分で直接書いた word データのファイルを置く.
例えば C:\mkpdic\include\sample.txt のようなファイルである.
(この作業も必須ではない)
8. gawk.exe と chasen.exe が正常にインストールされているのを
確認した上で, DOSプロンプトにおいて mkpdic.bat を実行する.
mkpdic.bat を実行するフォルダは C:\mkpdic\ でなければならない.
問題がなければ, mkpdic.bat と同じフォルダ C:\mkpic\ に
単語辞書 word, 例文辞書 phrase ができる.
・ そのままの設定では, word は約 100 KBytes程度, phrase は約 60 KBytes
程度に制限されます. これを変更したい場合は mkpdic.bat の該当部分
gawk -f awk\extr2.awk 100 tmpd\tmpout4 > word
^^^
gawk -f awk\extr4.awk 60 tmpd\tmpout14 > phrase
^^
の箇所を適当な値に変更してください.
・ フォルダ txt, jisyo, include に置くファイルの名前は任意です.
なお, フォルダ jisyo, include に置くファイルは word のデータにしか
用いられません.
・ txtフォルダに置かれたすべてのファイルの句点, 読点で全角文字のものは
ascii文字のピリオド( . ), コンマ( , ) に置き換えて読み込まれます.
(単に私の個人的な趣味です.)
これがいやな場合は awk\cat.awk の該当部分
gsub(/。/," ."); # 句点は "." に置き換える
gsub(/./," . "); # 句点は "." に置き換える
gsub(/、/," , "); # 読点は "," に置き換える
gsub(/,/," , "); # 読点は "," に置き換える
をコメントアウトしてください.
AWKでは, 行頭に # をおけばコメントになります.
・ フォルダ tmpd に作成されるファイルはテンポラリファイルです.
デバッグのために一応残してあります.
極めて大きなファイルが作成されることもあるので, 消去してください.
* このスクリプトを用いて作成した辞書の例
私が個人的に作成した辞書を一応公開しておきます.
この辞書の作成にスクリプト実行に要した時間は,
自作AT機(486DX4 100MHz)で5分です。
なお, この辞書の一部は上記のSKK辞書を元にしているため,
再配布等についてはGnu Public Licenseに従うものとします.
辞書のダウンロード (約 80KBytes)