★★  POBox辞書作成スクリプト(Windows用)  ★★


POBoxとは, ペン等を入力手段とするコンピュータでの日本語, 英語の
文章入力を効率的に行うことのできる, 画期的なシステムです.

このスクリプトは, POBoxの作者,増井俊之氏が作られた辞書ツール
(http://www.csl.sony.co.jp/person/masui/POBox/index.html)を参考にして
作成したAWKスクリプトで, Windows95などのDOSプロンプトで使います.

形態素解析プログラム「茶筌」を使って、自分の書いたテキストファイルから
自分用の辞書ファイル word, phrase を作ることができます.

私がこのスクリプトを作ったのは, 伊藤栄一郎氏が
WindowsCE用に移植,チューニングされたPOBox for WinCE
(http://www.oohito.com の Alpha-Ver.のページからダウンロード可)
用の辞書を作るためです. (ComPOBoxの分割辞書は直接は生成できません.)


わざわざ公開するほどのものでもなく,
ほとんど使いすてスクリプトみたいなものですが,
POBoxを発案された増井俊之氏への敬意と,
数々の便利なWindowsCEアプリ無償で公開されている
伊藤栄一郎氏への謝意をこめて公開するものです.
これからPOBoxを使い始める人の役に立てば幸いです.


このスクリプトの動作確認は, Windows95上で
・Gnu Awk (gawk) 2.15, patchlevel 4 + multi-byte extension 1.03
・日本語形態素解析システム「茶筌(ChaSen)」for Windows95 version 1.0
を用いて行っています.
(sort には \windows\command\sort.exe を使用しています.)

このスクリプトの改変, 再配布は自由とします.
このスクリプトを実行することによって生じた被害に対して,
喜多は責任を負わないものとします.
各自の責任の元で使用してください.

質問, コメントなどがありましたら, 喜多までメールを下さい.
運がよければ, 反応があります. (^^;



* 使い方 1. gawk win32 (マルチバイト対応)をインストールする. http://www.vector.co.jp の ダウンロード -> ライブラリ -> Windows95 -> ユーティリティ -> テキストファイル用 -> AWK ('99 8月現在ここにある) などから入手できる. 2. 日本語形態素解析システム「茶筌」のWindows版をインストールする. 茶筌の最新版は以下のURLから入手できる. http://cactus.aist-nara.ac.jp/lab/nlt/chasen.html あるいは http://www.vector.co.jp の ダウンロード -> ライブラリ -> Windows95 -> 学習&教育 -> 日本語 ('99 8月現在ここにある) からも入手可能である. 3. スクリプトの圧縮ファイルをダウンロードする. スクリプトのダウンロード (約 10KBytes) 4. 適当な場所で解凍する. 例えば C:\ で解凍すると C:\mkpdic\ 以下にすべてのファイル,フォルダか作られる. 以下は C:\ で解凍した場合について説明する. 5. 作成されたフォルダ txt に辞書作成の元となるテキストファイルを 置く. 例えばこのファイル(readme.htm)を C:\mkpdic\txt\ にコピーするとよい. もちろん, まともな辞書を作りたければある程度の量のファイルが必要. 6. 伊藤栄一郎氏のWebページ http://www.oohito.com の Other Information -> Application Data -> Dictionaries(辞書データ) の 箇所から, SKK辞書(小)あるいは(中)をダウンロードし, 解凍した辞書 jisyo.s または jisyo.m を C:\mkpdic\jisyo\ に置く. (この作業は必須ではない) 7. C:\mkpdic\include\ に自分で直接書いた word データのファイルを置く. 例えば C:\mkpdic\include\sample.txt のようなファイルである. (この作業も必須ではない) 8. gawk.exe と chasen.exe が正常にインストールされているのを 確認した上で, DOSプロンプトにおいて mkpdic.bat を実行する. mkpdic.bat を実行するフォルダは C:\mkpdic\ でなければならない. 問題がなければ, mkpdic.bat と同じフォルダ C:\mkpic\ に 単語辞書 word, 例文辞書 phrase ができる. ・ そのままの設定では, word は約 100 KBytes程度, phrase は約 60 KBytes 程度に制限されます. これを変更したい場合は mkpdic.bat の該当部分 gawk -f awk\extr2.awk 100 tmpd\tmpout4 > word ^^^ gawk -f awk\extr4.awk 60 tmpd\tmpout14 > phrase ^^ の箇所を適当な値に変更してください. ・ フォルダ txt, jisyo, include に置くファイルの名前は任意です. なお, フォルダ jisyo, include に置くファイルは word のデータにしか 用いられません. ・ txtフォルダに置かれたすべてのファイルの句点, 読点で全角文字のものは ascii文字のピリオド( . ), コンマ( , ) に置き換えて読み込まれます. (単に私の個人的な趣味です.) これがいやな場合は awk\cat.awk の該当部分 gsub(/。/," ."); # 句点は "." に置き換える gsub(/./," . "); # 句点は "." に置き換える gsub(/、/," , "); # 読点は "," に置き換える gsub(/,/," , "); # 読点は "," に置き換える をコメントアウトしてください. AWKでは, 行頭に # をおけばコメントになります. ・ フォルダ tmpd に作成されるファイルはテンポラリファイルです. デバッグのために一応残してあります. 極めて大きなファイルが作成されることもあるので, 消去してください.
* このスクリプトを用いて作成した辞書の例 私が個人的に作成した辞書を一応公開しておきます. この辞書の作成にスクリプト実行に要した時間は, 自作AT機(486DX4 100MHz)で5分です。 なお, この辞書の一部は上記のSKK辞書を元にしているため, 再配布等についてはGnu Public Licenseに従うものとします. 辞書のダウンロード (約 80KBytes)