24 |
<h1>ユーザガイド</h1> |
<h1>ユーザガイド</h1> |
25 |
|
|
26 |
<div class="note">Copyright (C) 2004-2005 Mikio Hirabayashi</div> |
<div class="note">Copyright (C) 2004-2005 Mikio Hirabayashi</div> |
27 |
<div class="note">Last Update: Tue, 07 Jun 2005 06:17:00 +0900</div> |
<div class="note">Last Update: Mon, 01 Aug 2005 00:50:38 +0900</div> |
28 |
<div class="navi">[<a href="uguide-en.html" hreflang="en">English</a>] [<a href="index.ja.html">HOME</a>]</div> |
<div class="navi">[<a href="uguide-en.html" hreflang="en">English</a>] [<a href="index.ja.html">HOME</a>]</div> |
29 |
|
|
30 |
<hr /> |
<hr /> |
363 |
<dl> |
<dl> |
364 |
<dt><kbd>estcmd optimize [-onp] [-ond] <var>db</var></kbd></dt> |
<dt><kbd>estcmd optimize [-onp] [-ond] <var>db</var></kbd></dt> |
365 |
<dd>インデックスを最適化して、不要な領域を削除します。</dd> |
<dd>インデックスを最適化して、不要な領域を削除します。</dd> |
366 |
<dd>-onpを付けると、削除されたドキュメントの領域を回収する処理を省略します。</dd> |
<dd>-onpを付けると、削除された文書の領域を回収する処理を省略します。</dd> |
367 |
<dd>-ondを付けると、データベースファイルの最適化を省略します。</dd> |
<dd>-ondを付けると、データベースファイルの最適化を省略します。</dd> |
368 |
</dl> |
</dl> |
369 |
|
|
392 |
</dl> |
</dl> |
393 |
|
|
394 |
<dl> |
<dl> |
395 |
<dt><kbd>estcmd gather [-cl] [-fe|-ft|-fh|-fm] [-fx <var>sufs</var> <var>cmd</var>] [-fz] [-fo] [-ic <var>enc</var>] [-il <var>lang</var>] [-pc <var>enc</var>] [-pf] [-apn] [-sd] [-cm] [-cs <var>num</var>] <var>db</var> [<var>file</var>|<var>dir</var>]</kbd></dt> |
<dt><kbd>estcmd gather [-cl] [-fe|-ft|-fh|-fm] [-fx <var>sufs</var> <var>cmd</var>] [-fz] [-fo] [-ic <var>enc</var>] [-il <var>lang</var>] [-pc <var>enc</var>] [-pf] [-px <var>name</var>] [-apn] [-sd] [-cm] [-cs <var>num</var>] <var>db</var> [<var>file</var>|<var>dir</var>]</kbd></dt> |
396 |
<dd>ファイルシステムを探索して文書を登録します。</dd> |
<dd>ファイルシステムを探索して文書を登録します。</dd> |
397 |
<dd>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリストを読み込みます。「-」を指定した場合、標準入力が読み込まれます。findコマンドの出力を読み込むと便利です。</dd> |
<dd>第3引数としてファイル名を指定すると、そのファイルから処理対象のパスのリストを読み込みます。「-」を指定した場合、標準入力が読み込まれます。findコマンドの出力を読み込むと便利です。</dd> |
398 |
<dd>第3引数としてディレクトリ名を指定すると、そのディレクトリ以下の全てのファイルを処理対象にします。</dd> |
<dd>第3引数としてディレクトリ名を指定すると、そのディレクトリ以下の全てのファイルを処理対象にします。</dd> |
403 |
<dd>-fmを付けると、処理対象の全てのファイルをMIMEとして扱います。</dd> |
<dd>-fmを付けると、処理対象の全てのファイルをMIMEとして扱います。</dd> |
404 |
<dd>-fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切りで複数の接尾辞を指定できます。コマンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれでもない場合は文書ドラフトとして解析されます。このオプションは複数回指定できます。</dd> |
<dd>-fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切りで複数の接尾辞を指定できます。コマンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれでもない場合は文書ドラフトとして解析されます。このオプションは複数回指定できます。</dd> |
405 |
<dd>-fzを付けると、-fxの条件に当てはまらないファイルを無視します。</dd> |
<dd>-fzを付けると、-fxの条件に当てはまらないファイルを無視します。</dd> |
406 |
<dd>-foを付けると、処理対象のファイルを読み込みません。</dd> |
<dd>-foを付けると、処理対象のファイルを読み込みません。外部フィルタの効率化のために使います。</dd> |
407 |
<dd>-icは対象文書の文字コードを指定します。デフォルトは自動判定です。</dd> |
<dd>-icは対象文書の文字コードを指定します。デフォルトは自動判定です。</dd> |
408 |
<dd>-ilは文字コードの判定で優先される言語を指定します。デフォルトは英語です。</dd> |
<dd>-ilは文字コードの判定で優先される言語を指定します。デフォルトは英語です。</dd> |
409 |
<dd>-pcはファイルのパスの文字コードを指定します。デフォルトはISO-8859-1です。</dd> |
<dd>-pcはファイルのパスの文字コードを指定します。デフォルトはISO-8859-1です。</dd> |
410 |
<dd>-pfを付けると、ファイル名の代わりにフルパスを属性として記録します。</dd> |
<dd>-pfを付けると、ファイル名の代わりにフルパスを属性として記録します。</dd> |
411 |
|
<dd>-pxはパスのリストから読み取る属性名を指定します。パスのリストはTSV形式にすることができ、第1フィールドは対象文書のパス名、第2フィールド以降は属性値の定義として扱われます。-pxによって第2フィールド以降に対応する属性名を定義します。このオプションは複数回指定できます。</dd> |
412 |
<dd>-apnをつけると、全ての言語をN-gram法で処理します。</dd> |
<dd>-apnをつけると、全ての言語をN-gram法で処理します。</dd> |
413 |
<dd>-sdを付けると、ファイルの作成日時と更新日時を文書の属性として追加します。</dd> |
<dd>-sdを付けると、ファイルの作成日時と更新日時を文書の属性として追加します。</dd> |
414 |
<dd>-cmを付けると、文書の属性の更新日時がファイルの更新日時より古い場合にのみ登録を行います。</dd> |
<dd>-cmを付けると、文書の属性の更新日時がファイルの更新日時より古い場合にのみ登録を行います。</dd> |
822 |
|
|
823 |
<p>以上の条件を満たしているならば、NFSを使って複数のマシンでインデックスを共有することができます。並列化に関する条件は単一のマシンを使っている場合と同じです。すなわち、あるプロセスがライタで接続している間は他のプロセスはリーダでもライタでも接続できず、あるプロセスがリーダで接続している間は他のプロセスはリーダであれば接続できます。</p> |
<p>以上の条件を満たしているならば、NFSを使って複数のマシンでインデックスを共有することができます。並列化に関する条件は単一のマシンを使っている場合と同じです。すなわち、あるプロセスがライタで接続している間は他のプロセスはリーダでもライタでも接続できず、あるプロセスがリーダで接続している間は他のプロセスはリーダであれば接続できます。</p> |
824 |
|
|
825 |
|
<h3>WWWOFFLEのキャッシュの検索</h3> |
826 |
|
|
827 |
|
<p>プロクシサーバWWWOFFLEのキャッシュを対象とした検索システムを構築することも簡単です。そのために、WWWOFFLEのキャッシュのリストを出力するコマンドとして `estwolefind' が提供されます。これは、第1引数で指定したディレクトリにあるWWWOFFLEのキャッシュファイルのパスとそれに対応するURLをTSV形式で出力するものです。</p> |
828 |
|
|
829 |
|
<p>例えば、WWWOFFLEのキャッシュが「/var/spool/wwwoffle」にあるならば、以下のコマンドを実行してください。なお、作業は「/var/spool/wwwoffle」を読み取れる権限があるユーザで行ってください。</p> |
830 |
|
|
831 |
|
<pre>estwolefind /var/spool/wwwoffle | estcmd gather -cl -fm -px @uri -sd -cm casket - |
832 |
|
</pre> |
833 |
|
|
834 |
|
<p>あとは、普通にestseek.cgiで検索を行うことができます。定期的に上記のコマンドを実行するようにすれば、快適なWebライフの一助となるでしょう。</p> |
835 |
|
|
836 |
<hr /> |
<hr /> |
837 |
|
|
838 |
<h2 id="faq">よく聞かれる質問</h2> |
<h2 id="faq">よく聞かれる質問</h2> |