Hinweise zur iX-Volltextrecherche
Grundlagen
Das iX-Volltext-Suchscript basiert auf dem fehlertoleranten
Unix-Suchwerkzeug agrep und dessen Indizierungsprogramm
glimpse und stellt nur
ein bequemes Frontend für deren Anwendung auf die HTML-Textdateien
der iX dar. Die meisten Schalter lassen sich direkt in die
verschiedenen Optionen von agrep übersetzen und die internen
Beschränkungen von agrep lassen sich damit auch durch
das Suchscript nicht umgehen.
Die Volltextsuche unterstützt glimpse-Indizes, setzt deren
Verwendung aber nicht voraus. Mit glimpse-Index wird die Suche
erheblich beschleunigt, der Index selbst benötigt aber Platz auf
der Festplatte. Aufgrund der großen zu bewältigenden Datenmenge,
kann eine Recherche über mehrere Hefte ohne glimpse-Index recht
lange dauern. Die Volltextsuche erfordert natürlich, daß
die CD des ausgewählten Jahrganges gemountet ist.
Suchworte
- Suchworte sollten normalerweise aus alphanumerischen Zeichen bestehen.
- Umlaute, ß und Sonderzeichen können direkt eingegeben werden.
- Mehrere Suchworte sind durch Leerzeichen zu trennen.
Suchergebnis
Für jede Fundstelle werden der Titel der Artikeldatei,
Seite, Heft und Jahr des Artikels und die Fundstelle im Text angezeigt.
Per Hyperlink ist ein direkter Zugriff auf den
Artikeltext möglich.
Als Textstelle wird die HTML-Einheit, in der die
Übereinstimmung gefunden wurde, ausgegeben. Einheiten werden durch
HTML-Kommandos voneinander getrennt. Typischerweise umfaßt eine
Einheit einen Absatz, bei herausgehobenen Worten oder Verweisen
kann eine Einheit aber auch nur aus einem Wort bestehen. Im Fall von
vorformatiertem Text kann eine Einheit auch einen relativ großen
Abschnitt des Dokumentes umfassen.
Da in der Ausgabe grundsätzlich keine HTML-Kommandos des
Originaldokumentes mit ausgegeben werden, ist es in seltenen Fällen
möglich, daß die angezeigte Textstelle das Suchwort gar nicht
enthält. Dies passiert falls das Suchwort nur im dazugehörigen
HTML-Kommando gefunden wurde.
Optionen
- Groß-/Kleinschreibung
- Normalerweise werden Groß- und Kleinbuchstaben bei der Suche unterschieden.
Falls ein Substantiv z.B. aber auch als Bestandteil eines zusammengesetzten
Wortes gefunden werden soll, empfiehlt es sich, diese Unterscheidung
abzuschalten.
- Wortgrenzenerkennung
- Standardmäßig wird ein Suchmuster immer erkannt, falls es irgendwo
im Text auftritt. Bei eingeschalteter
Worterkennung muß die Fundstelle im Artikel dieselben Wortgrenzen
besitzen wie das Suchwort. Bei
Übereinstimmung: Teilstring würde das Suchwort Telekom also
auch Telekommunikation finden, bei Übereinstimmung: ganze Worte
nicht. In der Kombination von Wortgrenzenerkennung und Vernachlässigung von
Groß- und Kleinschreibung arbeitet die Volltextsuche wesentlich schneller
als sonst.
- Fehlertoleranz
-
agrep erlaubt es, Worte auch dann zu erkennen, wenn sie
erst durch Vertauschen, Weglassen oder Hinzufügen einzelner
Buchstaben mit dem Suchmuster übereinstimmen. Die maximale Anzahl
solcher Operationen kann unter Übereinstimmung spezifiziert
werden. Die Vorgabeeinstellung erlaubt nur das Erkennen bei exakter
Übereinstimmung.
Arbeiten Sie vorsichtig mit hohen Toleranzwerten! Sie
könnten wesentlich mehr Textstellen finden als Sie beabsichtigen.
Der Toleranzwert muß grundsätzlich kleiner als die Länge aller
verwendeten Suchworte sein. Leider gibt es einige Einschränkungen in
der Kombination von fehlertoleranter Suche und Boolschen Ausdrücken. So
dürfen hier die Suchmuster nicht länger als 32 Zeichen sein und die Wortgrenzenerkennung arbeitet nicht mehr immer korrekt.
- Logische Verknüpfung mehrerer Worte
- Normalerweise werden mehrere Worte im Suchmuster als
feste Formulierung interpretiert, also als String behandelt.
Der Test des Auftretens verschiedener Worte kann aber auch
durch logisches AND bzw. OR verknüpft werden.
Eine AND-Verknüpfung bezieht sich dabei stets auf eine HTML-Einheit innerhalb
des Artikels, d.h. Textstellen, die nicht durch ein HTML-Kommando
voneinander getrennt sind. Alle Worte müssen also z.B. in einem Absatz
vorkommen.
- Fundstellenausgabe
- Bei häufig auftretenden Suchworten empfiehlt es sich die Anzahl
der maximalen Rückgabestellen zu begrenzen, um Datenoverload zu
vermeiden.
Zurück zur iX-Volltextrecherche
V. Ossenkopf,
26.10.1997