Hinweise zur iX-Volltextrecherche


Grundlagen

Das iX-Volltext-Suchscript basiert auf dem fehlertoleranten Unix-Suchwerkzeug agrep und dessen Indizierungsprogramm glimpse und stellt nur ein bequemes Frontend für deren Anwendung auf die HTML-Textdateien der iX dar. Die meisten Schalter lassen sich direkt in die verschiedenen Optionen von agrep übersetzen und die internen Beschränkungen von agrep lassen sich damit auch durch das Suchscript nicht umgehen.

Die Volltextsuche unterstützt glimpse-Indizes, setzt deren Verwendung aber nicht voraus. Mit glimpse-Index wird die Suche erheblich beschleunigt, der Index selbst benötigt aber Platz auf der Festplatte. Aufgrund der großen zu bewältigenden Datenmenge, kann eine Recherche über mehrere Hefte ohne glimpse-Index recht lange dauern. Die Volltextsuche erfordert natürlich, daß die CD des ausgewählten Jahrganges gemountet ist.


Suchworte


Suchergebnis

Für jede Fundstelle werden der Titel der Artikeldatei, Seite, Heft und Jahr des Artikels und die Fundstelle im Text angezeigt. Per Hyperlink ist ein direkter Zugriff auf den Artikeltext möglich.

Als Textstelle wird die HTML-Einheit, in der die Übereinstimmung gefunden wurde, ausgegeben. Einheiten werden durch HTML-Kommandos voneinander getrennt. Typischerweise umfaßt eine Einheit einen Absatz, bei herausgehobenen Worten oder Verweisen kann eine Einheit aber auch nur aus einem Wort bestehen. Im Fall von vorformatiertem Text kann eine Einheit auch einen relativ großen Abschnitt des Dokumentes umfassen.

Da in der Ausgabe grundsätzlich keine HTML-Kommandos des Originaldokumentes mit ausgegeben werden, ist es in seltenen Fällen möglich, daß die angezeigte Textstelle das Suchwort gar nicht enthält. Dies passiert falls das Suchwort nur im dazugehörigen HTML-Kommando gefunden wurde.


Optionen

Groß-/Kleinschreibung
Normalerweise werden Groß- und Kleinbuchstaben bei der Suche unterschieden. Falls ein Substantiv z.B. aber auch als Bestandteil eines zusammengesetzten Wortes gefunden werden soll, empfiehlt es sich, diese Unterscheidung abzuschalten.

Wortgrenzenerkennung
Standardmäßig wird ein Suchmuster immer erkannt, falls es irgendwo im Text auftritt. Bei eingeschalteter Worterkennung muß die Fundstelle im Artikel dieselben Wortgrenzen besitzen wie das Suchwort. Bei Übereinstimmung: Teilstring würde das Suchwort Telekom also auch Telekommunikation finden, bei Übereinstimmung: ganze Worte nicht. In der Kombination von Wortgrenzenerkennung und Vernachlässigung von Groß- und Kleinschreibung arbeitet die Volltextsuche wesentlich schneller als sonst.

Fehlertoleranz
agrep erlaubt es, Worte auch dann zu erkennen, wenn sie erst durch Vertauschen, Weglassen oder Hinzufügen einzelner Buchstaben mit dem Suchmuster übereinstimmen. Die maximale Anzahl solcher Operationen kann unter Übereinstimmung spezifiziert werden. Die Vorgabeeinstellung erlaubt nur das Erkennen bei exakter Übereinstimmung.

Arbeiten Sie vorsichtig mit hohen Toleranzwerten! Sie könnten wesentlich mehr Textstellen finden als Sie beabsichtigen.

Der Toleranzwert muß grundsätzlich kleiner als die Länge aller verwendeten Suchworte sein. Leider gibt es einige Einschränkungen in der Kombination von fehlertoleranter Suche und Boolschen Ausdrücken. So dürfen hier die Suchmuster nicht länger als 32 Zeichen sein und die Wortgrenzenerkennung arbeitet nicht mehr immer korrekt.

Logische Verknüpfung mehrerer Worte
Normalerweise werden mehrere Worte im Suchmuster als feste Formulierung interpretiert, also als String behandelt. Der Test des Auftretens verschiedener Worte kann aber auch durch logisches AND bzw. OR verknüpft werden.

Eine AND-Verknüpfung bezieht sich dabei stets auf eine HTML-Einheit innerhalb des Artikels, d.h. Textstellen, die nicht durch ein HTML-Kommando voneinander getrennt sind. Alle Worte müssen also z.B. in einem Absatz vorkommen.

Fundstellenausgabe
Bei häufig auftretenden Suchworten empfiehlt es sich die Anzahl der maximalen Rückgabestellen zu begrenzen, um Datenoverload zu vermeiden.


Zurück zur iX-Volltextrecherche


V. Ossenkopf, 26.10.1997