Skip To Content

Verwenden von Lucene-Suchtextabfragen

Im Geoportal wird eine ausgereifte Suchmaschine verwendet, die sich durch viele Suchoptionen, Gewichtungsoptionen, eine schnelle Performance und Erweiterbarkeit auszeichnet. Die Suchmaschine basiert auf der Open-Source-Suchmaschine Apache Lucene. Weitere Informationen zur Lucene-Syntax und dazu, wie diese für die optimale Suche im Geoportal genutzt werden kann, finden Sie auf der Lucene-Website.

Damit Sie die Geoportal-Suchseite optimal nutzen können, finden Sie in den folgenden Abschnitten eine Liste der Features für die Lucene-Suchsyntax:

Begriffe

Eine Abfrage wird in Begriffe und Operatoren unterteilt. Es gibt zwei Arten von Begriffen: einzelne Begriffe und Ausdrücke. Ein einzelner Begriff ist ein einzelnes Wort, z. B. air oder quality. Ein Ausdruck ist eine Gruppe von Wörtern, die in doppelte Anführungszeichen gesetzt sind, z. B. "air quality". Mit booleschen Operatoren können mehrere Begriffe miteinander kombiniert werden, sodass eine komplexe Abfrage entsteht. Im Folgenden sind Beispiele für Suchbegriffe aufgeführt:

  • Eine Suche nach air ergibt 35 Treffer (Elemente, die das Wort air enthalten).
  • Eine Suche nach quality kann 123 Treffer ergeben (Elemente, die das Wort quality enthalten).
  • Eine Suche nach air quality (ohne Anführungszeichen) führt zu 148 Treffern (Elemente, die die Wörter air oder quality oder beide Wörter enthalten).
  • Eine Suche nach air AND quality führt zu 10 Treffern (Elemente, die sowohl das Wort air als auch das Wort quality enthalten).
  • Eine Suche nach "air quality" (mit Anführungszeichen) führt zu 7 Treffern (Elemente, die die Wörter air und quality direkt nacheinander enthalten).
  • Eine Suche nach title:air führt zu 5 Treffern (Elemente, die das Wort air im Titel enthalten).
  • Eine Suche nach title:quality führt zu 14 Treffern (Elemente, die das Wort quality im Titel enthalten).
  • Eine Suche nach +title:air +title:quality oder title:"air quality" führt zu 2 Treffern (Elemente, die beide Wörter, also air und quality, im Titel enthalten).

Sonderzeichen

Das Geoportal unterstützt das Verwenden von Escape-Zeichen vor Sonderzeichen, die Teil einer Abfragesyntax sind. Im Folgenden finden Sie eine Liste der Sonderzeichen und ihrer Escape-Codes:

SonderzeichenEscape-Code

+

\+

-

\-

&&

\&\&

||

\|\|

!

\!

(

\(

)

\)

{

\{

}

\}

[

\[

]

\]

^

\^

"

\"

~

\~

*

\*

?

\?

:

\:

\

\\

Wenn Sie beispielsweise nach Elementen suchen möchten, die Treffer mit dem Maßstab 1:250k enthalten, verwenden Sie die folgende Abfrage: 1\:250k.

Felder

Lucene unterstützt Felddaten. Beim Durchführen einer Suche können Sie entweder ein Feld angeben oder das Standardfeld verwenden. Die Feldnamen und das Standardfeld sind implementierungsspezifisch. Sie können beliebige Felder durchsuchen, indem Sie den Namen des Feldes gefolgt von einem Doppelpunkt und dem Suchbegriff eingeben. Eine Abfrage, bei der ein bestimmtes Feld genau angegeben wird, kann genauer sein als eine Abfrage, bei der nur mit Begriffen gesucht wird. Beachten Sie, dass bei einigen Feldern zwischen Groß- und Kleinschreibung unterschieden wird. Denken Sie daran, dass bei Abfragen vor einigen Sonderzeichen ein umgekehrter Schrägstrich (\) als Escape-Zeichen eingefügt werden muss oder Sonderzeichen in Anführungszeichen gesetzt werden müssen, wenn sie Teil des Suchtextes sind. Im Folgenden finden Sie eine Liste der Suchen mit Feldern:

  • title:"The Right Way" AND text:"don't go this way"
  • uuid:"{550E8400-E29B-41D4-A716-446655440000}"
  • uuid:\{550E8400\-E29B\-41D4\-A716\-446655440000\}
  • resource.url:"http://server.arcgisonline.com/ArcGIS/rest/services/ESRI_StreetMap_World_2D/MapServer"
Hinweis:

Das Feld ist nur für den Begriff gültig, der dem Feld direkt folgt. Bei der Abfrage title:Do it right wird deshalb nur nach Do im Titelfeld gesucht.

Platzhaltersuche

Das Geoportal unterstützt Platzhaltersuchvorgänge für ein oder mehrere Zeichen, die sich innerhalb von einzelnen Begriffen befinden (nicht innerhalb von Abfragen mit Ausdrücken).

Vorsicht:

Sternchen (*) und Fragezeichen (?) können bei einer Suche nicht als erstes Zeichen verwendet werden.

Verwenden Sie bei Platzhaltersuchen für ein Zeichen das Fragezeichen. Bei einer Platzhaltersuche für ein Zeichen wird nach Begriffen gesucht, die dem gesuchten Begriff entsprechen, wenn das einzelne Zeichen ersetzt wird. Beispielsweise können Sie mit der Suchabfrage Te?t nach Text oder Test suchen.

Verwenden Sie bei Platzhaltersuchen für mehrere Zeichen das Sternchen. Bei Platzhaltersuchen für mehrere Zeichen wird nach 0 oder mehreren Zeichen gesucht. Beispielsweise können Sie mit der Suchabfrage test* nach "Test", "Tests" oder "Tester" suchen. Sie können das Platzhalterzeichen auch innerhalb eines Suchbegriffs verwenden, z. B. te*t.

Fuzzy-Suche

Das Geoportal unterstützt Fuzzy-Suchvorgänge, die auf der Levenshtein-Distanz bzw. dem Algorithmus für die Bearbeitungsinstanz basieren. Verwenden Sie bei einer Fuzzy-Suche am Ende eines einzelnen Begriffs das Tilde-Zeichen "~". Beispielsweise können Sie mit der Fuzzy-Suche air~ nach Begriffen suchen, die so ähnlich wie air geschrieben werden. Bei dieser Suche werden Elemente gefunden, die nicht nur Begriffe wie air und airplane enthalten, sondern auch Begriffe wie aid. Das Geoportal unterstützt das Angeben einer notwendigen Ähnlichkeit. Der Wert liegt zwischen 0 und 1. Liegt der Wert näher an 1, werden nur Begriffe mit einer höheren Ähnlichkeit abgeglichen, z. B. air~0.8. Wird kein Wert angegeben, lautet der Standardwert 0,5.

Umkreissuche

Das Geoportal unterstützt die Suche nach Wörtern, die innerhalb einer bestimmten Distanz liegen. Verwenden Sie bei einer Umkreissuche am Ende eines Ausdrucks das Tilde-Zeichen "~". Um beispielsweise nach air und quality innerhalb von 10 Wörtern in einem Dokument zu suchen, verwenden Sie die folgende Suche: "air quality"~10.

Bereichssuche

Das Geoportal unterstützt Bereichsabfragen für die Envelope- und Zeitstempel-Suche. Damit können Benutzer Dokumente suchen, deren Feldwerte zwischen der in der Bereichsabfrage angegebenen unteren und oberen Grenze liegen. Bereichsabfragen können obere und untere Grenzen ein- und ausschließen.

Envelope-Suchen

Eine Envelope-Suche weist folgende Syntax auf: Zuerst wird der Feldname (Envelope) angegeben, dann folgt ein Doppelpunkt (:) und anschließend entweder eine einschließende oder eine ausschließende Bereichsdefinition. Für einschließende Bereiche muss der räumliche Envelope in eckige Klammern ([ ]) gesetzt werden und für ausschließende Bereiche in geschweifte Klammern ({ }). Ausschließende Bereichssuchen wählen nur Ressourcen aus, die exakt in den angegebenen Envelope-Bereich fallen, während einschließende Bereichssuchen Ressourcen auswählen, die außerhalb des angegebenen Bereichs liegen und diesen überschneiden. Das erste Wertepaar sind die Koordinaten der unteren linken Ecke. Danach folgen das Schlüsselwort TO (in Großbuchstaben) und die Koordinaten der oberen rechten Ecke. Koordinaten werden stets im Projektionssystem WGS 1984 (4236) angegeben. Außerdem können anstelle einer einzelnen Koordinate oder eines Eckkoordinatenpaares Platzhalter verwendet werden, z. B.: envelope:[*,-70 TO +30,*] oder envelope:{-80,-70 TO *} .

Die folgende Liste enthält Beispiele für Envelope-Suchen:

  • envelope:[-80,-70 TO +30,+70]

    Bei dieser Suche werden Dokumente zurückgegeben, die einen räumlichen Envelope mit einer Südwest-Grenzkoordinate von -80° W und -70° S und einer Nordost-Grenzkoordinate von 30° W und 70° N überschneiden.

  • envelope:{-80,-70 TO +30,+70}

    Bei dieser Suche werden Dokumente zurückgegeben, die genau in den Bereich eines räumlichen Envelopes mit einer Südwest-Grenzkoordinate von -80° W und -70° S und einer Nordost-Grenzkoordinate von 30° W und 70° N fallen.

Zeitstempel-Suchen

Eine Zeitstempel-Suche weist folgende Syntax auf: Zuerst wird der Feldname (dateModified) angegeben, dann folgt ein Doppelpunkt (:) und anschließend eine einschließende Bereichsdefinition.

  • Die folgende Liste enthält Beispiele für Zeitstempel-Suchen:
    • dateModified:[2009-10-11 TO 2009-11-10]

      Bei dieser Suche würden Ressourcen zurückgegeben, deren dateModified-Wert zwischen dem 11.10.2009 und dem 10.11.2009 (jeweils einschließlich) liegt.

    • dateModified:[2006 TO 2010]

      Bei dieser Suche würden Ressourcen zurückgegeben, deren dateModified-Wert zwischen den Jahren 2006 und 2010 liegt.

    • dateModified:2009-12

      Bei dieser Suche würden Ressourcen zurückgegeben, deren dateModified-Wert im Dezember 2009 liegt (keine Klammern erforderlich).

Relevanzverstärkung eines Begriffs

Das Geoportal stellt auf Basis der gefundenen Begriffe die Relevanzebene der entsprechenden Dokumente zur Verfügung. Um die Relevanz eines Begriffs zu verstärken, verwenden Sie das Caret-Zeichen (^) und einen Verstärkungsfaktor (eine Zahl) am Ende des Suchbegriffs. Je höher der Verstärkungsfaktor, desto höher ist die Relevanz des Begriffs. Durch Erhöhen der Relevanz können Sie die Relevanz eines Dokuments zu steuern, indem die Relevanz eines Begriffs darin erhöht wird. Wenn Sie zum Beispiel nach air quality suchen und möchten, dass der Begriff air relevanter ist, können Sie seine Relevanz mit der folgenden Suchsyntax erhöhen: air^4 quality. Bei dieser Suche würden Dokumente zurückgegeben, in denen der Begriff air relevanter ist. Mit der folgenden Suchsyntax können Sie die Relevanz von Ausdrücken erhöhen: "air quality"^4 "water quality". Der standardmäßige Erhöhungsfaktor ist 1. Der Erhöhungsfaktor kann zwar kleiner als 1 sein, muss aber eine positive Zahl sein, z. B. air^0.2 quality.

Boolesche Operatoren

Mit Booleschen Operatoren können Begriffe mit Logikoperatoren kombiniert werden. Das Geoportal unterstützt die folgenden booleschen Operatoren:

  • Der Operator OR ist der Standardoperator für die Kombination von Begriffen. Dies bedeutet, dass der OR-Operator verwendet wird, wenn kein anderer boolescher Operator zwischen zwei Suchbegriffen angegeben wird. Der OR-Operator verknüpft zwei Begriffe und gibt ein übereinstimmendes Dokument zurück, wenn einer der Begriffe in einem Dokument vorhanden ist. Dies entspricht einer Vereinigungsmenge von Datensätzen. Der Operator || kann auch anstelle des Wortes OR verwendet werden.
  • Mit dem AND-Operator können Sie Suchabfragen durchführen, bei denen sich beide Begriffe an einer beliebigen Position im Text eines einzelnen Dokuments befinden. Dies entspricht einer Schnittmenge von Datensätzen. Der Operator && kann auch anstelle des Wortes AND verwendet werden.
  • Das Pluszeichen + gibt an, dass der Begriff nach dem +-Zeichen an einer beliebigen Stelle in einem Feld eines einzelnen Dokuments enthalten sein muss.
  • Der NOT-Operator schließt Dokumente aus, die den auf das Wort NOT folgenden Begriff enthalten. Dies entspricht einer Differenz von Datensätzen. Das Ausrufezeichen (!) kann auch anstelle des Wortes NOT verwendet werden.
    Hinweis:

    Der Operator NOT kann nicht mit einem einzelnen Begriff verwendet werden.

Hinweis:

Bei booleschen Operatoren ist die Groß- und Kleinschreibung zu beachten.

Gruppieren

Das Geoportal unterstützt das Verwenden von Klammern, um Wortgruppen zu gruppieren und so Unterabfragen zu erstellen. Dies kann nützlich sein, wenn Sie für eine Abfrage die boolesche Logik steuern möchten. Beispiel: Bei (air OR water) AND quality werden Dokumente gefunden, die die Wörter air und quality oder die Wörter water und quality enthalten.

Feldgruppierung

Das Geoportal unterstützt das Verwenden von Klammern, um mehrere Wortgruppen für ein einzelnes Feld zu gruppieren. Beispiel: Mit title:(air OR water) werden Elemente gefunden, die die Wörter air oder water im Titel enthalten.