Das Semantische Web in zehn Passagen Harold Boley Copyright 2002-10-20, ==================================== 2004-09-23 Die Substanz des Semantischen Webs und die Technologie Semantischer Suchmaschinen werden diskutiert. Der Artikel erklärt die Konzepte Semantische Suche, Crawler, Präzision und Recall, Norm-Begriff sowie Sinn-Beziehung und Wissens-Herleitung. Er diskutiert Fragen des Sicheinigens auf Norm-Begriffe und Norm-Prädikate, wie sie Web-Seiten zugeordnet werden, und wo diese Zuordnungen als Metadaten gespeichert werden sollen. Er zeigt weiter wie verfeinerte Norm-Begriffe Sinn-Beziehungen erben und warum die Wartung von Bibliotheks-Katalogen und Metadaten-Ontologien ein so schwieriges Problem ist. PASSAGE 1: 'Sinn-volle' Suche im planetarischen Milliarden-Netz Das World Wide Web umfasst z.Z. mehr als vier Milliarden (oft 'rollbare') Seiten. Wenn Sie darin eine bestimmte Seite suchen, müssen Sie stärker 'sieben' als würden Sie ein spezielles Sandkorn-Würfelchen von 1mm Kantenlänge in zwei dicht gepackten Kisten solcher Sandkörner suchen, die als Würfel je 1000mm = 1m Kantenlänge hätten. Tatsächlich sind die 'Körner' dieser sich rasch vermehrenden Kubikmeter Web-'Sandes' als Knoten eines Netzes ausgestreut, das den ganzen Planeten umspannt. Über die Netz-'Fäden' der URLs (Uniform Resource Locators) können Sie sich von einer Sandkorn-Seite zur nächsten klicken. Aber durch dieses manuelle 'Navigieren' entlang der URL-Verweise finden Sie kaum die interessierenden Seiten. Daher wurden sogenannte 'Suchmaschinen' enwickelt. Diese 10 Passagen erläutern, wie Suchmaschinen prinzipiell arbeiten im Hinblick darauf, wie sie z.Z. in Richtung 'Semantik', 'Sinn' oder 'Bedeutung' verbessert werden. Das herkömmliche Web wird nämlich derzeit weltweit zu einem sogenannten "Semantischen Web" (Semantic Web) erweitert: Suchmaschinen sollen künftig die 'Semantik' - die Bedeutung - der Web-Seiten soweit 'verstehen', dass 'Sinn-volle' Anfragen möglich werden. Aber z.Z. gibt es 'Semantische Suchmaschinen' nur für Wissens-Spezialgebiete. Damit rücken für das Web Techniken der "Wissens-Darstellung" in den Blickpunkt, wie sie in der Künstlichen Intelligenz (KI) schon seit langem untersucht wurden. Semantische Suchmaschinen sollen insofern 'intelligent' werden als sie mit einer begrifflichen Darstellung von Web-Seiten auszustatten sind. Dies hilft Menschen als direkten Benutzern. Es hilft auch 'Agentensystemen' der KI, die aufbauend auf dieser Kerntechnologie des Semantischen Webs höhere Web-Dienste wie Informations- abgleich, -integration, -abstraktion oder -handel anzubieten versuchen. In den folgenden Passagen werden modellhafte Vereinfachungen verwendet und unnötiger Jargon vermieden. Statt der oft zu findenden Hervorhebung von XML- basierten Sprachen für das Semantische Web betonen wir hier seine Substanz. Die Passagen entwickeln ein durchgängiges Beispiel zur Medikamentensuche, das aber nur der Veranschaulichung dient und leicht verallgemeinerbar ist. Viele Prinzipien werden dabei klar, wenn man sich ein "Semantisches Web" in Analogie zu einer (Web-basierten) "Fach-Bibliothek" vorstellt. PASSAGE 2: Die Suchmaschine und ihr Crawler Die meisten Suchmaschinen benutzen einen sogenannten "Crawler", d.h. ein Programm das periodisch durch einen möglichst großen Teil der derzeit existierenden Web-Seiten automatisch navigiert. Für jede Seite analysiert der Crawler v.a. die Textbestandteile. Im Wesentlichen trägt er die zentralen und häufigen Wörter einer Seite in ein riesiges 'Adressbuch' ein. Jedes Wort dieses 'Adressbuchs' zeigt dabei auf eine Liste all der Seiten *in denen dieses Wort vom Crawler entdeckt wurde*. Genauer gesagt enthält diese Liste eine Kurzfassung jeder Seite zusammen mit ihrer URL-*Adresse*, mit der Sie sich als Anfrager gegebenenfalls auf die komplette Ergebnis-Seite klicken können. Diese 'Hit-Liste' von Seiten bekommen Sie dann häppchenweise angeboten, wenn Sie das Wort eintippen. Stellen Sie sich vor, Herr X sucht nach Seiten, die das Wort "Wunderdroge" enthalten, um zu sehen, ob es eine gibt, die gegen Kopfweh hilft. =========== Google-Anfrage: Wunderdroge =========== Ein schwer durchschaubarer Treibsand von 1.320 Seiten kommt ans Tageslicht. Das Suchergebnis hat eine zu geringe sogenannte "Präzision": Insbesondere ist das Wort "Droge" in dieser Zusammensetzung mehrdeutig - es kann Medikament oder Rauschmittel oder evtl. beides zugleich bedeuten. Herr X wollte aber nur ein Medikament - die restlichen gefundenen Seiten sind für ihn wertlos. PASSAGE 3: Präzision und Recall - Suchergebnis-Maße im Widerstreit Stellen Sie sich daher vor, Sie suchen nach Seiten, die das Wort "Aspirin" enthalten, um seine Wirkung gegen Kopfweh zu prüfen. =========== Google-Anfrage: Aspirin =========== Für gängige Einzel-Wörter wie dieses erhalten Sie viel zu viele Seiten. Hier: 640.000. Trotz der Eindeutigkeit von "Aspirin" hat das Suchergebnis ebenfalls eine zu geringe Präzision: Neben den für Ihre Suche 'edlen' Sandkörnern sind noch viel zu viele 'störende' Sandkörner dabei, hier z.B. Seiten über Aspirin für Hunde. Da ein Crawler aber *alle wichtigen Wörter einer analysierten Seite* in das 'Adressbuch' einträgt, können Sie nun die Suche einengen, indem Sie eine ganze Kombination von Wörtern in die Suchzeile eintippen. Dann bekommen Sie eine Seite nur noch, wenn der Crawler in ihr zumindest *sämtliche dieser Suchwörter* entdeckt hatte. =========== Google-Anfrage: Aspirin Kopfweh =========== Die Präzision hat sich deutlich verbessert: Wir erhalten nur noch die 733 Seiten, in denen die Wörter "Aspirin" und "Kopfweh" kombiniert vorkommen. Aber Achtung: Haben wir vielleicht Seiten ausgeschlossen, indem wir nur "Kopfweh" genannt haben, das sinngleiche Wort "Kopfschmerz" aber nicht? In der Tat: Mit der Verbesserung beim *Präzisions-Maß* haben wir in Bezug auf das sogenannte *Recall-Maß* ('Wiederauffindbarkeit') eine herbe Einbuße erlitten. Um keine interessanten Seiten auszuschließen, müssten Sie die sinngleichen Wörter zu einer ODER-Kombination verbinden. =========== Google-Anfrage: Aspirin Kopfweh OR Kopfschmerz =========== Wir haben jetzt wieder ein Suchergebnis mit besserem Recall: 1650 Seiten. Aber was ist mit "Migräne" und anderen sinnverwandten Wörtern? Leider haben wir durch Weglassen von "Migräne" noch ein ganzes 'Teil-Web' von interessanten Seiten ausgeschlossen. PASSAGE 4: Semantik - Vom Gebrauchs-Wort zum Norm-Begriff Solche Probleme werden seit ca. 1999 mit dem Semantischen Web angepackt, einer Vision von Tim Berners-Lee, der schon Erfinder des herkömmlichen Webs war. "Semantisch", d.h. 'vom Sinn her' suchen wir ja nach dem *Begriff* der in den Seiten mit "Kopfweh" ODER "Kopfschmerz" ODER "Migräne" ODER mit einem anderen sinnverwandten *Wort* benannt sein kann. Eine 'Semantische Suchmaschine' könnte z.B. für die gesamte Gruppe sinnverwandter Wörter *einen* semantischen Norm-Begriff verwenden, der etwa lateinisch oder mit dem groß geschriebenen englischen Terminus "Headache" benannt wäre. Dazu würde das 'Adressbuch' jetzt intern nur noch "Headache" benutzen. Dieser Norm-Begriff würde aber auf alle Seiten verweisen in denen der Crawler "Kopfweh" ODER "Kopfschmerz" ODER "Migräne" ODER ein anderes sinnverwandtes Gebrauchs-Wort gefunden hatte. Umgekehrt müsste ein mehrdeutiges Gebrauchs-Wort wie "Wunderdroge" intern durch mehrere Norm-Begriffe dargestellt sein. Ein Kunstwort wie "Aspirin" wäre als sein eigener Norm-Begriff verwendbar. Bei Ihrer Anfrage könnten Sie nun direkt den Norm-Begriff "Headache" benutzen oder irgendeines der damit standardisierten Gebrauchs-Wörter - die Semantische Suchmaschine fände stets alle die 'gemeinten' Seiten. =========== Semantische Anfrage: Aspirin Headache =========== ==== funktioniert so noch nicht in universellen Suchmaschinen wie Google ==== Der Recall wäre jetzt also vollständig. Ist aber auch die Präzision perfekt? PASSAGE 5: Sinn-Beziehungen zwischen Norm-Begriffen und Wissens-Herleitung Bisher stehen die Norm-Begriffe Aspirin und Headache beziehungslos nebeneinander. Sie wollten aber nur Seiten die behaupten, dass Aspirin Kopfweh *kuriert* - nicht die (selteneren) Seiten die behaupten, dass Aspirin Kopfweh *verursacht*. Eine Semantische Suchmaschine sollte also auch die Sinn-Beziehungen zwischen Norm-Begriffen ausdrücken können. Damit sind wir mitten im KI-Gebiet der (Web-basierten) Wissens-Darstellung, für die Sprachen wie etwa RDF und RuleML entwickelt werden. Das 'Adressbuch' wird jetzt nämlich zu einer "Wissensbasis": sie enthält sogenannte 'Fakten' wie "Aspirin CURES Headache" (hier einfach ein Tripel der Form "Subjekt PRÄDIKAT Objekt"). Dieser Fakt zeigt nur noch auf die URL-Adressen von Seiten die behaupten, dass Aspirin Kopfweh heilt, wobei das englische "CURES" als 'Norm-Prädikat' für in den Seiten verwendete Gebrauchs-Wörter wie "kuriert", "heilt" usw. dient. Analog für den gegensätzlichen Fakt "Aspirin CAUSES Headache". Dies würde die endgültige Version Ihrer Anfrage erlauben. =========== Semantische Anfrage: Aspirin CURES Headache =========== ==== funktioniert so noch nicht in universellen Suchmaschinen wie Google ==== Nun wären wir auch mit der Präzision zufrieden. Einige Seiten behaupten merkwürdigerweise beide Sinn-Beziehungen zugleich, die kurierende *und* die verursachende. Die folgende Anfrage würde genau diese Seiten finden. == Semantische Anfrage: Aspirin CURES Headache AND Aspirin CAUSES Headache == ==== funktioniert so noch nicht in universellen Suchmaschinen wie Google ==== Um diesen Sachverhalt kompakt benennen und leicht anfragen zu können, sind solche Seiten mit einem weiteren Norm-Prädikat "AMB" beschreibbar, selbst wenn in ihnen kein entsprechendes Gebrauchs-Wort wie "ambivalent", "zwiespältig" usw. vorkommt. =========== Semantische Anfrage: Aspirin AMB Headache =========== ==== funktioniert so noch nicht in universellen Suchmaschinen wie Google ==== Statt "Aspirin AMB Headache" als *Fakt* im 'Adressbuch' zu speichern, würde eine Darstellungs-Sprache wie RuleML sogar erlauben, dass dieses Tripel mit einer sogenannten *Regel* von den beiden gespeicherten Fakten hergeleitet wird. Eine spezielle 'Wenn-dann'-Herleitung wie IF Aspirin CURES Headache AND Aspirin CAUSES Headache THEN Aspirin AMB Headache geschieht mit der allgemeinen 'IF-THEN'-Regel IF Pharm CURES Sick AND Pharm CAUSES Sick THEN Pharm AMB Sick über 'Variablen-Bindungen' wie 'Pharm = Aspirin' und 'Sick = Headache'. Eine solche Regel leitet also Wissen (hier um eine 'Ambivalenz') explizit her, das implizit schon in Fakten verborgen war (hier in 'kuriert' plus 'verursacht'); parallel dazu würde sie als Semantische Web-Regel jede Seite finden, die den 'IF'-Teil und daher auch den 'THEN'-Teil erfüllt (hier jede "AMB"-Seite). Die zentrale Voraussetzung für alle diese Möglichkeiten im Semantischen Web ist, dass der Crawler das Wechselspiel zwischen Gebrauchs-Wörtern und Norm-Begriffen richtig verwalten kann. Dies führt uns in den nächsten drei Passagen auf wichtige Forschungsfragen des Semantischen Webs: PASSAGE 6) Woher kommen die Norm-Begriffe und Norm-Prädikate? PASSAGE 7) Wie ordnet man Gebrauchs-Wörtern die Norm-Begriffe/Prädikate zu? PASSAGE 8) Wo werden die Zuordnungen als Metadaten gespeichert? PASSAGE 6: Woher kommen die Norm-Begriffe und Norm-Prädikate? Norm-Begriffe wie Headache in unserem Beispiel werden meist als Teil eines Systems von zusammenhängenden Begriffen entwickelt. Experten des jeweiligen Fachgebiets wie hier der Medizin müssen sich dazu auf gemeinsame, normative Definitionen ihrer Begriffe und Prädikate einigen. Diese können dann als Referenz-Katalog verknüpfter Norm-Begriffe und Norm-Prädikate publiziert werden, z.B. wiederum auf einer Web-Seite. Dabei ist die hierarchische Oberbegriff-Unterbegriff-Verknüpfung die Wichtigste. Beispiel (wird in PASSAGE 9 erweitert): Eine Pain-Headache-Verknüpfung ordnet Kopfweh unter Schmerz ein: Pain | | | Headache Zur maschinellen Verarbeitung solcher Begriffs-Kataloge wurden in den Anstrengungen zum Semantischen Web spezielle Sprachen wie RDF Schema, DAML+OIL und OWL entwickelt. In der KI wurde für solche gemeinsamen expliziten Begriffs-Kataloge die Bezeichnung "Ontologien" aus der Philosophie übernommen. Sogenannte 'Kategorienbasierte Suchmaschinen' wie Yahoo! und dmoz benutzen hierarchische Verzeichnisse von Web-Seiten. Eine solche Kategorien-Hierarchie ist vergleichbar zur Begriffs-Hierarchie einer Ontologie. Allerdings ist sie normalerweise nicht von den Experten eines Fachgebiets gemeinsam erarbeitet worden, sondern von den jeweiligen Suchmaschinen- Betreibern (Ausnahme: dmoz.org). Kategorienbasierte Suchmaschinen sind damit Vorläufer der angestrebten Semantischen Suchmaschinen. Allerdings erfordern sie normalerweise ein aufwendiges Navigieren durch die Kategorien-Hierarchie (noch nicht konkurrenzfähig mit der Google-Suchzeile). PASSAGE 7: Wie ordnet man Gebrauchs-Wörtern die Norm-Begriffe/Prädikate zu? Idealerweise würde der Crawler die Seiten nach ihren wichtigen Gebrauchs- Wörtern durchnavigieren und diesen vollautomatisch die richtigen Norm-Begriffe und Norm-Prädikate zuordnen. Eine solche Vollautomatisierung ist aber sehr schwer, denn: - Oft ist die Zuordnung nur aus dem Sinnzusammenhang richtig erfassbar. - Wegen der begrenzten Zahl der Norm-Begriffe muss manchmal ein Gebrauchs- Wort mit einer Formel aus *mehreren* Norm-Begriffen umschrieben werden (z.B. *ODER-Kombination von Norm-Begriffen* für - unspezifisches - "Bauchweh"). - Die Zuordnung von Norm-Prädikaten erfordert eine Satz-Zerlegung (Parsing), die von erfolgreichen Zuordnungen der Norm-Begriffe in den Subjekt- und Objekt- Positionen von Sinn-Beziehungen (vgl. PASSAGE 5) abhängt. - Viele Seiten enthalten v.a. Audio- und Video-Material, aus dem die Norm-Begriffe nur durch Ton/Bild-Analysen extrahiert werden könnten. - Gelegentlich muss sogar zur Einordnung neuer Seiten die Ontologie erweitert werden, was nur Fach-Experten erlaubt sein sollte. Daher sollte die Einordnung von Seiten immer interaktiv mit Experten geschehen: 1) Der Crawler schlägt für eine gegebene Seite Norm-Begriffe vor, einige untereinander verknüpft durch Sinn-Beziehungen über Norm-Prädikate. 2) Zumindest in unklaren Fällen werden diese dann von Fach-Experten korrigiert und ggf. ergänzt. Deshalb lassen sich mittelfristig wohl nur die Kosten für die semantische Einordnung relevanter Teile des expandierenden 'Sandsturms' von Web-Seiten aufbringen. Interessanterweise hat z.B. dmoz z.Z. ca. 3,8 Millionen Einstiegsseiten mit ca. 52.000 ehrenamtlichen (kostenlosen) Experten erfasst. Im Bereich der Print-Medien wird eine ähnliche Zuordnung traditionell von Fach-Bibliothekaren mehr oder weniger manuell bewerkstelligt. (Viele von ihnen gehen zunehmend in den Bereich der "Digitalen Fach- Bibliotheken", die mit 'vertikalen' Suchmaschinen zu einem Kernstück des Semantischen Webs werden können.) PASSAGE 8: Wo werden die Zuordnungen als Metadaten gespeichert? Eine Gruppe von - evtl. über Norm-Prädikate aufeinander 'Sinn-bezogenen' - Norm-Begriffen ist zur Beschreibung einer Seite nutzbar welche die entsprechenden Gebrauchs-Wörter enthält: die Gruppe konstituiert "Metadaten" für diese Seite. Zur Speicherung dieser Metadaten gibt es zwei prinzipielle Möglichkeiten: "EXTERN": Das vorher diskutierte 'Adressbuch' kann einen Norm-Begriff oder eine Sinn-Beziehung zusammen mit seiner/ihrer Zuordnung zu allen Seiten mit den entsprechenden Gebrauchs-Wörtern speichern. Norm-Begriffe bzw. Sinn-Beziehungen fungieren dann als sogenannte "externe Metadaten" für die Seiten auf die sie verweisen. "INTERN": Die Seiten selbst können - falls sie auch Textbestandteile haben - ihre eigenen beschreibenden Norm-Begriffe bzw. Sinn-Beziehungen speichern. Diese fungieren dann als sogenannte "Annotationen", d.h. als intern hinzugefügte Metadaten für die Seiten in denen sie stehen. Vorteil von "EXTERN" und Nachteil von "INTERN": Nur durch die Trennung der Metadaten von den Seiten selbst ist eine Beschreibung von solchen Seiten möglich, die man nicht selbst besitzt, oder auf denen kein 'Platz' (Textbestandteil) für Annotationen ist (z.B. Audio- und Video-Seiten). Vorteil von "INTERN" und Nachteil von "EXTERN": Wenn Metadaten als Annotationen direkt in ihren Seiten gespeichert werden, können bei jeder Änderung einer Seite die betroffenen Annotationen gleich mit angepasst werden, ohne zuerst nach externen Metadaten der Seite - z.B. unter umgekehrter Verwendung des 'Adressbuchs' - suchen zu müssen. Ein Kompromiss besteht darin, auf die Metadaten einer Seite mit einer URL zu verweisen, die intern in der Seite gespeichert wird oder an einem speziellen 'Platz' - etwa einem Seiten-Vorspann - direkt bei ihr zu finden ist. Dies führt uns schließlich zum wichtigen Problem der Änderung/Wartung im Semantischen Web. Eine Quelle dieses Problems ist, dass, anders als Bücher, viele Web-Seiten die - für Crawler unangenehme - Eigenschaft haben, sich oft 'unter der Hand' zu ändern. PASSAGE 9: Verfeinerte Norm-Begriffe erben verfeinerte Sinn-Beziehungen Gerade sahen wir: Wenn sich Seiteninhalte mit ihren Gebrauchs-Wörtern ändern, sind auch oft die entsprechende Norm-Begriffe und Sinn-Beziehungen betroffen - sie müssen neu angepasst werden. Aber es gibt noch ein anderes Wartungs-Problem: Was passiert, wenn sich die Norm-Begriffe bzw. Sinn-Beziehungen selbst über die Jahre ändern, z.B. durch Begriffs-Verfeinerungen in Folge neuer wissenschaftlicher Entdeckungen oder einfach durch einen neuen 'Zeitgeist'? So wäre etwa unser Beispiel-Norm-Begriff Headache in Unterbegriffe wie Sporadic-Headache und Chronic-Headache aufspaltbar, so dass man sich bis auf Weiteres auf diese winzige Begriffs-Hierarchie einigen könnte: Pain | | | Headache / \ / \ / \ Sporadic-Headache Chronic-Headache Damit könnte z.B. auch unsere frühere Sinn-Beziehung "Aspirin CURES Headache" in der entsprechenden Ontologie Pain | | | Aspirin---------CURES--------->Headache / \ / \ / \ Sporadic-Headache Chronic-Headache von Experten verfeinert werden, um eine folgender Behauptungen auszudrücken: Aspirin kuriert ... sporadisches Kopfweh: Pain | | | Headache / \ / \ / \ Aspirin--CURES-->Sporadic-Headache Chronic-Headache ... chronisches Kopfweh: Pain | | | Headache / \ / \ / \ Aspirin Sporadic-Headache Chronic-Headache | ^ | | -----CURES--------------------------- ... oder beide Unterarten von Kopfweh: Pain | | | Headache / \ / \ / \ Aspirin--CURES-->Sporadic-Headache Chronic-Headache | ^ | | -----CURES--------------------------- Wenn sich allerdings wie im letzten Fall eine Sinn-Beziehung auf *sämtliche* Unterbegriffe (hier: Sporadic-Headache, Chronic-Headache) bezieht, kann sie auch 'ökonomischer' beim Oberbegriff (hier: Headache) belassen werden, von wo sie dann nur bedarfsweise automatisch zu den Unterbegriffen 'vererbt' wird (ähnlich wie in den Klassen-Hierarchien von Objekt-orientierten Programmen). Infolge solcher Begriffs-Verfeinerungen entstehen für die damit erfassten Seiten zwei prinzipielle Möglichkeiten: "NACHZIEHEN": Man kann versuchen, die Metadaten aller betroffenen 'alten' Seiten nachträglich entsprechend zu ändern. Hier sollten also Fach-Experten entscheiden, ob einer oder mehrere Unterbegriffe wie Sporadic-Headache und Chronic-Headache 'gemeint' waren oder ob ihr alter gemeinsamer Oberbegriff Headache richtig bleibt. "UMSTEIGEN": Man kann zu bestimmten Zeitpunkten die Metadaten-Ontologie umstellen, die 'alten' Seiten weiterhin über die 'alten' Metadaten zugreifen und nur für die 'neuen' Seiten die 'neuen' Metadaten verwenden. Hier bliebe also Headache als Norm-Begriff für eine alte Seite unverfeinert stehen, auch wenn Fach-Experten sofort sehen würden, dass sie z.B. nur von Sporadic-Headache handelt. Da nach jedem "UMSTEIGEN" eine weitere Generation der Ontologie-Versionen für die entsprechende Generation von (sich normalerweise weiterhin ändernden!) Web-Seiten gebraucht würde, zieht diese Möglichkeit einen hohen ständigen Verwaltungsaufwand für den Crawler nach sich. Somit scheint das "NACHZIEHEN" die bessere Möglichkeit zu sein, auch wenn damit jeweils ein einmaliger erheblicher Arbeitsaufwand verbunden ist. PASSAGE 10: Bibliotheks-Kataloge als Metadaten-Ontologien Die sogenannten "Pinakes des Kallimachos von Kyrene" (um 250 v. Chr.) gelten als erster schriftlicher Katalog einer Bibliothek: sie erfassten eine Auswahl von Schriftrollen der Bibliothek von Alexandria. Seither gibt es ein Wartungs- Problem analog zu dem von PASSAGE 9) in allen Bibliotheken, deren Kataloge dann mit Gutenberg zu etwas wie 'Metadaten für Print-Medien' wurden. (Zwar gibt es mit dem HTML-Web erneut 'rollbare Seiten', aber digitale PDF-Bibliotheken favorisieren wieder 'gestückelte Seiten': das Spiel "Rollen gegen Blättern" ist unentschieden.) Obwohl "NACHZIEHEN" die 'schönere' Lösung wäre, haben viele Bibliotheken die Lösung "UMSTEIGEN" gewählt, d.h. nehmen in Kauf, dass Benutzer gelegentlich in zwei oder mehr Katalogen suchen müssen. Das Problem wurzelt in den Begriffsverschiebungen und -verwerfungen über Zeiten oder Kulturen. Auch das Semantische Web wird *dieses* Problem nicht lösen können, aber beide Lösungs-Möglichkeiten, "NACHZIEHEN" und "UMSTEIGEN", werden durch Software- Werkzeuge des Semantischen Webs unterstüzt. Insbesondere wurden erste Werkzeuge - wie etwa Chimaera, PROMPT und RDFT - zur interaktiven Begriffs-Überbrückung zwischen Ontologien entwickelt. Diese könnten später auch bei der Wartung von Bibliotheks-Katalogen helfen. Umgekehrt kann das Semantische Web viel von den Bibliothekswissenschaften lernen. Initiativen - z.B. bei Math-Net und CISTI - versuchen beides zusammenzubringen. Eine spezielle (Qualitäts-)Notwendigkeit Web-basierter Dokumente ergibt sich durch ihre niedgrige 'Eingangsbarriere' im Vergleich zu Dokumenten, die es in das Mehr- Kopien-Verteilungssystem traditioneller Bibliotheken schaffen: Eine effiziente BEWERTUNG von Daten, Matadaten und Bewertern ist ESSENTIELL für Semantische Teil-Webs die mit guten, alten papierbasierten Bibliotheken konkurrieren wollen. Das Semantische Web ist, aufbauend auf der KI, ein neues Informatik-Teilgebiet mit einigen weiteren interdisziplinäres Bezügen, etwa zur Logik, Linguistik und Kognitionswissenschaft.