Gerade war es mal wieder so weit: Ich wollte einen Google Alert nutzen, der mir Jobangebote aus Europa rausfischt. Aber was heißt "Europa"? Großbritannien, Skandinavien, Benelux, Deutschland, Frankreich, Italien, Spanien, Polen, usw. Weiß Google das? Nein. Weiß irgendeine andere Suchmaschine das? Ja, vielleicht. Wenn es ihr explizit mitgeteilt wurde.
Mir geht das auf den Geist, dass Computern implizites Wissen fremd ist. Deswegen habe ich nach einer Möglichkeit gesucht, implizites Wissen abzubilden. Der Auslöser hierfür lag irgendwann 2000 oder 2001, als verschiedene Dozenten unterschiedliche Definitionsansätze für "Information" boten, die aber nicht problemlos zur Deckung zu bringen waren. Daraufhin machte ich mich ans Werk, ein vereinheitlichtes Modell zu entwick
eln. Daran arbeite ich jetzt seit 2001. Bzw.: Der Kern steht, schon lange, ich werkele nur noch an den Details. Zur Zeit bemühe ich mich darum, ein darauf aufsetzendes Suchwerkzeug zu implementieren. Dass dieser Google Alert nicht implizit weiß, dass Europa aus Ländern und Städten besteht, bestimmten Ländern und Städten, und Dörfern und Straßen und Wegen, Bäumen, Blumen, Seen, ... – man kann es weit atomisieren – war der Auslöser, das Thema jetzt endlich mal online zu stellen.
Der Ansatz für mein
Modell ("Model Of Meaning", kurz: MOM) verwendet anders als Thesauri, die zwischen unterschiedlichen Relationstypen unterscheiden, nur einen Relationstyp ("Verknüpfung"):
ist ein Aspekt von. LkW und PkW sind ebenso Aspekte von <Auto> wie Fahrgestell, Karosserie, Antrieb usw. – Herkömmliche Ordnungssysteme würden hier nach Bestands- und Abstraktionsrelation unterscheiden. In
meinem Modell vermeide ich diese Unterscheidung ganz bewusst.
Wie ein herkömmliches Begriffssystem ist
MOM orientiert, ein gerichteter Graph. Ganz unten befinden sich die Details, ganz oben die am meisten aggregierten Begriffe. Dies unterscheidet es von einer Topic Map, die uneinheitlich orientiert ist.
Ein häufiger Kritikpunkt an meinem Modell ist, dass dadurch keine "untersten" Begriffe gefunden werden können: Europa lässt sich in Länder untergliedern, Länder in Orte, Orte in Stadteile, Wege, Wege darüberhinaus in u.a. die einzelnen Steinpflasterkacheln, die in ihre Partikel, die in Strahlung. Das Problem bestünde also darin, die Grenze zu ziehen. – Ehrlich gesagt weiß ich nicht, weswegen überhaupt eine Grenze gezogen werden soll. Die Platte des Fußweges lässt sich von bspw. dem Material eines Stuhles dadurch voneinander unterscheiden, dass die eine aus Stein und der andere aus Holz besteht. Stein ist ein Gemisch, Holz eine biologische Struktur, pulverisiert haben die Bestandteile beider Gemische unterschiedliche Partikel, die ihrerseits unterschiedlichen Materials (unterschiedliche chemische Formeln) sind. – Wenn denn eine Grenze gezogen werden
soll, dann würde ich sie dort ziehen, wo ein Sensor nicht in der Lage ist, höher aufzulösen. D.h. Bestandteile der kleinsten messbaren Einheiten sollen nicht durch Begriffe repräsentiert werden, die noch kleiner sind.
Der andere häufige Kritikpunkt ist, dass die Welt unscharf ist, sich ergo keine finale Definition für irgendeinen generischen Gegenstand finden ließe: Hat ein Stuhl stets vier Beine? Nein, manche Stühle bestehen nur aus einem Rohr zzgl. Sitzfläche und -lehne. Sagt man, ein Stuhl hat stets vier Beine oder besteht aus einem Rohr zzgl. Sitzfläche und -lehne, so findet sich garantiert irgendwo eine Ausnahme auch davon. Wenn nicht, dann bemerkt das irgendwann irgendein Designer und stellt diese Ausnahme her. Was ist mit Stühlen, beispielsweise solchen, die auf dem Sperrmüll landen, etwa weil ein bein abgebrochen ist. Ist ein solcher kein Stuhl mehr? – Dieses Problems bin ich mir vollauf bewusst, schon seit Anfang meiner Arbeit an dem Modell: Ein Gegenstand ist weder durch die Merkmale bestimmt, die die Schnittmenge aller Gegenstände dieses Typs aufweist – denn das ist häufig die leere Menge –, noch durch die Vereinigungsmenge der Merkmale dieser Gegenstände: Wenige Stühle werden sowohl vier Beine aufweisen als auch ein Rahmenrohr. Dieses Problem umgehe ich, indem ich mit
kann-"Definitionen" – präzise: Kann-Relationen – arbeite.
Die Entscheidung darüber, ob ein Gegenstand, über den eine Menge von Merkmalen bekannt ist, ein Stuhl oder eine Pflasterplatte für einen Fußweg ist, wird von einem Algorithmus gefällt – und diese Entscheidung ist simpel, allerdings nicht allgemeingültig: Sie hängt von dem "Wissen" des entscheidenden Systems ab. Die Entscheidung dafür, dass die Menge der Merkmale die eines bestimmten Gegenstandes sind, eine
bekannten Gegenstandes, erfolgt durch simples Auszählen: Sind mehr Merkmale eines bekannten Gegenstandes X gegeben als die eines anderen bekannten Gegenstandes Y, so wird von dem Gegenstand angenommen, dass er ein Gegenstand X ist.
"Bekannt" heißt in diesem Zusammenhang, dass ein Graph besteht, in dem die Merkmale Begriffen zugeordnet sind und die Begriffe ihrerseits Merkmale höher organisierter Begriffe bilden. Dieser Graph muss dem
entscheidenden System vorliegen und verarbeitbar sein.
Nun kann man einwenden, dass diese Entscheidung dann ungültig ist, wenn dem System nicht genügend Merkmale eines zu erkennenden Gegenstandes bekannt sind, oder dass nicht unterschieden werden kann zwischen zwei oder mehreren bekannten Gegenständen, wenn jeweils gleich viele Merkmale dieser bekannten Gegenstände gegeben sind. – Dem stimme ich uneingeschränkt zu, verweise aber gleichzeitig darauf, dass ein menschliches Individuum vor denselben Problemen steht: Ganz junge Kinder haben häufig unzulängliches Wissen, so dass sie Hund und Katze nicht voneinander unterscheiden können – wie gerne sagen sie zu einer Katze bei der ersten Begegnung "Wau-Wau"? Für das Dilemma mit den gleich vielen Merkmalen bilden Kippbilder ein gutes Beispiel (vgl. Bsp.-Bild relativ weit unten im diesem
TP-Artikel).
Ein dritter, nicht ganz so leicht zu erkennender, Punkt ist, dass mit diesem Handwerkszeugs keine einzige Nicht-Aussage abgebildet werden kann: Der Begriff <nicht-rot> ist schlicht und ergreifend nicht abbildbar – mit dem bisher vorgestellten Handwerkzeug. Daher verwende ich Modifikationen der Verknüpfung: Kann-, Muss-, Ist-Nicht-, Darf-Nicht-Verknüpfung (Is/
N.A., Is/Must, Must Not/Is Not, Must Not/
N.A.). IS NOT/MUST NOT hinter einem <rot> bewirkt, dass aus <rot> <nicht-rot> wird.
Auf dieser Basis soll ein zunächst generisches Werkzeug implementiert werden, das dazu genutzt werden kann, Begriffe zu organisieren. Davon ausgehend kann es in ein Suchwerkzeug für Musikdateien oder Webseiten umgebaut werden. Denkbar erscheint auch, es für das Erkennen von Bildinhalten einzusetzen. Doch dazu ist mehr erforderlich, als mit "Begriffen zu jonglieren".