Finden anhand von Aspekten
Find Using Notions

31.10.04

Implementierung: Der Nutzen der Trennung von Bezeichnung und Begriff

Indem Begriff und Bezeichnung voneinander getrennt werden, können einem Nutzer Bezeichnungen eines Begriffes entsprechend der von ihm bevorzugten Sprachen angezeigt werden. Dort wo einem Spanischsprachigem "perro" angezeigt würde, würde einem Deutschsprachigem ein "Hund" angezeigt. Doch beide Bezeichnungen wären demselben Begriff zugeordnet.

Dass bedeutungsgleiche Bezeichnungen demselben Begriff zugeordnet werden, ist für MOM-Begriffssysteme ebenso relevant wie für herkömmliche Begriffssysteme. Dadurch ist sichergestellt, dass innerhalb des Begriffssystemes keine Begriffe doppelt angelegt werden. Dies ist insbesondere vor dem Hintergrund wichtig, dass FAVA ein verteiltes Peer-To-Peer-Netz bilden könnte. Dabei ist gut möglich, dass die Teilnehmer verschiedene Sprachen sprechen.

Würden Begriffe in verschiedenen Sprachen angelegt, bestünde die Möglichkeit, dass sie als Merkmale für andere Begriffe verwendet würden. Dadurch könnten sich innerhalb des verteilten Begriffssystems Inseln bilden, die keine Bezüge zu anderen Bereichen dieses Systems hätten. Dadurch würde die Suche nach Gegenständen auf diese Inseln (bzw. aus Sicht des Restes: auf alles übrige) beschränkt. – Damit Suchen sich auf das gesamte System erstrecken können, müssen solche Inseln vermieden werden. Dies wird dadurch erreicht, dass mit Begriffen anstatt mit Bezeichnungen als zentralem Element gearbeitet wird.

Implementierung: Das Konzept des Bezeichnens von Begriffen

Begriffen sind üblicherweise Bezeichnungen zugeordnet. Einem Begriff kann mehr als eine Bezeichnung zugeordnet sein, sowohl in nur einer Sprache (das ist dann ein Homonym/Polysem) als auch aus mehreren Sprachen heraus, d.h. Übersetzungen.

Um sicherzustellen, dass jeder Begriff nur genau einmal innerhalb der Datenbank erscheinen muss, bilden Begriffe statt Bezeichnungen das zentrale Element der Datenbank. Deswegen sind die Bezeichnungen auch nicht unmittelbar an die Begriffe gekoppelt – etwa dadurch, dass beide in derselben Zeile derselben Tabelle erscheinen –, sondern ihnen lediglich zugeordnet. Dadurch können jedem Begriff beliebig viele Bezeichnungen zugeordnet werden.

Bezeichnungen ihrerseits ist zugeordnet, in welcher Sprache sie stehen. Diese Zuordnung ist unmittelbar, so dass der Fall auftreten kann, dass sprachübergreifende Homonyme oder in mehreren Sprachen verwendete Fremdwörter (etwa "Kindergarten") mehrfach in der Tabelle auftauchen. Doch wird angenommen, dass dieser Fall so selten ist, dass sich nicht lohnt, hier stattdessen mehr als eine Tabelle einzusetzen.

Implementierung: Datenbankstruktur

Die für MOM vorgesehene Datenbank besteht aus elf Tabellen:
  • label enthält Bezeichnungen. In dieser Tabelle ist angegeben, in welcher Sprache eine Bezeichnung steht. Die Sprache ist durch einen Secondary Key repräsentiert, der sich auf den Primary Key von language bezieht.
  • language führt diejenigen Begriffe auf, die eine Sprache repräsentieren. Dabei wird eine Begriff-ID verwendet, die auf den Primary Key von notion referenziert.
  • notion repräsentiert einen Begriff. Da ein solcher durch seine Eigenschaften repräsentiert wird, diese aber selbst Begriffe sind, ergo auch separat in der Datenbank abgelegt sind, hat die notion-Tabelle keine weiteren Eigenschaften als den Primary Key und die u.a'en Hilfsfelder wie Urheber, Zugriffsrecht, Datum der letzten Änderung u.a.
  • notion_label stellt den Zusammenhang zwischen Bezeichnung und Begriff her. Diese Tabelle referenziert auf die Primary Keys von notion und label.
  • Der Urheber einer Angabe, etwa eines Begriffes, wird in author verzeichnet. author weist den Namen des Autors und eine EMail-Adresse aus.
  • Will man einem solchen Urheber eine Mail schreiben, ist wichtig zu wissen, welche Sprachen dieser gut versteht. Deswegen existiert eine Tabelle preferred_language. Diese ordnet einem Urheber Sprachen zu und verzeichnet zusätzlich, wie gewandt der Urheber in einer Sprache ist. – Die Angabe, wie gut jemand eine bestimmte Sprache versteht, ist auch relevant für den lokalen Nutzer: Dadurch kann die Anzeige von Begriff-Benennungen auf jene Sprachen beschränkt werden, die der Nutzer versteht.
  • Zugriffsrechte auf Angaben werden in access_right festgesetzt. Diese Tabelle enthält die Bezeichnung und das Datum der letzten Änderung des Zugriffsrechtes, sowie Angaben darüber, ob und wenn ja zu welchem Preis die entsprechende Angabe "gekauft" werden kann. Auch ein Passwort für den Zugriff kann angegeben sein.
  • Untereinander stehen die Begriffe durch Verknüpfungen miteinander in Beziehung. Diese werden in relationship gespeichert. Diese Tabelle referenziert auf zwei Primary Keys von notion: auf den eines Begriffs und den eines Merkmals dieses Begriffes. Zusätzlich wird (anhand der Häufigkeit der Nutzung) vermerkt, wie wichtig eine Relation ist. Der Typ der Relation wird durch den Primary Key von relationship_mode angegeben.
  • relationship_mode enthält nichts weiter als die Klartextbezeichnung der Relationstypen: IS / N.A., IS / MUST, MUST NOT / N.A. und MUST NOT / IS NOT.
  • Aufgrunddessen, dass Sprachen nicht unmittelbar definiert sind, sondern lediglich durch eine Referenz auf einen Begriff in notion, wäre prinzipiell möglich, Sprachen zu löschen, so wie es auch für gewöhnliche Begriffe möglich ist. Doch kann eine Bezeichnung ausschließlich dann angelegt werden, wenn angegeben wird, in welcher Sprache sie steht. Deswegen sollten solche Begriffe, die Sprachen repräsentieren, möglichst nicht so ohne weiteres gelöscht werden können. Deswegen existiert eine weitere Tabelle, entries_used_by_MOM, die diejenigen Tabellen und Zeilen verzeichnet, die tunlichst nicht ohne weiteres gelöscht werden sollten. Anhand der Einträge innerhalb dieser Tabelle wird entschieden, inwieweit ein Eintrag einer anderen Tabelle verändert oder gar gelöscht werden kann.
  • Die Tabelle tables schließlich weist für entries_used_by_MOM die Tabellennamen aus.

Im Hinblick darauf, dass Einzeldaten der Datenbank in einem Peer-To-Peer-Umfeld möglicherweise gehandelt werden sollen, enthalten mehrere dieser elf Tabellen Felder für die ID eines Urhebers, die Wichtigkeit, Zugriffsrechte und den Zeitpunkt der letzten Änderung eines Eintrages.


———
[lokal referenziert von: Struktur: Back-End: Datenzugriff: Ebene 3: EntriesUsedByMOMTableAccessor]

Projekt, Datenbank

Das Projekt ist als Free Software geplant, die entweder unter GPL oder LGPL lizensiert werden soll. Entsprechend soll als Datenbank eine solche zum Einsatz kommen, die ebenfalls frei ist. Derzeit arbeite ich mit MySQL.

Der Knackpunkt ist eigentlich simpel: Anstatt Vorwissen mitbringen und Scope Notes lesen zu müssen, ist die Bedeutung eines MOM-Begriffes unmittelbar aus den Verknüpfungen seiner Merkmale zu ihm ablesbar. Wiederfindbar ist ein Begriff dadurch, dass Merkmale angegeben werden. Im Gegensatz zu FAVA betrifft MOM das reine Begriffssystem.

Ein ("präkombinierter") Begriff wird einem Gegenstand, etwa einer URL, zugeordnet. Dadurch wird eine Retrieval-Möglichkeit eröffnet. FAVA ist MOM zzgl. dieser Retrieval-Möglichkeit.

Aufgrund dessen, dass binnen MOM Begriffe anhand ihrer Eigenschaften wiederauffindbar sind, bietet sich gerade in der Umgebung von informationswissenschaftlich Unerfahrenen an, MOM/FAVA anstelle eines herkömmlichen Begriffssystems einzusetzen. Etwa für das Wiederfinden von Dateien auf lokalen Festplatten, von Musikdateien, Videos (oder gar Szenen in Videos) und ähnlichem. In Kombination mit einer Peer-To-Peer-Plattform sollte sich eine kooperatives, verteiltes Retrieval-Instrument bilden lassen, etwa um Webseiten zu finden. Dadurch, dass anhand von Merkmalen nach den Begriffen gesucht werden kann, könnte die Suche nach Webseiten dadurch erheblich verbessert werden, insbesondere im Hinblick auf die Precision.

Die Sammlung in diesem Blog ist vorläufig unvollständig. Derzeit suche ich nach einer Möglichkeit, einerseits die Massen an Material zu digitalisieren und andererseits, die resultierende Masse an Images irgendwo zu hosten. Gratishoster sind freigiebiger damit einem Reklame zuzusenden als mit Webspace und Bandbreite. – Kostenpflichtigen Webspace will ich, angesichts meiner gegenwärtigen wirtschaftlichen Lage, derzeit nicht verwenden. Angenehm fände ich einen Server außerhalb der EU, etwa unter .vu o.ä. Danach muss ich jedoch noch suchen.

Der Versuch, die Idee auf den Punkt zu bringen

Die heutigen Postings mögen ein wenig verwirrt erscheinen – das sind sie auch. Sie sind der Versuch, den Knackpunkt hinter MOM/FAVA auf den Punkt zu bringen. Aus dem Gedächtnis heraus, ohne meine ausschl. chronologisch geordnete Sammlung zu dem Thema zu "konsultieren".

MOM-Wissensspeicher

Ein MOM-Wissensspeicher bildet einen generischen Kern, dem lediglich eine Sensorschicht vorangestellt werden muss, damit er – bzw. ein Gerät, das beides, MOM-Kern und Sensorschicht umfasst, – diejenigen Gegenstände erkennen kann, die der Wissensspeicher "kennt". Am anderen Ende könnte einem solchen Gerät eine Ausgabeschicht zugeordnet werden, die bestimmte Aktionen veranlasst, wenn bestimmte Gegenstände erkannt werden. Ein solches Gerät könnte so austauschbar und so dumm/"unwissend" sein wie ein Computer ohne Betriebssystem – ergänzt um einen MOM-Wissensspeicher würde .. wäre es plötzlich "schlau". – Ich denke, für solche Wissensspeicher gäbe es einen Markt.

einzelne Vorteile von MOM/FAVA

Wie herkömmliche Begriffssysteme bietet MOM die Möglichkeit, Begriffe innerhalb des Begriffssystems aufzufinden. Diese können Gegenständen zugeordnet werden. Dadurch lassen sich Gegenstände auffinden indem der zugehörige Begriff aufgefunden wird.

Im Unterschied zu herkömmlichen Begriffssystemen gibt MOM zusätzlich für jeden Begriff (außer den grundlegendsten) mehr als eine Eigenschaft des Gegenstandes an, den der Begriff repräsentiert. Ferner verwendet MOM ausschließlich eine einzige Relation: ist Eigenschaft von. Dadurch bewirkt die Zuordnung mehrerer Eigenschaften zu einem Begriff eine echte Definition dieses Begriffes. Diese Definition kann aus einer Visualisierung des MOM-Begriffssystems abgelesen werden. Ferner lässt sich ein Begriff deswegen auch anhand seiner Eigenschaften innerhalb des MOM-Begriffssystems ermitteln: Vorkenntnisse oder Fachbezeichnungen sind nicht länger erforderlich, um einen Gegenstand mithilfe des MOM-Begriffssystems zu identifizieren.

Wie seine Vorgänger Thesaurus und Klassifikationssystem können Knoten des MOM-Begriffssystems (bei den vorgenannten als "Klassen" bezeichnet) dazu eingesetzt werden, generische Gegenstände zu taggen, um diese wiederauffinden zu können. Im Unterschied zu seinen Vorgängern ist zur Nutzung MOMs kein Vorwissen erforderlich. Dies hat weitreichende Konsequenzen. Als wesentliche etwa, dass auch Maschinen dazu in der Lage sein sollten, MOM einzusetzen: Auch Maschinen fehlt Vorwissen. Dementsprechend sollte es möglich sein, etwa MOM in Geräten einzusetzen, um Gegenstände zu erkennen. Etwa Tumorzellen, ähnliche DNA-Sequenzen, Schrottobjekte, Straßen gegenüber Straßengraben und Gegenfahrbahn, Menschen.

Wie herkömmliche Begriffssysteme bildet MOM einen Wissensspeicher. Doch wird in MOM der "Medienbruch" vermieden, der bei jenen stattfindet: Um Angaben aus Scope Notes interpretieren zu können, ist Vorwissen erforderlich. Etwa darüber, wie die Sprache "funktioniert", in der die Scope Note abgefasst ist, was die Wörter bedeuten. Wenn sich die Annahme bewahrheitet, dass Maschinen MOM einsetzen können, um Gegenstände zu erkennen, dann bildet MOM implizit eine Möglichkeit, Wissensspeicher anzulegen, die von Maschinen genutzt werden können. Das heißt: Wissen, das Maschinen benötigen, um ihre jeweilige Aufgabe zu bewältigen, kann mithilfe von MOM erstellt, verwaltet, modifiziert und v.a. dupliziert werden. Im Unterschied zu Neuronalen Netzwerken ist für jeden Knoten innerhalb eines MOM-Wissensspeichers (aka MOM-Begriffssystems) bekannt, was er bedeutet. MOM bietet also eine Möglichkeit, Neuronale Netzwerke zu initialisieren.


FAVA bildet einen Wrapper um MOM herum. Es funktioniert ähnlich wie ein Indexierungs-/Retrieval-Tool: Mit seiner Hilfe lassen sich MOM-Begriffe beliebigen Gegenständen zuordnen – etwa Dateien, Musikstücken, Videofilmen, Bookmarks, Netizens, Verhandlungspartnern ... –, und diese lassen sich auch mithilfe dieser Begriffe wiederauffinden.


Die Möglichkeit, dass Maschinen MOM-Wissensspeicher nutzen, um ihre jeweiligen Aufgaben zu erfüllen, wird in diesem Projekt noch nicht berücksichtigt, denn zunächst müssen die überhaupt die Werkzeuge erstellt werden, um derartige Wissensspeicher anzulegen.

MOM stellt ein Begriffssystem dar, ähnlich wie Thesaurus und Klassifikationssystem welche sind.

Im Begriffsnetz ist ein Begriff durch seine Lage innerhalb des Netzes beschrieben. Die Lage ist durch die Verbindungen zu anderen Begriffen innerhalb desselben Netzes bestimmt. Zusätzlich beeinflusst die Bedeutung der Vbdg'en die Bedeutung des fraglichen Begriffes.

Bei Thesaurus und Klassifikation gleichermaßen fehlt eine unmittelbar ablesbare Definition eines Begriffes: Eine solche muss einer Zusatzangabe zum Begriff, etwa einer Scope Note, entnommen werden. Liegt einem ein Gegenstand vor, dessen Bezeichnung unbekannt ist, etwa ein solcher, der Lieschen Müller von einem Flugzeug in den Garten gefallen ist, lässt sich dieser mithilfe eines herkömmlichen Begriffssystemes schwerlich ermitteln: Ein solches weist hauptsächlich Abstraktionsrelationen auf. Da unklar ist, welchem Pfad von Abstraktionsrelationen man folgen muss, um den Gegenstand in dem Begriffssystem zu finden, wird man ihn auch nicht – oder bestenfalls zufällig – finden. – Sicherlich: Der Gegenstand wird sich mithilfe von Nachbarn und Freunden identifizieren lassen. Doch der aufgeklärte Mensch sollte in der Lage sein, einen Gegenstand auch ohne fremde menschliche Hilfe, allein mittels technischer Hilfsmittel, zu identifizieren.

Günstiger erscheint mir daher, ein Begriffssystem dergestalt zu entwerfen, dass die Eigenschaften eines Begriffes unmittelbar ablesbar sind: Beschreiben lässt sich auch ein völlig unbekannter Gegenstand – auch von Lieschen Müller, Max und Petra Mustermann, Hänschen Klein und auch Dummy von Umdieecke. Herkömmliche Begriffssysteme geben jeweils genau eine Eigenschaft des Unterbegriffes an: den Oberbegriff. Was aber den Unterbegriff vom Oberbegriff unterscheidet, ist nicht unmittelbar ablesbar: Wird der gesamte Graph visualisiert, so wird ausschließlich die fragliche Oberbegriff—Unterbegriff-Relation sichtbar, die Eigenschaft, die letzteren von ersterem unterscheidet, bleibt entweder vollkommen ungenannt oder ist einer Scope Note zu entnehmen. Unmittelbar ablesbar wäre der Unterschied, wenn nicht nur das eine unterscheidende Merkmal – der Oberbegriff –, sondern auch das andere – der üblicherweise ungenannte Unterschied – angegeben würden. Dazu würde genügen, für jeden Begriff des Systems eine Polyhierarchie durchzusetzen. Diese Forderung ist rekursiv, folglich müssten die abstraktesten Begriffe eine Ausnahme hiervon bilden: Andernfalls ergäbe sich eine Endlosrekursion.

29.10.04

Wurzeln des Modells

Wurzeln meines Modells liegen unter anderem in den (Computer-)Spielen Tiere raten und Civilization. Bei "Tiere raten" ermittelt der Computer ein vom Benutzer gedachtes Tier anhand einer Reihe von Ja-/Nein-Fragen. hier liegt ein ((implizit) strikt monohierarchischer) Binärer Baum zugrunde. Bei Civilization müssen u.a. Technologien entwickelt werden. Dabei sind für jede Technologie bestimmte andere Technologien Voraussetzung. Hier liegt eine Polyhierarchie zugrunde.

Die Kenntnis beider Herangehensweisen, hat MOM maßgeblich mit-beeinflusst.

ein Unterschied zwischen fassettierten Klassifikationssystemen und MOM

Der bereits genannte Artikel in Knowledge Management Connection weist als Unterschiede herkömmlicher und fassettierter Klassifikationssysteme aus, dass letztere keine Polyhierarchien aufweisen, da die Merkmale einander ausschließen. – Wie gesagt: Bisher habe ich mich nicht in das Thema der fassettierten Klassifikationssysteme eingelesen. Doch wenn die Merkmale, mit denen innerhalb eines fassettierten Klassifikationssystems Begriffe gefunden werden sollen, orthogonal zueinander sein sollen, dann müssen, wie bereits früher angenommen, Begriffe anhand mikroskopischer / atomisierter Merkmale ermittelt / ausgewählt ("retrievt") werden.

Dagegen besteht MOM hauptsächlich aus Polyhierarchien. Merkmale eines in MOM abgebildeten Begriffes A mögen zwar (müssen aber nicht) zueinander orthogonal sein, doch kann A seinerseits ein Merkmal eines höher aggregierten Begriffes B sein. Dieser Begriff A ist dadurch implizit nicht mehr orthogonal zu seinen Merkmalen. Vorteil MOMs ist also, um einen in MOM abgebildeten Begriff zu ermitteln / auszuwählen ("zu retrieven"), nicht mikroskopische Merkmale verwenden zu müssen, sondern höher aggregierte verwenden zu können: Unter der Voraussetzung, dass der Begriff <Auto> in MOM abgebildet ist, genügt, um <rotes Auto> wiederzufinden, als Merkmale <rot> und <Auto>. – Detailliertere Merkmale des Autos müssen dazu nicht genannt werden.

28.10.04

MOM vs. FAVA

MOM bildet den Kern von <Finden anhand von Aspekten> (kurz: FAVA): MOM bildet lediglich die Begriffe durch ihre Merkmale ab. Eine technische Implementierung von MOM dient dazu, dieses Begriffsnetz zu verwalten und Begriffe darin anhand ihrer Merkmale zu finden.

FAVA geht darüber hinaus: Es baut auf MOMs Möglichkeiten auf. Der Nutzer kann etwa Begriffe suchen, aber auch verwalten. Den Begriffen werden Datenobjekte zugeordnet, etwa URLs, Musikstücke, Filme o.a. FAVAs Besonderheit ist also, zu ermöglichen, (zumindest digitale und abstrakte) Gegenstände anhand von Merkmalen zu finden.

Notationsweise für Begriffe

Da Begriffe keine Bezeichnungen sind, fasse ich sie nicht in Anführungszeichen. Da Textauszeichnungen wie etwa Kursivstellung nicht in allen Darstellungen erkennbar sind – z.B. bei bestimmten Cascaded Style Sheets oder ganz simpel auch: handschriftlicher Wiedergabe –, fasse ich Begriffe in spitze Klammern.

Beispiel:
    <Europa>

Wo liegt der Vorteil von MOM gegenüber fassettierten Klassifikationssystemen?

Zur Beantwortung dieser Frage lege ich die ersten Zitate von
Faceted Classification of Information
zugrunde, wie sie in The Knowledge Management Connection veröffentlicht sind. Eingehend habe ich mich bislang nicht mit fassettierten Klassifikationssystemen beschäftigt.

Wenn zugrunde gelegt wird, dass sämtliche bekannten Aspekte eines fassettierten Klassifikationssystemen in beliebiger Kombination abgerufen werden können, um einen Begriff zu finden, dann sollte erforderlich sein, eine Merkmalsmenge zusammenzustellen, anhand derer ermittelt wird, ob das fassettierte Klassifiktaionssystem einen entsprechenden Bergiff kennt. Dabei sollten – ich habe dies weder ausprobiert noch mich hinreichend tief in den Bereich eingelesen – die kleinstmöglichen Merkmale verwendet werden – denn uneinheitlich mit kleinstmöglichen und höher aggregierten Merkmalen zu operieren, würde schwierig machen, eine Abfrage zu formulieren, die überhaupt einen Begriff liefert.

Demgegenüber erlaubt MOM, auch aufgrund des rekursiven Wiedererkennungsalgorithmus', beides miteinander zu kombinieren. Ferner ist nicht erforderlich, etwa den Begriff <Europa> durch seine mikroskopischen Einzelteile zu definieren, sondern es genügt, vorhandene höher aggregierte Merkmale als Aspekte des gesuchten Begriffes zu verwenden//einzusetzen.

init

Gerade war es mal wieder so weit: Ich wollte einen Google Alert nutzen, der mir Jobangebote aus Europa rausfischt. Aber was heißt "Europa"? Großbritannien, Skandinavien, Benelux, Deutschland, Frankreich, Italien, Spanien, Polen, usw. Weiß Google das? Nein. Weiß irgendeine andere Suchmaschine das? Ja, vielleicht. Wenn es ihr explizit mitgeteilt wurde.

Mir geht das auf den Geist, dass Computern implizites Wissen fremd ist. Deswegen habe ich nach einer Möglichkeit gesucht, implizites Wissen abzubilden. Der Auslöser hierfür lag irgendwann 2000 oder 2001, als verschiedene Dozenten unterschiedliche Definitionsansätze für "Information" boten, die aber nicht problemlos zur Deckung zu bringen waren. Daraufhin machte ich mich ans Werk, ein vereinheitlichtes Modell zu entwickeln. Daran arbeite ich jetzt seit 2001. Bzw.: Der Kern steht, schon lange, ich werkele nur noch an den Details. Zur Zeit bemühe ich mich darum, ein darauf aufsetzendes Suchwerkzeug zu implementieren. Dass dieser Google Alert nicht implizit weiß, dass Europa aus Ländern und Städten besteht, bestimmten Ländern und Städten, und Dörfern und Straßen und Wegen, Bäumen, Blumen, Seen, ... – man kann es weit atomisieren  – war der Auslöser, das Thema jetzt endlich mal online zu stellen.


Der Ansatz für mein Modell ("Model Of Meaning", kurz: MOM) verwendet anders als Thesauri, die zwischen unterschiedlichen Relationstypen unterscheiden, nur einen Relationstyp ("Verknüpfung"): ist ein Aspekt von. LkW und PkW sind ebenso Aspekte von <Auto> wie Fahrgestell, Karosserie, Antrieb usw. – Herkömmliche Ordnungssysteme würden hier nach Bestands- und Abstraktionsrelation unterscheiden. In meinem Modell vermeide ich diese Unterscheidung ganz bewusst.

Wie ein herkömmliches Begriffssystem ist MOM orientiert, ein gerichteter Graph. Ganz unten befinden sich die Details, ganz oben die am meisten aggregierten Begriffe. Dies unterscheidet es von einer Topic Map, die uneinheitlich orientiert ist.

Ein häufiger Kritikpunkt an meinem Modell ist, dass dadurch keine "untersten" Begriffe gefunden werden können: Europa lässt sich in Länder untergliedern, Länder in Orte, Orte in Stadteile, Wege, Wege darüberhinaus in u.a. die einzelnen Steinpflasterkacheln, die in ihre Partikel, die in Strahlung. Das Problem bestünde also darin, die Grenze zu ziehen. – Ehrlich gesagt weiß ich nicht, weswegen überhaupt eine Grenze gezogen werden soll. Die Platte des Fußweges lässt sich von bspw. dem Material eines Stuhles dadurch voneinander unterscheiden, dass die eine aus Stein und der andere aus Holz besteht. Stein ist ein Gemisch, Holz eine biologische Struktur, pulverisiert haben die Bestandteile beider Gemische unterschiedliche Partikel, die ihrerseits unterschiedlichen Materials (unterschiedliche chemische Formeln) sind. – Wenn denn eine Grenze gezogen werden soll, dann würde ich sie dort ziehen, wo ein Sensor nicht in der Lage ist, höher aufzulösen. D.h. Bestandteile der kleinsten messbaren Einheiten sollen nicht durch Begriffe repräsentiert werden, die noch kleiner sind.

Der andere häufige Kritikpunkt ist, dass die Welt unscharf ist, sich ergo keine finale Definition für irgendeinen generischen Gegenstand finden ließe: Hat ein Stuhl stets vier Beine? Nein, manche Stühle bestehen nur aus einem Rohr zzgl. Sitzfläche und -lehne. Sagt man, ein Stuhl hat stets vier Beine oder besteht aus einem Rohr zzgl. Sitzfläche und -lehne, so findet sich garantiert irgendwo eine Ausnahme auch davon. Wenn nicht, dann bemerkt das irgendwann irgendein Designer und stellt diese Ausnahme her. Was ist mit Stühlen, beispielsweise solchen, die auf dem Sperrmüll landen, etwa weil ein bein abgebrochen ist. Ist ein solcher kein Stuhl mehr? – Dieses Problems bin ich mir vollauf bewusst, schon seit Anfang meiner Arbeit an dem Modell: Ein Gegenstand ist weder durch die Merkmale bestimmt, die die Schnittmenge aller Gegenstände dieses Typs aufweist – denn das ist häufig die leere Menge –, noch durch die Vereinigungsmenge der Merkmale dieser Gegenstände: Wenige Stühle werden sowohl vier Beine aufweisen als auch ein Rahmenrohr. Dieses Problem umgehe ich, indem ich mit kann-"Definitionen" – präzise: Kann-Relationen – arbeite. Die Entscheidung darüber, ob ein Gegenstand, über den eine Menge von Merkmalen bekannt ist, ein Stuhl oder eine Pflasterplatte für einen Fußweg ist, wird von einem Algorithmus gefällt – und diese Entscheidung ist simpel, allerdings nicht allgemeingültig: Sie hängt von dem "Wissen" des entscheidenden Systems ab. Die Entscheidung dafür, dass die Menge der Merkmale die eines bestimmten Gegenstandes sind, eine bekannten Gegenstandes, erfolgt durch simples Auszählen: Sind mehr Merkmale eines bekannten Gegenstandes X gegeben als die eines anderen bekannten Gegenstandes Y, so wird von dem Gegenstand angenommen, dass er ein Gegenstand X ist.

"Bekannt" heißt in diesem Zusammenhang, dass ein Graph besteht, in dem die Merkmale Begriffen zugeordnet sind und die Begriffe ihrerseits Merkmale höher organisierter Begriffe bilden. Dieser Graph muss dem entscheidenden System vorliegen und verarbeitbar sein.

Nun kann man einwenden, dass diese Entscheidung dann ungültig ist, wenn dem System nicht genügend Merkmale eines zu erkennenden Gegenstandes bekannt sind, oder dass nicht unterschieden werden kann zwischen zwei oder mehreren bekannten Gegenständen, wenn jeweils gleich viele Merkmale dieser bekannten Gegenstände gegeben sind. – Dem stimme ich uneingeschränkt zu, verweise aber gleichzeitig darauf, dass ein menschliches Individuum vor denselben Problemen steht: Ganz junge Kinder haben häufig unzulängliches Wissen, so dass sie Hund und Katze nicht voneinander unterscheiden können – wie gerne sagen sie zu einer Katze bei der ersten Begegnung "Wau-Wau"? Für das Dilemma mit den gleich vielen Merkmalen bilden Kippbilder ein gutes Beispiel (vgl. Bsp.-Bild relativ weit unten im diesem TP-Artikel).

Ein dritter, nicht ganz so leicht zu erkennender, Punkt ist, dass mit diesem Handwerkszeugs keine einzige Nicht-Aussage abgebildet werden kann: Der Begriff <nicht-rot> ist schlicht und ergreifend nicht abbildbar – mit dem bisher vorgestellten Handwerkzeug. Daher verwende ich Modifikationen der Verknüpfung: Kann-, Muss-, Ist-Nicht-, Darf-Nicht-Verknüpfung (Is/N.A., Is/Must, Must Not/Is Not, Must Not/N.A.). IS NOT/MUST NOT hinter einem <rot> bewirkt, dass aus <rot> <nicht-rot> wird.

Auf dieser Basis soll ein zunächst generisches Werkzeug implementiert werden, das dazu genutzt werden kann, Begriffe zu organisieren. Davon ausgehend kann es in ein Suchwerkzeug für Musikdateien oder Webseiten umgebaut werden. Denkbar erscheint auch, es für das Erkennen von Bildinhalten einzusetzen. Doch dazu ist mehr erforderlich, als mit "Begriffen zu jonglieren".