Abbildung 2.7 zeigt den Versuch, den Informationsfluss der visuellen Wahrnehmung im Kontext von Marrs algorithmischem Ansatz schematisch zu illustrieren (
Abb. 2.7). Die Wahrnehmung beginnt mit dem Extrahieren von Lichtenergie aus der Umgebung auf der Retina. Aus den extrahierten visuellen »Rohinformationen« im Retina-Abbild werden wiederum einzelne Merkmale extrahiert und eine Primärskizze erstellt. Diese Merkmale werden mit Tiefeninformationen kombiniert. Aus dieser Kombination kann ein Betrachter die Lage und Orientierung von Objekten im Raum und somit die 2 ½-D-Skizze erstellen. Mit der Erstellung von ansichtsunabhängigen Teilkomponenten ergibt sich ein 3D-Modell. Schließlich wird dieses 3D-Modell mit Gedächtnisrepräsentationen abgeglichen, das führt zum Erkennen von Objekten. Das Ergebnis dieser Stufe ist uns in der Wahrnehmung zugänglich. Dieses Schema der Objekterkennung macht deutlich, dass eine umfassende Informationsverarbeitung notwendig ist, bevor uns wahrgenommene Objekte zugänglich sind.
Wir haben gesehen, dass dem Erkennen von komplexen dreidimensionalen Objekten eine umfassende Informationsverarbeitung mit verschiedenen Verarbeitungsstufen vorausgeht. Charakteristisch für diese Verarbeitung ist, dass Objekte nicht als Ganzes erkannt werden, sondern auf einer bestimmten Stufe der Verarbeitung in Teilkomponenten zerlegt werden (z. B. wird die 3D-Modell-Repräsentation in Teilkomponenten zerlegt). Diese Zerlegung in Teilkomponenten ist bereits bei Modellen zum Erkennen von einfachen, zweidimensionalen Objekten, wie Zahlen, Symbolen oder Buchstaben zu finden. Nach dem Modell der Merkmalsanalyse werden Objekte als Kombination elementarer Merkmale angesehen. Im Fall des Alphabets können Buchstaben aus horizontalen, vertikalen, schrägen und gekrümmten Linien kombiniert werden.
Abb. 2.7: Informationsfluss von der Aufnahme visueller Informationen im Retinaabbild bis zur Erkennung komplexer dreidimensionaler Objekte nach Marr und Nishihara (1978)
Zum Beispiel kann man den Großbuchstaben A aus zwei schrägen Linien (/ \) und einer horizontalen Linie (-) kombinieren. Befunde aus Verhaltensexperimenten zeigen, dass Merkmale als Komponenten bei der Mustererkennung fungieren. So werden zum Beispiel in einer Studie von Kinney, Marsetta und Showman (1966) systematische Falscherkennungen sichtbar, wenn der Buchstabe G erkannt werden soll: Wird dieser Buchstabe nur sehr kurzfristig dargeboten, klassifizieren Probanden den Buchstaben G häufig falsch. Von diesen Falschklassifikationen wurden 72,4 % als C und 20,7 % als O kategorisiert. Das zeigt, dass ein überwiegender, systematischer Teil der Falscherkennungen sehr ähnliche Buchstaben mit ähnlichen Merkmalen war. Ein solches Ergebnismuster ist zu erwarten, wenn der Erkennungsprozess von Objekten nach der Merkmalsanalyse verläuft. Es ist keine zuverlässige Unterscheidung bei Buchstaben mit ähnlichen Merkmalen möglich, wenn bei kurzen Darbietungen nicht alle Merkmale extrahiert werden können.
2.3.2 Biedermans Recognition-by-components-Theorie
Die Merkmalsanalyse und auch die zuvor ausgeführte Objekterkennung bei Marr unterspezifiziert allerdings, wie Merkmale und Teilkomponenten beschaffen sind und welche Menge und Identität diese Elemente haben. Eine Weiterentwicklung besonders in der Erkennung komplexer dreidimensionaler Objekte findet man in der Recognition-by-components- Theorie von Biederman (Biederman, 1987). Dieser Ansatz geht von einer begrenzten Menge elementarer geometrischer Komponenten (sogenannte Geons) aus. Durch diese Geons lassen sich zumindest grobe Formen bekannter Objekte zusammensetzen. In Abbildung 2.8 ist eine Auswahl von Geons und Beispiele ihrer offensichtlichen Kombinationen in erkennbaren Objekten illustriert (
Abb. 2.8). Im Kontext der Recognition-by-components-Theorie wird angenommen, dass sowohl die Repräsentation eines aktuell wahrgenommenen Objekts als auch die dazugehörige Gedächtnisrepräsentation aus strukturellen Beschreibungen der jeweiligen räumlichen Anordnungen der relevanten Geons bestehen. Es ist von essentieller Bedeutung, dass Geons sogenannte »nicht zufällige« Merkmale aufweisen, durch die sie ansichtsunabhängig erkennbar sind. Abgesehen von ganz extremen Ansichten weisen zweidimensionale Projektionen von Geons immer charakteristische Merkmale auf.
Abb. 2.8: Geons und ihre Kombinationen zu bekannten Objekten
Eine zentrale Vorhersage von Biedermans Theorie (Biederman, 1987) ist, dass die Objekterkennung maßgeblich davon abhängt, ob Geons, aus denen Objekte bestehen, erkennbar sind. Diese Erkennbarkeit hängt wiederum von der Verfügbarkeit der nicht zufälligen Merkmale der Geons ab. Biederman untersuchte diese Vorhersage anhand von Objekten, wie sie in Abbildung 2.9 illustriert sind (
Abb. 2.9). Die entscheidenden Versuchsbedingungen bestanden darin, dass einerseits Strichzeichnungen so gestalten wurden, dass eine Rekonstruktion von Geons weiterhin möglich ist (recoverable; mittlere Spalte (b) in Abbildung 2.9), andererseits Strichzeichnungen so gestaltet wurden, dass eine Rekonstruktion von Geons erschwert möglich ist (non-recoverable; rechte Spalte (c) in Abbildung 2.9). Die letztgenannten Strichzeichnungen wurden in einer Art erstellt, dass Merkmale von Geons gelöscht wurden, die die kritischen, nicht zufälligen Merkmale dieser Geons darstellen. Die Ergebnisse zeigen: Besonders bei längeren Intervallen konnten Versuchspersonen die Objekte mit recoverable Geons nahezu perfekt erkennen, dagegen war die Erkennung deutlich beeinträchtigt, wenn Geons non-recoverable waren. Der Autor schlussfolgerte daraus, dass Versuchspersonen nicht in der Lage sind, Geons zu erkennen, wenn kritische Teile dieser Komponenten fehlen, und dass durch das erschwerte Erkennen der Geons auch die Erkennung von ganzen, zusammengesetzten Objekten erschwert ist.
Abb. 2.9: Schematische Darstellung von Reizmaterial, wie es für Experimente zur Erkennung unvollständiger Objekte benutzt wurde (mittlere (b) und rechte (c) Spalte). Die linke Spalte (a) zeigt die vollständigen Strichzeichnungen (aus Biederman, 1987, S. 135, Abb. 16).
Obwohl die Recognition-by-components-Theorie sehr gut belegbare Aussagen zur Bedeutsamkeit von Geons in der Erkennung von komplexen Objekten trifft, liefert die Literatur zumindest Einschränkungen hinsichtlich der Ansichtsunabhängigkeit der Erkennung von Objekten. Im Kontext von Biedermans Theorie wird angenommen, dass Objekte nur unterschiedlich schwer zu erkennen sind, wenn die verwendete Ansicht mit einer schlechteren Erkennbarkeit der Geons einhergeht. Allerdings gibt es Befunde, die zeigen, dass bekannte Objekte schwieriger zu erkennen sind, wenn sie in einer ungewöhnlichen Perspektive dargestellt sind, ohne dass die Geon-Erkennung erschwert ist. Empirische Evidenz für diese Annahme geben Studien, in denen Versuchspersonen systematisch nur bestimmte Ansichten eines Objekts als typische (sogenannte kanonische) Ansichten wählen (Palmer, Rosch & Chase, 1981). Außerdem sind Reaktionszeiten in Benennungsaufgaben niedriger, je ähnlicher die dargebotene Ansicht eines Objekts der kanonischen Ansicht ist (Palmer et al., 1981). Solche Befunde können durch Theorien erklärt werden, nach denen die Objekterkennung nicht nur ansichtsunabhängig erfolgt, sondern teilweise auf ansichtsabhängigen Repräsentationen beruht oder die Objekterkennung einen Vergleich zwischen Objektansicht und Objektrepräsentation verwendet, der bei stärkerer Abweichung zwischen Ansicht und Repräsentation zeitaufwändiger und fehlerbehafteter ist (Tarr & Bülthoff, 1998).
Читать дальше