Auf dem Weg zu einem Computer, der beschreibt, was er sieht - das CogViSys-Projekt
"Bisher kommunizierten Menschen über Sprache oder Zeichen, wobei die Umsetzung im menschlichen Hirn erfolgte. Diesen Vorgang möchten wir nun in einer Maschine realisieren." So beschreibt der Koordinator des CogViSys-Projekts, Hans-Hellmut Nagel, seine Arbeit an der Entwicklung eines "virtuellen Kommentators", der in der Lage ist, visuelle Informationen in eine Textbeschreibung umzusetzen. Das Projekt wurde 2001 ins Leben gerufen und umfasst Forschungsteams aus Deutschland, Frankreich, Belgien, dem Vereinigten Königreich und der Schweiz. Es wird unter dem Abschnitt Technologien der Informationsgesellschaft (IST) des Fünften Rahmenprogramms (RP5) finanziert. Bei der Entwicklung von Computern, die die menschliche Fähigkeit, zu erkennen und zu kategorisieren, imitieren, wurden bereits beachtliche Fortschritte erzielt. Es gibt bereits digitale Kameras, die in der Lage sind, Videos aufzunehmen, digitale Prozessoren sowie Speichermedien mit hohen Kapazitäten. Viele Computer können im Fertigungsbereich Gegenstände zur Qualitätskontrolle erkennen. Die Forschung im Bereich des kognitiven Sehens - d.h. der Verarbeitung visueller sensorischer Informationen, um in einer dynamischen Umgebung zu agieren und zu reagieren - bewegt sich nun jedoch zunehmend in Richtung ehrgeizigerer Aufgaben, die den menschlichen Aktivitäten und Fähigkeiten immer mehr gleichen. Das Potential für einen "virtuellen Kommentator", einen Computer, der beschreibt, was er sieht, ist grenzenlos. Dies zeigen die verschiedenen, die das CogViSys-Konsortium ermittelt hat: Erkennen und "Umsetzen" amerikanischer Zeichensprache in Worte, Textbeschreibungen der Verkehrslage auf der Grundlage von Informationen aus Überwachungskameras, Textbeschreibungen von Situationskomik (Sitcom)-Filmen durch Erlernen "ritualisierter" Interaktionen in einer kleinen Menschengruppe sowie Erlernen deskriptiver Darstellungen von Objekten in Videos, so dass die maschinelle Suche in großen Videotheken nach dem Vorkommen bestimmter Personen, Objekte oder Raum-Zeit-Konfigurationen erleichtert wird. "Im Wesentlichen könnte man sich eine Art "bildbasiertes Google" vorstellen", erklärte Professor Nagel mit Bezug auf die Fähigkeit, Videotheken zu durchsuchen. "Der Vorteil derartiger Ansätze liegt darin, nicht im Detail erklären zu müssen, wonach gesucht wird (was die Redundanz der Ergebnisse verringern, gleichzeitig jedoch die Fehlerrate vergrößern würde, da semantisch irrelevante Unterschiede zwischen den Bildern dafür sorgen würden, dass diese nicht angezeigt werden.)" Große Fortschritte wurden bei der "Übersetzung" US-amerikanischer Zeichensprache erzielt, sagte Professor Nagel gegenüber CORDIS News. Um erfolgreich zu funktionieren, müsste eine Maschine etwa 95 Prozent der Bewegungen der die Zeichensprache verwendenden Person erkennen, damit die Nutzer des Systems kommunizieren können, ohne einander zu oft unterbrechen zu müssen, erklärte Professor Nagel. CogViSys ist diesem Ziel schon ein gutes Stück näher gekommen, teilweise dank des Zugangs zu leistungsstarken Computern. Professor Nagel gab an, dass eine solche Technologie bedeuten würde, dass die Menschen ihre Umwelt in zunehmendem Maße über eine Maschine wahrnehmen, und fügte hinzu, dass er gerne weiter erforschen würde, wie sich dies auf die Wahrnehmung auswirkt. Eine weitere mögliche Anwendung ist ein Beobachtungs- und Warnsystem für ältere oder gebrechliche Menschen. In jedem Raum eines Hauses würde eine Kamera Bewegungen beobachten, über einen Algorithmus die Bilder "verstehen" und mit der Zeit mit dem Bewohner, seinen Bewegungen und der Umgebung vertraut werden. Bei ungewöhnlichen Ereignissen würde sofort ein Alarm ausgelöst. Unter normalen Umständen würde der Bewohner auch seine Privatsphäre wahren, da die von der Kamera gelieferten Bilder nur von einem Computer, nicht von Menschen, überwacht werden. Damit jedoch all diese Anwendungen funktionieren können, müssen zunächst eine Reihe kleinerer Ziele hinsichtlich des Konzepts erreicht werden, z.B. im Bereich der Kategorisierung - die Technologie muss in der Lage sein, nicht nur bestimmte Texturen, Objekte oder Bewegungen zu erkennen, sondern auch Klassen davon zu instanziieren. "Es ist schwierig, dies Menschen zu erklären, die wissen wollen, was sie für ihr Geld bekommen", räumte Professor Nagel ein. Professor Nagel ist jedoch zuversichtlich, dass dieses Geld gut investiert wurde. Das Konsortium hat ein Verständnis für die Probleme erlangt, die mit der Entwicklung eines virtuellen Kommentators verbunden sind. Er möchte jedoch noch nicht versprechen, dass die von ihm beschriebene Technologie bald auf dem Markt erhältlich sein wird: "Ich habe nicht gesagt, dass wir schon weit gekommen sind. Doch ich möchte nicht mehr versprechen, als wir einhalten können. Ich kenne den Schaden, den unglückliche Formulierungen anrichten können." Er erklärte jedoch auch, dass es "nicht unvorstellbar" sei, dass die Anwendungen bald erhältlich sein werden. Als Appell an den zukünftigen Europäischen Forschungsrat fügte Professor Nagel hinzu: "Ich kann nicht sagen, wann sie erhältlich sein werden. Man weiß nicht, welche guten Ideen andere Leute haben. Deshalb führen wir die Grundlagenforschung durch, denn man kann nie wissen, wie viel eine Lösung in der Zukunft wert sein wird."