Innovationsfeld Extended Reality
Prof. Sebastian Möller vom Deutschen Forschungszentrum für künstliche Intelligenz (DFKI) erklärt im Interview, welche Vorteile in eXtended Reality-Anwendungen stecken und wie diese dem gesellschaftlichen Fortschritt dienen
Mit Augmented, Virtual und Mixed Reality (AR, VR, MR) entwickelt sich ein neuer Informationskanal in der Mensch-Maschine-Interaktion. Das Innovationsfeld bietet enorme Chancen und jede Menge technische und qualitative Herausforderungen. Viele Start-ups sehen hier ihre Zukunft. Im Interview erklärt Prof. Sebastian Möller, dessen „Quality and Usability Lab“ an der Technischen Universität (TU) Berlin sich intensiv mit VR, AR, und MR befasst und der zudem einen Forschungsbereich am Deutschen Forschungszentrum für künstliche Intelligenz (DFKI) leitet, worauf es bei eXtended Reality-Anwendungen ankommt, wie sie zu gesellschaftlichem Fortschritt beitragen und inwiefern dafür künstliche Intelligenz gefragt ist.
Als Leiter des „Quality and Usability Lab“ an der TU Berlin befassen Sie sich ebenso mit Speech and Language Technology wie mit eXtended Reality. Wo liegen jeweils die Vorteile von audio-visueller und von sprachlicher Informationsvermittlung?
Beziehungen, Emotionen und Empfindungen lassen sich in Text und Sprache sehr präzise und nuanciert beschreiben. Mit den vier Worten „die Schwester meiner Großmutter“ kann ich eine komplexe verwandtschaftliche Beziehung vermitteln. Visuell-graphisch wäre das viel schwieriger. Bildliche Darstellung ist dagegen oft überlegen, wenn es um Orte, Topografien oder komplexe Inhalte geht. Ihnen in diesem Augenblick genau zu beschreiben, wo mein Büro liegt, wäre mit Sprache schwierig. Auf einer guten Karte reicht ein Fingerzeig. Wir definieren die Möglichkeiten und Vorteile der jeweiligen Informationskanäle als Modality Properties. Bei der Kombination unterschiedlicher Kanäle sprechen wir von multimodaler Interaktion.
Was sind die Vorteile?
Eine Modalität ist die Verwendung eines Mediums für die Kommunikation. Oft geht es dabei um Mensch-Maschine-Interaktion. Da gibt es die Ebene, wie wir Information eingeben – wahlweise tippen wir, nutzen Spracherkennungstools, zeigen per Touchscreen oder machen uns einer entsprechenden Software mit Gesten verständlich. Neben diesen Eingabemodalitäten gibt es den Kanal vom Gerät zum Menschen. Es zeigt Texte, Graphiken und Bilder, spricht und spielt Filme ab und kann mich in virtuelle und eXtended Realitäten führen. Bei der multimodalen Interaktion stehen verschiedene Ein- und Ausgabemodalitäten bereit. Nutzerinnen und Nutzer können so ihren Vorlieben oder der aktuellen Situation entsprechend kommunizieren. Spracherkennung hat Schwächen in lauten Umgebungen, Touchscreens und Tastaturen sind bei der Montage mit ölverschmierten Händen ungeeignet und bei grellem Sonnenlicht sind Texte auf Displays kaum zu lesen. Daneben kommt die multimodale Interaktion der Funktionsweise des Gehirns entgegen. Die Nutzung mehrerer Kanäle sorgt für bessere Auslastung unseres Arbeitsgedächtnisses und beugt Überlastung vor, bei der es Informationen nicht mehr vollständig verarbeiten kann. Im Zuge von komplexen chirurgischen Eingriffen oder erstmals ausgeführten Reparaturen kann es die Ausführenden sehr entlasten, wenn im richtigen Moment visuelle Information oder sprachliche Anleitung durch erfahrene Fachleute bereitsteht und die Detailtiefe der Information sprachlich oder gestisch steuerbar ist. Es ist eine Gratwanderung, wie viel Information eine Mensch-Maschine-Schnittstelle bereitstellen kann, ohne das Arbeitsgedächtnis zu überlasten. Automobil- und Flugzeugbauer setzen deshalb vermehrt auf multimodale Interaktion mit Head-up-Displays, eXtended Reality sowie haptischen und akustischen Signalen.
Das wirft die Frage der Usability und Qualität auf. Ist die User Experience vor dem Hintergrund individueller Vorlieben nicht sehr subjektiv?
Besonders bei eXtended Reality-Anwendungen gibt es tatsächlich Probleme mit der so genannten „Simulator-Sickness“. Manchen wird schwindelig und übel, wenn sie VR-Brillen aufsetzen. Neben körperlichen Extremreaktionen gibt es aber natürlich, wie bei der PC-Nutzung individuelle Präferenzen – und es gibt die bereits erwähnten Umwelteinflüsse. Genau hier liegt eine große Stärke des multimodalen Ansatzes. Wo unterschiedliche Lösungsoptionen verfügbar sind, können die Anwenderinnen und Anwender Einstellungen entsprechend ihrer Vorlieben vornehmen. Intelligente Systeme leiten daraus Nutzermodelle ab – und mithilfe von maschinellem Lernen und entsprechender Sensorik können die Systeme selbst die Modalität wechseln, wenn es sehr laut ist oder sonstige Umwelteinflüsse die Informationsvermittlung stören. KI ist ohnehin ein Treiber für eXtended Reality-Anwendungen: Sie liefert die Basis für Spracherkennung, Sensorauswertung und vieles mehr. Für die Ein- und Ausgabemodalitäten der Systeme ist KI heute eine Basistechnologie.
Wie kann eXtended Reality dem gesellschaftlichen Fortschritt dienen?
Sie bietet in sehr vielen Bereichen Vorteile. Das beginnt damit, dass wir uns in der Pandemie daran gewöhnt haben, in Webmeetings zu kommunizieren, wo wir früher telefoniert oder Anfahrwege in Kauf genommen hätten. Noch ist das keine eXtendet Reality. Aber es ist durchaus denkbar, diese Meetings künftig in virtuellen Räumen abzuhalten, weitere Fachleute dazu einzuladen und das Gespräch inhaltlich zu vertiefen, indem wir zusätzliche Information einblenden. Entwicklungsabteilungen auf verschiedenen Kontinenten könnten am virtuellen Modell einer geplanten Maschine zusammenarbeiten, fachliche Koryphäen in verschiedensten medizinischen Disziplinen könnten unerfahrenen Kolleginnen und Kollegen bei Operationen über die Schulter schauen oder gleich Roboter anleiten. Auch für die Bürgerbeteiligung bei Bauprojekten hat eXtendet Reality-Visualisierung großes Potenzial.
Die technologische Entwicklung im letzten Jahrzehnt war enorm. Welche Herausforderungen sind noch zu lösen?
Oh, da gibt es eine Menge! Im VR-Bereich gibt es große Baustellen, die in der eXtended Reality noch größer sind, da es sehr viel komplexer ist, virtuelle und reale Objekte und Umgebungen nahtlos zu kombinieren. Herausforderungen sehe ich bei der Bildqualität und der Darstellung der Szenen. Auch hapert es beim Synchronisieren von Bild und Ton, sofern überhaupt Ton vorgesehen ist; oft wird darauf verzichtet. Auch bei den Brillen gibt es Optimierungspotenzial. Sie sind klobig, bieten nur so lange gute Bildqualität, wie sie nicht verrutschen und bei körperlicher Anstrengung schwitzt man darunter. Auch gibt es häufig noch störenden zeitlichen Versatz im Zusammenspiel der Modalitäten. Es gibt trotz aller Fortschritte bei den Geräten noch sehr viel zu tun. Zumal viele der offenen Fragen direkten Einfluss auf die Usability und damit letztlich auf die Akzeptanz der eXtended Reality-Anwendungen haben. Überzeugt die User Experience nicht, dann bleiben die Brillen früher oder später in der Schublade.
Inwieweit sehen Sie in diesem Innovationsfeld Potenzial für Start-ups?
Die Chancen sind riesig, weil die Anwendungen so breit sind. Ob Gaming, ob Architektur, ob in der Telemedizin, in Service und Wartung von Maschinen und Anlagen, Konstruktion und Entwicklung, im Bildungsbereich oder Tourismus – selbst im Bereich der Steuerberatung hatten wir schon Projekte. Durch diese Breite gibt es viele Nischen für kleine spezialisierte Teams. Das Spektrum reicht von spezifischen Beiträgen zur Optimierung der Geräte und der Sensorik über KI-Lösungen bis zur Entwicklung und Vermarktung von eXtended Reality-Anwendungen. Allerdings ist manche Branche bisher zurückhaltender als wir es vor einem Jahrzehnt erwartet hätten.
Was würden Sie Teams, die in diesem Markt ein Unternehmen aufbauen möchten, als Ratschlag auf den Weg geben?
Zentral ist es, die Nutzerperspektive in den Mittelpunkt zu stellen. Auch wenn die Technik mit all ihren Möglichkeiten noch so begeistert – in der konkreten Anwendung kommt es auf die Usability an. Deshalb sollten Start-ups so früh wie möglich funktionelle Mockups und Prototypen bauen und diese mit echten Probandinnen und Probanden auf Herz und Nieren testen. Sonst könnten sie sehr viel Arbeit und Herzblut in technisch faszinierende Produkte investieren, die am Ende ungenutzt bleiben, weil sie sich im Gebrauch nicht gut anfühlen. Wir müssen uns bei aller Begeisterung immer wieder vergegenwärtigen, für wen wir diese Technologie entwickeln: Nicht für Maschinen und auch nicht für Computer – sondern für Menschen!
Zur Person:
Prof. Sebastian Möller leitet das Quality and Usability Lab an der Technischen Universität Berlin und ist Leiter des Forschungsbereichs Speech and Language Technology am Deutschen Forschungszentrum für künstliche Intelligenz (DFKI) in Berlin. Zudem ist er Laborsprecher des DFKI Berlin.
Von Peter Trechow für CHIC!