Image Image Image Image

Weblogit | January 23, 2025

Die Zukunft von Siri und Spracherkennung

Solche “Transaktionsketten” sind in der Theorie gar nicht mal so problematisch, immerhin kann Siri Informationen aus Apps extrahieren oder Daten weiterreichen. Schwierig wird es erst im Zusammenspiel der akustischen Probleme, dem Dialekt/Habitus des Users, dem besprochenen Kontext und der Netzwerk-Latenz der involvierten Dienste. Was wenn die 3G/4G-Verbindung gerade etwas stockt, soll die Prozedur im Hintergrund durchlaufen? So viele Details müssen bei der Usererfahrung bedacht werden und können den Spaß deutlich trüben, an vorderster Stelle steht wohl das Missverständnis.

Der Charme von Siri’s alternativen Antworten, die über eine funktionelle Limitation mit Humor und Unterhaltungsfaktor hinweghelfen sollen, wird von Apple genauso aktiv ausgebaut wie die Lernfähigkeiten der virtuellen Assistentin im Smartphone. Kürzlich listete Apple sogar Jobangebote für Autoren, die sich mit Siri auseinandersetzen möchten. Fragen, die wenig Bedeutung für einen Computer oder ein Informationssystem bieten (“Willst Du mich heiraten, Siri?”) sind überraschend wichtig für das Nutzungserlebnis der User und tragen zu einem positiven Gesamtbild des Dienstes bei.

Meine Empfehlungen für dich

Die 4-Stunden-Woche - Mehr Zeit, mehr Geld, mehr Leben | Der Welt-Besteller für eine geniale Work-Life-Balance, ortsunabhängiges Arbeiten und ein fantastisches Leben.

Bestes iPhone Leder-Case - Eleganter kannst du dein iPhone nicht gegen Schmutz und Kratzer schützen. Das 2in1 Leder-Case von Solo Pelle ist abnehmbar, kommt mit Kartenfächern daher und sieht einfach nur mega aus.

Mein liebster Arbeitsstuhl - Ohne den Swopper Air hätte ich sicherlich mehr Rückenschmerzen. Er fördert trotz Sitzposition eine bewegliche Wirbelsäule und hält mich beim Arbeiten aktiv. Das ist ein riesiger Vorteil zum stink normalen Bürostuhl.

Star Trek: The Next Generation - Siri's Vorbild?

Im August 2011 war Siri-Investor Gary Morgenthaler noch äußerst optimistisch hinsichtlich der künftigen Entwicklungen in der näheren Zukunft. Zwei bis drei Jahre solle die Entwicklung noch brauchen, dann sei Siri auf dem Konversationstempo eines Menschen und könne auch unterwegs (vorausgesetzt der Empfang gäbe es her) passende Antworten in Windeseile liefern. Fast 1,5 Jahre später sehen wir noch keine deutlichen Steigerungen des Funktionsumfangs von Siri, vor allem keine “vorausschauenden” oder personalisierten Antworten.

Unabdinglich ist jedoch die Anbindung von Systemen wie Siri an große, wenn nicht gigantische Datenbanken mit dem Wissen der Menschheit. Kartografie und Restaurants sind natürlich nur der Anfang, auch die Verbindung zu Wolfram Alpha weist die künftige Richtung auf.

Siri als reine Sprachsteuerung ohne manuelle Auslösung

Eine weitere Limitation liegt in der Eingabemethode: Siri wird nach wie vor über einen Button (oder bei Geräten mit Jailbreak auch per Geste) aktiviert und erfordert somit die Hand, wo die Eingabe doch “hands-free” sein sollte. Sprachsteuerung ohne eine Form von “Push-To-Talk”-Auslöser ist noch immer von fundamentalen Problemen geplagt, selbst wenn wir vom enorm gesteigerten Akkuverbrauch eines zusätzlichen Prozesses ausgehen, der konstant auf eure Eingabe wartet und lauscht.

Rauschen und Fehlerkennungen von Umgebungsgeräuschen machen Tools wie Siri nämlich zu schaffen, was beispielsweise im iPhone 4S mit der earSmart Technologie von Audience kompensiert wurde. Trotzdem wird kein Fingerabdruck der Benutzerstimme angelegt, was Siri von der Star Trek Version (“Computer, einen Earl Grey Tee bitte!”) entfernt. Denn ohne zumindest eine grobe Idee zu haben, wie der Nutzer so klingt, kann eine Spracherkennung nicht ohne die Krücke der manuellen Auslösung funktionieren. Innovationen im Bereich der smarten Sensorsteuerung für das Mikrofon und eine Art Fingerprinting könnten hier Abhilfe schaffen. Aktuell kann der User ja bereits Siri per Accelerometer aktivieren lassen (die Funktion nennt sich “Sprechen” in den Siri Settings), wenn er das Gerät in die Telefonierpose schwingt, was bereits eine Steigerung darstellt, aber noch immer das Entsperren und Halten erfordert.

Nuance Communications, die Macher von Dragon Naturally Speaking (eine solide Diktiersoftware), arbeiten tatsächlich an dieser Sorte Technologie. Sie entwicklen nämlich eine stromsparende Möglichkeit, das Mikrofon einer Dauerüberwachung zu unterziehen, um Sprachbefehle jederzeit abfangen zu können.

Nicht nur Datenschützer betrachten eine solche Funktion (Überwachungsstaat gestützt durch Smartphones, oh oh!) skeptisch an, auch versehentliche Befehle wie bei jetzigen Smart TVs könnten wesentlich peinlicher ausfallen. Anstatt die Lautstärke versehentlich zu regulieren, könnte ein privates Foto plötzlich auf Facebook landen, weil der User darüber scherzte und dem Programm somit eine missverständliche Anweisung gab. Ein simpler Schutzmechanismus wäre durchaus, das Tool auf ein bestimmtes Schlüsselwort (z.B. “Computer”) zum Zwecke der Aktivierung zu trainieren.

Keine Eingabe statt Spracheingabe, liegt hier die Zukunft?

Vielleicht bringt die Zukunft auch eine künstliche Intelligenz mit sich, die wie in den Culture-Romanen von Iain M. Banks gar keine Usereingabe mehr benötigt. Menschen und Maschinen vertiefen dort ihre symbiotische Beziehung so weit, dass ökonomische Konstrukte wie Währungen abgeschafft werden und die Maschinen unsere unangenehmen Aufgaben völlig übernehmen. Ein Ansatz des “Dienst vor der Erkenntnis den Dienst zu benötigen”-Konzepts steckt bereits in Google Now, wenn auch in rudimentärer Form.

Diese Idee tangiert übrigens auch die sehr interessante Frage, ob wir als Menschen tatsächlich selbstbestimmt sind, oder nach unterbewussten und/oder komplex automatisierten Impulsen handeln. Diversen Studien zufolge handeln wir nämlich bis zu einer halben Sekunde schneller, als wir tatsächlich denken und entscheiden. Retrospektiv weisen wir (laut den beteiligten Neurowissenschaftlern) dann unseren Handlungen die Bedeutung zu, dass wir uns bewusst zu ihnen entschlossen haben. Für die Interaktion mit Computern könnte das bedeuten, dass diese irgendwann unseren "Verhaltens-Code" geknackt hätten und noch vor uns wüssten, wie wir in Kürze handeln würden. Eine merkwürdige Vorstellung, oder?

Welche Art von Eingabe oder Abfrage, Funktionalität oder Funktionsabfolge (die aktuell nicht möglich ist) würdet ihr gerne mit Siri veranstalten?

TNW, WSJ, TechRadar, Time, Counternotions


Noch kein Fan? Folge WEBLOGIT auf Facebook oder Twitter, um nichts zu verpassen! ↵


ANZEIGE

Pages: 1 2

Beliebte Beiträge auf WEBLOGIT:



Weblogit