Image Image Image Image

Weblogit | July 27, 2024

Die Zukunft von Siri und Spracherkennung

Mit jeder neuen Iteration des Apple iPhone erwarten manche User ein Wunder. Ein fliegendes, hyperintelligentes, sensationelles Superphone mit unbegrenzter Funktionalität und der Rechenkraft eines Supercomputers. Wenn das erwartete Wunder sich dann leider nicht manifestiert, wird das Gerät in Grund und Boden gebashed.

Wir tendieren beim aktuellen Hype um die kleinen Taschenrechner (no pun intended) zum gelegentlichen Vergessen der eigentlichen Bestimmung und der Möglichkeiten unserer Devices, wo soll die Reise überhaupt noch hinführen?

Meine Empfehlungen für dich

Die 4-Stunden-Woche - Mehr Zeit, mehr Geld, mehr Leben | Der Welt-Besteller für eine geniale Work-Life-Balance, ortsunabhängiges Arbeiten und ein fantastisches Leben.

Bestes iPhone Leder-Case - Eleganter kannst du dein iPhone nicht gegen Schmutz und Kratzer schützen. Das 2in1 Leder-Case von Solo Pelle ist abnehmbar, kommt mit Kartenfächern daher und sieht einfach nur mega aus.

Mein liebster Arbeitsstuhl - Ohne den Swopper Air hätte ich sicherlich mehr Rückenschmerzen. Er fördert trotz Sitzposition eine bewegliche Wirbelsäule und hält mich beim Arbeiten aktiv. Das ist ein riesiger Vorteil zum stink normalen Bürostuhl.

Vom ersten Smartphone, dem IBM Simon, sind wir mittlerweile weit entfernt. Knuffige 16 MHz und lediglich eine Dritthersteller-App bei einem Gewicht von 510 Gramm machten dem Formfaktor “brick-size” alle Ehre, dagegen kann nicht mal das heutige Nokia Lumia 920 ankommen (kleiner Scherz, ich schätze die robuste Bauweise sehr).

800px-IBM_Simon_Personal_Communicator

Moderne SoC’s wie das Apple A6 liefern immerhin genügend Leistung, um einen Teil der Rechenarbeit beim Einsatz von Sprachsteuerungen auf dem Gerät auszuführen.

Bei der zunehmend effizienteren Vernetzung mit Cloud-Computing wird die reine Rechenkraft wohl zur kleinsten Limitation von Spracherkennung und Spracheingabe. Umweltfaktoren, Schall und syntaktisch schwierige Anfragen von Usern sind da noch ein viel größeres Problem.

Maus, Geste, Sprache: Siri im Fokus der Interface-Entwicklung

Siri ist einer der besten Chatterbots die wir neben dem fluchenden CleverBot haben, der mittlerweile fast nur noch vulgäre Äußerungen und Internethumor plappert. Trotzdem funktionieren mehrstufige Anweisungen oder komplexere Befehle nicht mit Apple’s moderner Sprachsteuerung.

Als “mehrstufig” würde ich hier einen Vorgang bezeichnen, der wie ein Makro mit der Eingabe arbeitet um ein Ergebnis hervorzubringen, das mehr als einen vergleichsweise simplen Abruf von Informationen umfasst. Aktuell kann Siri bekanntlich bereits Anweisungen wie “Schreibe eine SMS an XYZ mit dem Inhalt ABC” verarbeiten.

Eine komplexere Anweisung wäre beispielsweise: Abruf von ungelesenen RSS-Feed-Postings meiner meistfrequentierten Seiten (Zeitraum als Parameter, z.B. 4 Wochen) und die Präsentation in einem Layout á la Flipboard. Oder: Zeige mir alle Fotos vom letzten Holland-Urlaub, auf denen Person XYZ zu sehen ist.

Natürlich ließe sich diese Art von Funktionalität auch mit Plugins oder vordefinierten Verhaltensformen kombinieren, was allerdings den User wieder in die Lernposition manövriert, die Anfrage möglichst präzise und Siri-verdaulich zu formulieren.

“Künstliche Intelligenz” (wir sehen mal von Bewusstsein im Androiden-Sinne ab) ist zweifelsohne eines der Totschlagfeatures der kommenden Jahre und wird in ausgefeilter Form der Unterstützung im Alltag dienen. Interessante Features für die nächste Generation von Siri lägen in einer ausgebauten Kontext-Sensitivität (Einbezug von aktueller Position, Wetter, Uhrzeit, letzten Anfragen, Vorlieben und vielleicht auch Laune in einer Form von “Gedächtnis”) und einem insgesamt flüssigeren Dialog.

Kontext ist alles. Der richtige Kontext ist, gepaart mit dem richtigen Timing, beispielsweise schon fast ein Garant für einen Verkaufsabschluss in jeder Branche. Wir Menschen reagieren hochsensibel auf Kontext und Setting, folglich kommen Dialogsysteme auch nicht um diese Mechanik herum.

Beispiel vom Counternotions Blog: “Erinnere mich im Büro an die Reservierung für ein nettes asiatisches Restaurant für den Geburtstag meiner Mutter und maile mir den besten Weg, um zu ihrem Haus zu kommen”. Was bedeutet in diesem Fall “nett”? Eine intelligente Suchmaschine kann Synonyme zu nett im Kontext von Restaurants mit Begriffen wie “gemütlich”, “schön” oder “romantisch” gleichsetzen und Bewertungen sowie Berichte aus dem Netz damit verknüpfen. Doch woher weiß die KI, welches Restaurant ich mir leisten kann? Mit einer Verknüpfung zu einer relevanten App, die Einsicht in meine Konten hat, könnte Siri eine solche Abfrage starten.

Eine Möglichkeit hier Innovation anzukurbeln läge im Einbinden der globalen Entwickler-Community im iOS-Bereich, beispielsweise mit Schnittstellen für spannende Einsatzzwecke von Siri. Eine engere Integration mit den Apps, die wir alltäglich nutzen, würde Siri wesentlich mächtiger machen. Aktuell ergibt eine Anfrage für eine bestimmte Band in Spotify bei der deutschen Siri nur die Ausweich-Websuche nach irgendwas mit “Schpohtifi” (phonetisch) - wenig hilfreich. In China hingegen wurde Siri nachträglich eingeschränkt, da der Obrigkeit die Anzeige von Prostituierten und Waffenhändlern auf der Karte nicht sonderlich gefiel.

Siri hat tatsächlich (auf dem Papier) programmatischen Zugriff auf die Apps von Drittherstellern und könnte eine Kette von Befehlen ausführen, die Handlungen in den involvierten Apps miteinbezieht.

Beispiel:
Buche zwei Kinotickets (Kino-App), erstelle Vermerk im Kalender, lade meine Freunde ein, benachrichtige meine Frau per SMS, prüfe den Verkehrsstatus und errinnere mich daran, die reservierten Karten beim Eintritt rechtzeitig abzuholen, falls ich nicht eine halbe Stunde vor dem Termin dort bin. Aktiviere den Flugzeugmodus sobald ich im Kino bin.

Fortgesetzt auf Seite 2:


Noch kein Fan? Folge WEBLOGIT auf Facebook oder Twitter, um nichts zu verpassen! ↵


ANZEIGE

Pages: 1 2

Beliebte Beiträge auf WEBLOGIT:



Weblogit