Amazon unaufhaltsam

Kapitel 1:

Der Über-Produktmanager

D as knappe Dutzend Gebäude, die Amazon 2010 in Seattles aufstrebendem Bezirk South Lake Union bezog, unterschied sich nicht groß von anderen Bauten ringsum. Von der Architektur her völlig nichtssagend, verwiesen darüber hinaus – auf ausdrücklichen Wunsch des CEO – weder Schilder noch Schriftzüge auf die Präsenz eines ikonischen Internetunternehmens mit fast 35 Milliarden Dollar Jahresumsatz. Eine derart ostentative Selbstdarstellung, so hatte Jeff Bezos den Kollegen gesagt, wäre allenfalls kontraproduktiv. Wer bereits geschäftlich mit dem Unternehmen zu tun hätte, wüsste ohnehin, wo es zu finden sei, und alle anderen – allen voran lästige Reporter, die einem der Executives aufzulauern versuchten – kamen so vielleicht nicht gleich darauf.

Während die rund um die Kreuzung Terry Avenue North und Harrison Street gruppierten Bürogebäude von außen weitgehend anonym waren, zeigte ihr Inneres ganz eindeutig die spezifischen Merkmale einer so einzigartigen wie eigenwilligen Unternehmenskultur. Die Beschäftigten trugen Namensschilder um den Hals, deren Farbe die Zahl der Dienstjahre im Unternehmen verriet (blau für unter fünf, gelb für zwischen fünf und zehn und rot für bis zu fünfzehn Jahre); Büros und Aufzüge schmückten Plakate mit Bezos’ vierzehn geheiligten Führungsprinzipien.

Bezos war hier allgegenwärtig. Schon die äußere Erscheinung des 46-Jährigen stand für Amazons einzigartige operative Ideologie. So gab sich der CEO zum Beispiel große Mühe, Amazons Führungsprinzip Nummer 10 – Sparsamkeit – zu illustrieren. Mehr mit weniger erreichen . Einschränkungen führen zu Einfallsreichtum, Selbstgenügsamkeit und Erfindungsgabe. Pluspunkte gibt es weder für zunehmende Budgets oder Fixkosten noch für mehr Personal. Meist fuhr ihn seine Gattin MacKenzie im Honda Minivan der beiden zur Arbeit, und wenn er mit Kollegen in seiner eigenen Dassault Falcon 900EX unterwegs war, wies er immer wieder mal darauf hin: Nicht etwa Amazon, sondern er selbst bezahle den Flug.

Wenn Bezos selbst sich eines seiner Führungsprinzipien besonders zu Herzen nahm, dann war es das Prinzip Nummer 8: »Think Big«: Klein zu denken ist eine sich selbst erfüllende Prophezeiung. Wahre Führer schaffen und kommunizieren eine kühne Richtung, die zu Ergebnissen führt. Sie denken anders und blicken um Ecken auf der Suche nach Möglichkeiten, dem Kunden zu dienen . 2010 war Amazon ein erfolgreicher Online-Händler, ein kommender Cloud-Provider und ein E-Book-Pionier. Bezos’ Vision von seinem Unternehmen war jedoch weitaus größer. Sein Aktionärsbrief in diesem Jahr war ein Lobgesang auf zwei esoterische Computerdisziplinen, die Amazon eben erst zu erforschen begann: K ünstliche Intelligenz und Maschinenlernen. Er begann mit einer Liste unheimlich obskurer Begriffe wie »naiver Bayes’scher Schätzer«, »Klatschprotokolle« und »Daten-Sharding«. »Neues zu erfinden ist in unserer DNA verankert«, so schrieb Bezos, »und Technologie ist das fundamentale Werkzeug, mit dem wir jeden Aspekt des Erlebnisses, das wir unseren Kunden bieten, weiterentwickeln und verbessern.«

Bezos stellte sich diese technologischen Möglichkeiten nicht nur vor. Er gab sich darüber hinaus auch alle Mühe, Amazons nächste Produktgeneration an der denkbar fernsten Grenze des Machbaren zu positionieren. Er begann damals intensiver denn je mit den Ingenieuren im Lab126 zusammenzuarbeiten, Amazons F&E-Tochter im Silicon Valley, wo man mit dem Kindle auch das erste Gadget der Firma entwickelt hatte. In einer Reihe fieberhafter Brainstorming-Sessions stieß er mehrere Projekte zur Komplementierung des Kindle und der kommenden Kindle Fire-Tablets an, die firmenintern als Projekt A bekannt waren.

Projekt B, aus dem schließlich Amazons glückloses Fire Phone wurde, sollte mithilfe einer Gruppe nach vorn gerichteter Kameras und Infrarotlicht ein scheinbar dreidimensionales Bild auf das Display des Smartphones zaubern. Projekt C – »Shimmer« – sah aus wie eine Schreibtischlampe und sollte eine Art Hologramm entweder auf die Tischplatte oder an die Decke projizieren. Es ging jedoch seiner viel zu hohen Kosten wegen nie an den Start.

Bezos hatte eigene bis eigenartige Vorstellungen von der Interaktion der Kundschaft mit diesen Geräten. Die mit der dritten Version des Kindle befassten Ingenieure erfuhren das, als sie ihm das für den E-Book-Reader geplante Mikrofon auszureden versuchten, für dessen Benutzung Features noch nicht einmal angedacht waren. Der CEO jedoch blieb hart, das Mikrofon blieb. »Ich bekam damals die Antwort, dass wir Jeffs Ansicht nach in Zukunft mit unseren Geräten sprechen werden«, sagte Sam Bowen, der damals für die Hardware des Kindle verantwortlich war, »was sich für mich eher nach Star Trek anhörte als nach Realität.«

Die Designer konnten Bezos schließlich dazu bringen, das Mikrofon bei künftigen Versionen des Kindle wegzulassen, aber er hielt an seinem Glauben an die Unvermeidlichkeit des »Conversational Computing«, der sprachlichen Interaktion mit dem Computer, fest; die k ünstliche Intelligenz, davon war er überzeugt, würde dies ermöglichen. Es kam in all seinen SciFi-Favoriten vor, von Star Trek (»Computer, öffne Kanal!«) bis hin zu Autoren wie Arthur C. Clarke, Isaac Asimov und Robert A. Heinlein, deren Werke zu Hunderten in der Bibliothek seines Seegrundstücks in Medina stehen. Während andere diese Klassiker lasen und von alternativen Realitäten gerade mal träumten, schien Bezos die Bücher als Entwürfe für eine aufregende Zukunft zu sehen. Seinen Gipfelpunkt sollte dies in einem Produkt finden, welches das kommende Jahrzehnt bestimmen würde: einem zylindrischen Lautsprecher, der eine Welle von Nachahmern fand, unser Verständnis von Privatsphäre herausforderte und für ein neues Bild von Amazon sorgte, weil die Firma in den Augen der Öffentlichkeit fortan nicht mehr nur ein Riese im Internethandel war, sondern ein findiges Tech-Unternehmen, das die Grenzen der Informatik selbst verschob.

Die erste Anregung dazu kam aus dem Lab126 und firmierte unter dem Codenamen Projekt D. Letztendlich sollte es als Amazon Echo bekannt werden, vor allem aber unter dem Namen seiner virtuellen Assistentin Alexa.

Wie einige andere Amazon-Projekte auch lassen sich die Ursprünge von Projekt D auf Diskussionen zwischen Bezos und seinem »Technischen Berater« oder TB zurückführen, einem vielversprechenden Executive, der – von Bezos handverlesen – dem CEO praktisch auf Schritt und Tritt zu folgen hatte. Zu den Aufgaben des TB gehörte es unter anderem, sich bei Meetings Notizen zu machen, den ersten Entwurf des alljährlichen Aktionärsbriefs aufzusetzen und beim Meister über ein Jahr lang in eine von enger Interaktion geprägte Lehre zu gehen.

Von 2009 bis 2011 hatte diese Rolle der Amazon-Executive Greg Hart inne, ein Veteran aus der Anfangszeit, als Amazons Angebot noch auf Bücher, Musik, DVDs und Videospiele beschränkt war. In Seattle geboren, hatte Hart das Williams College in Western Massachusetts besucht, um dann nach einem kurzen Zwischenspiel in der Werbebranche – zur Zeit der Dämmerung der Grunge-Ära – mit Spitzbärtchen und einer Schwäche für Flanellhemden nach Hause zurückzukehren. Zu Bezos’ »Schatten« erkoren, war das Bärtchen verschwunden und Hart ein aufgehender Stern am Unternehmenshimmel. »Man kommt sich ein bisschen wie ein Assistenzcoach vor, der John Wooden zuguckt, wissen Sie, dem womöglich größten Basketball-Coach aller Zeiten«, sagte Hart über seine Zeit als TB.

Hart erinnerte sich daran, sich mit Bezos eines Tages Ende 2010 im Blue Moon Burgers in Seattle über Spracherkennung unterhalten zu haben. Beim Mittagessen hatte Hart seiner Begeisterung für die Google-Sprachsuchfunktion seines Android-Handys Luft gemacht. »Pizza in der Nähe«, sagte er und zeigte Bezos dann die Liste der Links zu nahe gelegenen Pizzerien auf dem Display. »Jeff war ein bisschen skeptisch gegenüber dem Einsatz von so was auf Handys, weil er dachte, das wäre im Beisein anderer vielleicht peinlich«, erinnerte sich Hart. Aber sie unterhielten sich darüber, dass die Technologie endlich gut genug für Diktat und Suche zu werden begann.

Was Bezos damals ebenfalls aufregend fand, war Amazons wachsendes Geschäft mit der Cloud. Ständig fragte er seine Executives: »Was tun Sie eigentlich zur Unterstützung der AWS?« Angeregt durch die Gespräche mit Hart und anderen über die Möglichkeiten von Computern mit Spracherkennung schickte er schließlich Hart sowie dem Vice President für Geräte Ian Freed und Senior Vice President Steve Kessel am 4. Januar 2011 eine E-Mail, in der er die beiden Themen miteinander verband: »Wir sollten ein intelligentes 20-Dollar-Gerät für die Cloud bauen, das ausschließlich von unserer Stimme gesteuert wird.« Es war zunächst nur eine weitere Idee vom Boss, der einen unerschöpflichen Vorrat von Einfällen zu haben schien.

Bezos und seine Leute spielten einige Tage per E-Mail mit der Idee, aber da man keine konkreten Schritte unternahm, hätte das Ganze durchaus wieder im Sande verlaufen können. Einige Wochen später dann traf Hart sich mit Bezos in einem Konferenzraum im 6. Stock von Amazons Hauptquartier Day One North, um über seine künftige Laufbahn zu sprechen. Seine Zeit als TB neigte sich ihrem Ende zu, also diskutierten sie einige Möglichkeiten, im Unternehmen neue Initiativen zu leiten, darunter die eine oder andere Position im Bereich Videostreaming oder Werbung. Bezos notierte sich ihre Ideen auf einem Whiteboard, fügte noch einige eigene hinzu und klopfte dann alle nach seinen üblichen Kriterien auf ihre Vorzüge ab: Wenn sie funktionieren, wird dann Big Business daraus? Würde man sich eine Gelegenheit vergeben, wenn das Unternehmen sie jetzt nicht mit Nachdruck verfolgte? Schließlich hatten Bezos und Hart alle Punkte der Liste bis auf einen gestrichen: Bezos’ Idee für einen sprachgesteuerten Cloud-Computer.

»Jeff, ich habe keine Erfahrung mit Hardware, und das größte Softwareteam, das ich je geleitet habe, hatte gerade mal vierzig Leute«, erinnerte Hart sich, gesagt zu haben.

»Du machst das schon«, sagte Bezos ihm.

Hart dankte ihm für das Vertrauen und gab nach: »Okay, schön, ich hoffe nur, du denkst daran, wenn wir mal Mist bauen.«

Bevor sie auseinandergingen, illustrierte Bezos noch seine Idee für einen displaylosen sprachgesteuerten Computer mit einer Skizze auf dem Whiteboard. Die erste bildliche Darstellung von Alexa zeigte die Lautsprecherbox, ein Mikrofon und eine Stummtaste. Außerdem identifizierte die Skizze noch die Herausforderung, das Gerät irgendwie ins WLAN einzubinden, schließlich wäre es von sich aus nicht in der Lage, auf gesprochene Kommandos zu hören. Hart schoss mit dem Smartphone ein Foto von der Skizze.

Bezos blieb dem Projekt aufs Engste verbunden, beriet sich jeden zweiten Tag mit dem Team, traf detaillierte Entscheidungen hinsichtlich des Produkts und genehmigte die Investition von Hunderten von Millionen Dollar in das Projekt, bevor der erste Echo auf den Markt kam. Seine Mitarbeiter bezeichneten ihn – nach dem deutschen Präfix – als Über -Produktmanager.

Die eigentliche Leitung des Teams jedoch hatte Greg Hart im Kindle-Gebäude – »Fiona« – gleich auf der Bezos’ Büro gegenüberliegenden Straßenseite. Im Verlauf der nächsten Monate heuerte Hart eine kleine Gruppe von Leuten aus dem Unternehmen, aber auch von außerhalb an; er schickte den Kandidaten E-Mails mit dem Motto »Join the mission« in der Betreffzeile. Beim Einstellungsgespräch selbst stellte er dann Fragen wie die folgende: »Wie würden Sie einen Kindle für Blinde bauen?« Von Geheimhaltung nicht weniger besessen als sein Boss, weigerte Hart sich, den Kandidaten Näheres über das Produkt zu sagen, an dem sie arbeiten sollten. Einer von ihnen erinnerte sich, die Vermutung geäußert zu haben, dass es sich um Amazons Smartphone handele, über das allenthalben Gerüchte im Umlauf waren, worauf Hart ihm geantwortet hätte: »An dem arbeitet ein anderes Team. Das hier ist was viel Interessanteres.«

Einer der ersten Ausgewählten war der hauseigene Ingenieur Al Lindsay, der an der ursprünglichen Software für die sprachgesteuerte Telefonauskunft von US West mitgearbeitet hatte. Lindsay verbrachte die ersten drei Wochen des Projekts in seiner Ferienhütte in Kanada, wo er in einem sechsseitigen Narrativ schilderte, wie externe Entwickler ihre eigenen sprachgesteuerten Apps für das Gerät schreiben könnten. Ein anderer Mitarbeiter aus den eigenen Reihen war der Amazon-Manager John Thimsen, der zum Leiter der technischen Entwicklung gemacht wurde und der Initiative den offiziellen Decknamen »Doppler« gab, nach Projekt D. »Also, wenn ich mal ehrlich sein will, ich glaube nicht, dass anfangs auch nur einer an den Erfolg geglaubt hat«, sagte mir Thimsen. »Aber auf halbem Weg waren wir dann dank Greg alle zu Gläubigen geworden.«

Die ursprüngliche Crew machte sich, der Ungeduld des Chefs Rechnung tragend, mit fieberhafter Dringlichkeit ans Werk. So unrealistisch das war, Bezos wollte mit seinem Gerät in sechs bis zwölf Monaten auf den Markt. Er hatte guten Grund für seine Eile. Am 4. Oktober 2011, das Doppler-Team hatte sich eben eingearbeitet, stellte Apple mit iPhone 4S eine virtuelle Assistentin vor: Siri. Es war das letzte Herzensprojekt des Apple-Mitgründers Steve Jobs, der tags darauf seinem Krebsleiden erlag. Dass Apple, damals wieder im Aufschwung, ebenfalls die Idee für einen sprachgesteuerten Assistenten gehabt hatte, gab Hart und seinen Leuten zwar recht, war aber gleichzeitig auch entmutigend, da Siri, wenn auch zunächst mit gemischten Bewertungen, die Erste auf dem Markt war. Das Team bei Amazon versuchte, sich Mut zuzusprechen, indem man sich sagte, dass man mit Doppler etwas Einzigartiges, weil vom Smartphone Unabhängiges schuf. Ein noch wichtigeres Unterscheidungsmerkmal freilich war, dass Siri künftig ohne Steve Jobs’ aktive Unterstützung würde auskommen müssen, während Alexa sich der von Bezos und einer nachgerade manischen Aufmerksamkeit im ganzen Unternehmen erfreute.

Zur Beschleunigung der Entwicklung und um den Zielen ihres CEO nachzukommen, begannen Hart und seine Crew sich nach Start-ups zum Aufkaufen umzusehen. Diese Aufgabe war alles andere als einfach. Der Bostoner Sprachgigant Nuance, dessen Technologie Apple für Siri in Lizenz gekauft hatte, war im Lauf der Jahre durch den Aufkauf der Top-Riege unter den amerikanischen Sprachsoftwareunternehmen gewachsen. Die Doppler-Executives versuchten in Erfahrung zu bringen, welche der verbliebenen Start-ups vielversprechend waren, indem sie potenzielle Kandidaten baten, ihnen den Titelkatalog des Kindle mit einer Sprachsteuerung zu versehen, um sich dann ihre Ergebnisse und Methoden anzusehen. Die Suche führte in den nächsten beiden Jahren in rasanter Folge zu einer Reihe von Akquisitionen, die letztlich für Alexas Gehirn und sogar für das Timbre ihrer Stimme verantwortlich waren.

Das erste Unternehmen, das Amazon kaufte, war Yap, ein Start-up mit einer Belegschaft von gerade mal zwanzig Leuten in Charlotte, North Carolina. Hier übersetzte man menschliche Sprache – wie etwa Voicemails – in Text, ohne auf ein geheim gehaltenes Heer menschlicher Transkriptoren in Niedriglohnländern angewiesen zu sein. Obwohl später so einiges von Yaps Technologie auf der Strecke blieb, sollten seine Ingenieure zur Entwicklung der Technologie beitragen, die alles, was die Kundschaft zu Doppler sagte, in ein maschinenlesbares Format übertrug. Während des langen Werbens um die Firma setzten Amazons Executives Yaps Geschäftsleitung arg zu mit ihrer Geheimhaltung dessen, worum es bei dem Projekt denn nun ging. Selbst als Al Lindsay eine Woche nach Abschluss des Deals mit Yaps Ingenieuren zu einer Fachtagung ins italienische Florenz reiste, bestand er darauf, dass sie so tun sollten, als würden sie ihn nicht kennen, damit niemand Amazons plötzliches Interesse an Sprachtechnologie mitbekam.

Nachdem der Kauf für rund 25 Millionen Dollar unter Dach und Fach gebracht war, entließ Amazon die Unternehmensgründer, behielt aber die sprechwissenschaftliche Gruppe in Cambridge, Massachusetts, und legte damit das Fundament zu einem neuen F&E-Ableger am Kendall Square, ganz in der Nähe des MIT. Die Ingenieure von Yap flogen schließlich nach Seattle und sa ß en dann im Erdgeschoss von Fiona in einem Konferenzraum mit zugezogenen Jalousien und verschlossenen Türen. Dort beschrieb ihnen Greg Hart »dieses kleine Gerät, etwa von der Größe einer Cola-Dose, das zu Hause auf dem Tisch stehen sollte und dem man in natürlicher Sprache Fragen stellen könnte, ein intelligenter Assistent sozusagen«, erinnerte sich der Vice President für Forschung von Yap, Jeff Adams, der auf zwanzig Jahre in der Spracherkennungsbranche zurückblicken kann. »Die Hälfte meines Teams verdrehte die Augen und meinte: ›Ach du meine Güte, worauf haben wir uns da eingelassen?‹«

Nach dem Meeting versuchte Adams Hart und Lindsay vorsichtig beizubringen, wie unrealistisch ihre Vorstellungen seien. Die meisten Fachleute waren sich darin einig, dass »Fernfeld-Spracherkennung«, das heißt, Sprache aus einer Entfernung von bis zu zehn Metern zu erkennen, womöglich auch noch bei Stimmengewirr und Hintergrundgeräuschen, die Möglichkeiten der etablierten Informatik weit überstieg. Töne würden von Oberflächen wie Wänden und Decken reflektiert, und die dabei entstehenden Echos würden einen Computer verwirren. Amazons Executives reagierten mit Bezos’ Entschlossenheit. »Im Grunde sagten die mir: ›Ist uns egal. Stellt mehr Leute ein. Nehmt euch die Zeit, die ihr braucht. Löst das Problem‹«, erinnerte sich Adams. »Die waren unerschütterlich.«

Einige Monate nach dem Ankauf von Yap erwarben Greg Hart und Kollegen ein weiteres Teil des Doppler-Puzzles. Technisch gesehen handelte es sich dabei um das Gegenstück zu Yap, wo man Sprache in Text übersetzte. Stattdessen beschäftigte sich das polnische Start-up Ivona mit computergenerierter Sprache, die der menschlichen Stimme zum Verwechseln ähnlich war.

Ivona war 2001 von Lukasz Osowski gegründet worden, einem Informatikstudenten der Technischen Hochschule Danzig. Osowskis Auffassung nach könnte eine sogenannte »Text-to-Speech«-Engine digitale Texte mit einer natürlichen Stimme vorlesen und so sehbehinderten Polen das geschriebene Wort nahebringen. Zusammen mit Michal Kaszczuk, einem etwas jüngeren Studienkollegen, zerlegte er Tonaufnahmen von Texten, die von Schauspielern eingesprochen worden waren, in – als Diphone bezeichnete – Wortfragmente, um sie dann in unterschiedlichen Kombinationen zu verketten (»konkatenieren«); heraus kamen dabei annähernd natürlich klingende Wörter und Sätze, die der Schauspieler nie von sich gegeben hatte.

Die Gründer von Ivona bekamen bald einen ersten Eindruck von der Macht ihrer Technologie. Noch als Studenten bezahlten sie den beliebten polnischen Schauspieler Jacek Labijak dafür, stundenlang Texte zu sprechen, die sie aufzeichneten, um eine Datenbank aus Lauten beziehungsweise ein Diphon-Inventar aufzubauen. Ergebnis ihrer Mühe war ein erstes Produkt, Spiker, das sich rasch zu Polens meistverkaufter Computerstimme mauserte. Im Lauf der nächsten Jahre setzte man sie in U-Bahnen, Aufzügen und für automatisierte Telefonkampagnen ein. Labijak hörte sich bald überall und erhielt sogar regelmäßig Anrufe mit seiner eigenen Stimme, in denen er sich zum Beispiel aufgefordert sah, bei anstehenden Wahlen einen bestimmten Kandidaten zu wählen. Spaßvögel manipulierten die Software, um ihm allerhand ungebührliches Zeug in den Mund zu legen, und stellten die Clips online, wo seine Kinder sie dann entdeckten. Ivonas Gründer mussten daraufhin den Vertrag mit dem Schauspieler neu verhandeln, nachdem er ihnen erbost die Rechte an seiner Stimme zu entziehen versuchte. 7 (Noch heute ist »Jacek« eine der polnischen Stimmen im Angebot von Amazon Polly, einem Service von AWS, der gedruckte Texte in Audio konvertiert.)

Ab 2006 nahm Ivona an der jährlichen Blizzard Challenge teil, einem von der Carnegie Mellon University veranstalteten Wettbewerb für die natürlichste Computerstimme, den das Unternehmen wiederholt gewann. Bis 2012 brachte Ivona es auf zwanzig weitere Sprachen und hatte über vierzig Stimmen im Programm. Nachdem sie von dem Start-up erfahren hatten, machten Greg Hart und Al Lindsay auf ihrem Europatrip auf der Suche nach brauchbaren Firmen einen Abstecher nach Danzig. »Schon beim ersten Schritt in ihr Büro war uns klar, dass das ein Culture Fit war«, sagte Lindsay und verwies damit auf Ivonas Fortschritte auf einem Gebiet, in dem die Forschung sich gern mal von hehren Bestrebungen ablenken lässt. »Sie hatten genug Biss, um die Scheuklappen der Wissenschaft abzunehmen und über die akademische Welt hinauszublicken.«

Den Ankauf der Firma – für rund 30 Millionen Dollar – brachte man bereits 2012 unter Dach und Fach, hielt ihn aber ein ganzes Jahr lang geheim. Das Team von Ivona und die wachsende Zahl von Sprachingenieuren, die Amazon darüber hinaus noch für sein neues Danziger F&E-Zentrum einstellen sollte, waren allein mit der Entwicklung von Dopplers Stimme betraut. Die Leitung des Projekts übernahm Bezos persönlich und kümmerte sich darum bis ins letzte Detail. Was auch bedeutete, dass sich die Danziger seinen üblichen Eigenheiten und Schrullen ausgesetzt sahen.

Zuerst sagte Bezos, er wolle Dutzende eindeutig voneinander zu unterscheidende Stimmen aus dem Gerät hören, jede mit ihrer eigenen Bestimmung beziehungsweise Aufgabe. Als sich das als impraktikabel erwies, überlegte das Team, ob man nicht einer bestimmten Persönlichkeit eine Liste von Eigenschaften – wie etwa Vertrauenswürdigkeit, Empathie und Wärme – zueignen könnte, und kam dann zu dem Schluss, dass man derlei Züge im Allgemeinen mit einer Frauenstimme verband.

Zur Entwicklung einer solchen Stimme und um sicherzugehen, dass ihr auch nicht der Hauch eines regionalen Akzents anhaftete, arbeitete das polnische Team mit GM Voices, einem in Atlanta, Georgia, beheimateten Synchronstudio, das bereits dabei mitgewirkt hatte, die Stimme der Synchronsprecherin Susan Bennett in Apples Assistentin Siri zu verwandeln. Zur Entwicklung der synthetischen Persönlichkeiten gab GM Voices mehreren Synchronsprecherinnen Hunderte von Stunden Text zu lesen, von ganzen Büchern bis hin zu willkürlich ausgewählten Artikeln, eine stupide Prozedur, die sich über Monate hinziehen konnte.

Greg Hart und seine Kollegen verbrachten ihrerseits Monate damit, die von GM Voice besorgten Tonaufnahmen durchzugehen, und legten ihre Topkandidaten dann Bezos vor. Wiederum wählte man die Besten aus und bat um weitere Beispiele, bis es endlich zu einer Entscheidung kam, die Bezos unterschrieb.

In der für das Unternehmen typischen Geheimniskrämerei gab Amazon den Namen der Synchronsprecherin hinter Alexa nie bekannt. Ich kam ihr durch systematisches Durchforsten des Pools an professionellen Synchronsprechern auf die Spur; es handelt sich um die Sängerin und Synchronsprecherin Nina Rolle aus Boulder, Colorado. Auf ihrer Website fand ich Links zu alten Radiospots für diverse Produkte wie Mott’s Apple Juice und den VW Passat. Das warme Timbre von Alexas Stimme war unverkennbar. Rolle sagte, sie dürfe nicht mit mir sprechen, als ich sie schließlich im Februar 2021 telefonisch erreichte. Und als ich bei Amazon selbst nachfragte, wies man mich ab.

Während das Doppler-Team noch mit der Einstellung von Ingenieuren und dem Aufkauf von Start-ups beschäftigt war, wurde bei Amazon in Seattle sowie im Lab126 im Silicon Valley jeder andere Aspekt des Produkts heiß diskutiert. In einem der ersten Doppler-Meetings hob Hart die Fähigkeit der Musikwiedergabe per Sprachbefehl als wesentliches Feature des neuen Produkts heraus. Bezos »nickte dieses Rahmenkonzept ab, betonte aber auch, dass selbst wenn wir Musik mit 51 Prozent ansetzten, auch die anderen 49 Prozent wirklich wichtig wären«, sagte Hart.

In den folgenden Monaten freilich wurde aus dem freundschaftlichen Konsens ein langwieriges Tauziehen zwischen Hart und seinen Ingenieuren auf der einen Seite, die in der Musikwiedergabe ein so praktikables wie marktfähiges Feature sahen, und Bezos auf der anderen, der in weit größeren Dimensionen dachte. Bezos begann vom » Star-Trek -Computer« zu sprechen, einer künstlichen Intelligenz, die auf jede Frage eine Antwort hätte und obendrein als persönlicher Assistent bei der Hand wäre. Um auszudrücken, wonach Bezos war, sprach das Team schließlich intern von einem »Generalbevollmächtigten«: einem Assistenten mit Handlungsvollmacht, der im Namen seiner Nutzer sowohl ein Taxi rufen als auch eine Bestellung im Lebensmittelmarkt aufgeben könnte. Von Science-Fiction besessen, wie er nun mal war, zwang Bezos sein Team, größer zu denken, über die Grenzen der etablierten Technologie hinaus. Hart jedoch, dem es letztlich oblag, das Produkt auch tatsächlich unter die Leute zu bringen, sprach sich für eine Reihe von Merkmalen aus, die er als »magisch und alltäglich « bezeichnete. Entsprechend drängte er darauf, die grundlegenden, zuverlässigen Features hervorzuheben – dass das Gerät den Wetterbericht parat hätte und sich als Timer und Erinnerungsassistent nutzen ließ.

Die Debatte manifestierte sich in endlosen Entwürfen der »PR-FAQ«, des sechsseitigen Narrativs, das Amazonianer zu Beginn einer neuen Initiative in Form einer Presseverlautbarung darüber verfassen, wie sie sich die Marktwirkung des Produkts vorstellen. Dieses Referat, das Teil des festgeschriebenen Rituals um jede Innovation bei Amazon ist, zwingt sie, jedes Gespräch über ein neues Produkt unter dem Aspekt des Kundennutzens anzugehen. Im Fall des Doppler-Projekts erfuhr diese PR-FAQ Dutzende von Überarbeitungen, die allesamt vorgelegt, diskutiert, überschlafen, mit ins Bett genommen und umgeschrieben wurden, bevor man sie dann verwarf. Wann immer diese Presseverlautbarung sich auf die Musikwiedergabe zu kaprizieren drohte, »konnte Jeff schon mal der Kragen platzen. Das schmeckte ihm ganz und gar nicht«, erinnerte sich einer der ersten Produktleiter.

Ein anderer aus den ersten Tagen des Doppler-Projekts spekulierte später, dass bei Bezos’ Reaktion womöglich sein berüchtigter Mangel an Sinn für gute Musik eine Rolle spielte. So verlangte Bezos zum Beispiel bei einem der frühen Tests eines Doppler, die Titelmelodie der klassischen TV-Serie Battlestar Galactica zu hören. 8 »Jeff setzte wirklich alles daran, damit es bei dem Produkt um mehr als nur um Musik ging«, sagte Greg Harts Vorgesetzter Ian Freed. »Ihm war eher nach was in Richtung eines Computers ganz allgemein.«

Eine ähnliche Diskussion drehte sich um die Wahl des »Weckbefehls«, einer Äußerung des Benutzers, die Doppler aus dem passiven Modus holte, in dem er nur auf seinen Namen lauschte. Erst nach dieser Aktivierung sollte das Gerät die Anfragen des Benutzers über das Internet an Amazons Server weiterleiten und dann deren Antwort wiedergeben. Die Sprechwissenschaftler wollten, dass der Weckbefehl aus einer eindeutigen Kombination von Phonemen und mindestens drei Silben bestand, damit das Gerät nicht durch ein normales Gespräch eingeschaltet würde. Darüber hinaus sollte es etwas ganz Markantes sein (wie »Siri«), damit sich mit dem Namen auch werben ließ. Hart und sein Team legten Bezos Hunderte von Flashcards vor, jede mit einem anderen Namen, die er dann während der endlosen Beratungen auf den Konferenztischen ausbreitete.

Bezos meinte, der Weckbefehl sollte etwas »Einschmeichelndes« haben, und sagte dann, der Name seiner Mutter zum Beispiel – »Jacklyn« – sei »zu hart«. Zu den anderen eigenen Vorschlägen, die er selbst gleich wieder verwarf, gehörten »Finch«, der Titel eines fantastischen Detektivromans von Jeff VanderMeer; »Friday«, nach dem »persönlichen Assistenten« in Daniel Defoes Robinson Crusoe ; und »Samantha«, die Hexe aus der TV-Serie Bewitched , die nur mit der Nase zu wackeln brauchte, schon war jeder Wunsch erfüllt. Eine Zeit lang fand er, dass der Weckbefehl »Amazon« lauten sollte – damit, so meinte er, würde das von dem Gerät erzeugte gute Gefühl auf das Unternehmen abstrahlen.

Die Doppler-Executives hielten dagegen, die Leute würden nie und nimmer zu Hause mit einer Firma sprechen wollen, was wieder zu endlosen Meinungsverschiedenheiten führte. Bezos schlug schließlich auch »Alexa« vor, als Hommage an die Bibliothek im antiken Alexandria, die als Hauptstadt des damaligen Wissens galt. Es war dies auch der Name eines mit dem Projekt in keinerlei Beziehung stehenden Start-ups, das Amazon in den Neunzigerjahren aufgekauft hatte und das als unabhängige Firma Handel mit Daten zum Web-Traffic betreibt. Nach endlosen Debatten und Tests im Labor waren schließlich »Alexa« und »Amazon« als Topkandidaten für den Weckbefehl übrig geblieben, als das Gerät Anfang 2013 zum internen Probebetrieb in die Wohnzimmer von Unternehmensmitarbeitern einzog.

Die Geräte, die man den Mitarbeitern mitgab, sahen dem ersten Echo, den Amazon knapp zwei Jahre später herausbringen sollte, zum Verwechseln ähnlich. Die Produktgestalter im Lab126 hatten es »Pringles-Dose« getauft: ein länglicher Zylinder, der für ausreichende Trennung zwischen den sieben Mikrofonen mit kugelförmiger Richtcharakteristik und den Lautsprechern sorgt, das Ganze in einem Metallgehäuse mit 1400 Löchern für Luft und Sound. Oben hatte das Gerät, ebenfalls eine von Bezos’ Ideen, einen Ring aus LEDs, die auf der Seite der Person aufleuchteten, die gerade sprach. Letzteres sollte den Blick eines Gegenübers suggerieren, der sich auf einen Gesprächspartner richtet. Da Bezos die Designer angewiesen hatte, sich die Form von der Funktion diktieren zu lassen, war Doppler nicht gerade ein Ausbund von Eleganz.

Die Doppler-Prototypen im Wohnzimmer Hunderter von Amazon-Mitarbeitern waren freilich nicht »smart« – allem Vernehmen nach waren sie so langsam wie dumm. Neil Ackerman, einer der Amazon-Manager, die sich zum Test eines internen Betamodells gemeldet hatten, führte das Gerät Anfang 2013 seiner Familie vor. Er und seine Frau mussten gleich mehrere Verschwiegenheitserklärungen unterschreiben, in denen sie versicherten, das Gerät abzuschalten und verschwinden zu lassen, wann immer Besuch vorbeikam. Einmal die Woche mussten sie eine Tabelle mit Fragen ausfüllen und eintragen, was sie das Gerät gefragt hatten und wie die Reaktion darauf war. Ackermans Frau nannte es »das Ding«.

»Wir waren beide ziemlich skeptisch«, sagte er. »Wir bekamen so gut wie nie die richtige Antwort, und die Musik, die aus dem Ding rauskam, war eher gemischt und sicher nicht nach dem Geschmack der Familie.« Unerklärlicherweise schien Doppler ihren Sohn – trotz seiner Sprachbehinderung – am besten zu verstehen.

Auch andere frühe Betatester hielten mit ihrer Meinung nicht hinterm Berg. Parag Garg, einer der ersten Ingenieure, die an Fire TV arbeiteten, nahm ebenfalls ein Gerät mit nach Hause und sagte: »Es funktionierte beschissen und fehlte mir ganz und gar nicht, als es wieder aus dem Haus war. Ich dachte mir, das Teil hat ja wohl nicht die geringste Chance.« Einer der anderen Fire-Phone-Manager erinnerte sich, dass ihm die Hardware gefiel, »aber ich sah echt nicht, wozu es gut sein sollte. Als Produkt fand ich das Ding bescheuert. «

Zwei Doppler-Ingenieure erinnerten sich an eine andere grauenhafte Rezension – diese von Bezos selbst. Der CEO hatte offenbar ebenfalls eine Alexa zu Testzwecken mit nach Hause genommen und ihr irgendwann gesagt: »Jag dir doch eine Kugel in den Kopf.« Einer der Ingenieure, die mit der Durchsicht der Interaktionen mit dem Gerät befasst waren, sagte dazu: »Wir dachten alle, damit ist das Projekt wohl gestorben – oder jedenfalls ein paar von uns bei Amazon.«

Alexa, so viel stand fest, brauchte eine Gehirntransplantation. Amazons anhaltende Bemühungen, das Produkt intelligenter zu machen, sollten zu einer dogmatischen Schlacht im Doppler-Team führen und damit zur größten Herausforderung überhaupt.

Ihr erster Schritt bestand darin, die Technologie einer dritten Akquisition – Evi – zu integrieren. Das im englischen Cambridge beheimatete und mit künstlicher Intelligenz befasste Start-up war 2005 von dem britischen Unternehmer William Tunstall-Pedoe auf der Basis eines auf Fragen und Antworten spezialisierten Tools namens True Knowledge gegründet worden. Als Student hatte Tunstall-Pedoe Websites entwickelt wie zum Beispiel den Anagram Genius, eine Software, die Wörter automatisch so arrangierte, dass ein neues Wort oder ein neuer Satz entstand. Der Schriftsteller Dan Brown schuf damit später einige der Rätsel für seinen Roman The Da Vinci Code .

Durch Siri inspiriert, verlagerte Tunstall-Pedoe seine Bemühungen und arbeitete Evi zu einer App für Apple und Android um. User konnten ihr durch Tippen oder Audioeingaben Fragen stellen. Anstatt das Web nach Antworten zu durchforsten wie Siri oder wie Google Voice Search einen Satz Links zu zeigen, wertete Evi die Fragen aus und versuchte sich auf der Stelle an einer Antwort. Die App hatte bereits in der ersten Wochen 250.000 Downloads und führte um ein Haar zum Crash des App-Store-Servers. 9 Apple drohte schließlich damit, sie aus seinem iOS-Store zu verbannen, weil sie dem Unternehmen Siri »verwirrend ähnlich« schien, lenkte dann aber aufgrund von Protesten der Fans ein. Dank der Aufmerksamkeit hatte Evi mindestens zwei Übernahmeangebote und eine potenzielle Investition von einem Risikokapitalgeber, als Amazon 2012 für 26 Millionen Dollar, so munkelte man, den Zuschlag bekam. 10

Evi arbeitete mit einer als Knowledge Graph bezeichneten Technik, einer riesigen Datenbank von sogenannten Ontologien, in denen Konzepte und Kategorien aus bestimmten verwandten Umfeldern miteinander verbunden sind. Wenn man Evi zum Beispiel fragte: »Wie viele Einwohner hat Cleveland?«, dann interpretierte die Software die Frage und wusste, dass sie sich zu ihrer Beantwortung mit einer Quelle für demografische Daten kurzschließen musste. Wired bezeichnete die Technik als »riesige baumartige Struktur« logischer Verknüpfungen mit nützlichen Fakten. 11

Alexa Evis Wissensbank zu verpassen half bei der Art von informellem, aber kulturell allgemein üblichem Austausch, bei dem der soziale Kontakt im Vordergrund steht und der in der Linguistik als »phatische Kommunikation« bezeichnet wird. Fragte zum Beispiel ein Benutzer das Gerät: »Guten Morgen, Alexa, wie geht es dir?«, dann war Alexa in der Lage, für die richtigen Verknüpfungen zu sorgen, und kam so auf eine Antwort. Tunstall-Pedoe erzählte, er hätte sich mit den Kollegen in den USA in die Wolle gekriegt wegen der etwas ungewöhnlichen Idee, Alexa auf eine derart zwischenmenschliche Ansprache reagieren zu lassen. Wie er sich erinnert, war den Leuten »nicht recht wohl bei dem Gedanken, eine Maschine darauf zu programmieren, auf ein ›Hallo‹ zu reagieren«.

Wie auch immer, Evis Technologie half Alexa, auf Sachfragen zu antworten, wie etwa auf die Frage nach den Namen der Planeten in unserem Sonnensystem. Und sie vermittelte den Eindruck, Alexa sei »smart«. Aber war sie das? Vertreter einer anderen, als Deep Learning bezeichneten Methode natürlichen Sprachverstehens waren der Ansicht, dass Evis Knowledge Graphs Alexa nicht zu jener authentischen Intelligenz verhelfen würde, die Bezos’ Traum von einem vielseitigen Assistenten entsprach, der sich sowohl mit dem Benutzer unterhalten als auch jede nur erdenkliche Frage beantworten könnte.

Bei der Deep-Learning-Methode werden Maschinen mit immensen Datenmengen darüber gefüttert, wie Menschen sich unterhalten und welche Antworten sie als befriedigend empfinden; dann programmiert man sie darauf, sich selbst beizubringen, die besten Antworten vorauszusehen. Wesentlicher Vertreter dieses Ansatzes ist der gebürtige Inder Rohit Prasad. »Ihn einzustellen war ein entscheidender Zugewinn«, sagte der technische Leiter John Thimsen. »Dass das Projekt erfolgreich war, verdanken wir zu einem Gutteil dem Team, das er zusammengestellt hat, und der Forschung, die sie bei der Fernfeld-Spracherkennung geleistet haben.«

Prasad kommt aus Ranchi, der Hauptstadt des indischen Bundesstaats Jharkhand. Er ist in einer Familie von Ingenieuren groß geworden und hat sich schon als Kind in Star Trek verguckt. Obwohl Personal Computer in Indien damals Mangelware waren, lernte er das Programmieren schon in jungen Jahren auf dem PC einer technischen, auf Metallurgie spezialisierten Beraterfirma, bei der sein Vater angestellt war. Da die Kommunikation in Indien durch eine unzureichende Telekommunikationsinfrastruktur und hohe Kosten für Fernverbindungen behindert wurde, beschloss Prasad, als er schließlich zum Studium in die USA ging, sich mit der Komprimierung von Sprache und deren Übertragung in WLAN-Netzwerken zu befassen.

Nach seinem Abschluss Ende 1990 ließ Prasad den Dot.com-Boom außen vor und ging stattdessen zu BBN Technologies, einem später von Raytheon übernommenen Rüstungsbetrieb in Cambridge, Massachusetts, wo er an der Arbeit an einem der ersten Spracherkennungs- und natürlichen Sprachsysteme beteiligt war. Die Entwicklung eines der ersten Spracherkennungssysteme für Kraftfahrzeuge sowie automatisierte Auskunftsdienste für Telefonanbieter gehörten dabei zu seinem Tätigkeitsbereich. 2000 arbeitete er dann an einem System für die automatische Transkription von Gerichtsverhandlungen. Über das Problem, Gespräche mittels mehrerer im Gerichtssaal verteilter Mikrofone aufzuzeichnen, kam er auf die Herausforderungen der Fernfeld-Spracherkennung. Zu Beginn des Projekts, so erzählte er, hätte man 80 von 100 Wörtern fehlerhaft aufgezeichnet; aber binnen eines Jahres habe man diese Fehlerquote auf 33 reduziert.

Jahre später, als das Doppler-Team an Alexas »Verständnisproblemen« arbeitete, machte Bill Barton, der Chef von Amazons Bostoner Dependance, Prasad mit Greg Hart bekannt. Prasad wusste nicht viel über Amazon und kreuzte – ein kleiner Fauxpas – zu dem Vorstellungsgespräch nicht nur in Anzug und Krawatte auf, sondern auch ohne eine Ahnung von Amazons vierzehn Führungsprinzipien zu haben, was schon ein schlimmerer Verstoß war. Er brachte seine Vorbehalte gegen den Einstieg bei einem großen, trägen Tech-Unternehmen zum Ausdruck, aber er war eben wieder in sein Hotel zurückgekommen, da hakte Hart bereits mit einer Textnachricht nach, in der er ihm versicherte: »Wir sind im Grunde ein Start-up. Wir sind zwar ein großes Unternehmen, handeln aber nicht so.«

Das überzeugte Prasad, und er stieg in das Team ein, um an den Problemen der Fernfeld-Spracherkennung zu arbeiten, wurde aber dann zum Anwalt des Deep-Learning-Modells. Evis Knowledge Graphs waren einfach zu stark reglementiert, um als Fundament für Alexas Reaktionsmodell herzuhalten. Wenn ein Benutzer sagte: »Play me music by Sting«, so erklärte Prasad später, dann denke so ein System womöglich, er hätte sich mit einem »bye« von Sting verabschieden wollen, und sei entsprechend verwirrt. Mithilfe der statistischen Trainingsmethoden des Deep Learning kann das System rasch ermitteln, dass sich hinter dem Satz mit an Sicherheit grenzender Wahrscheinlichkeit der Wunsch verbirgt, »Every Breath You Take« zu hören.

Tunstall-Pedoe dagegen führte ins Feld, dass Evis Knowledge Graphs eine praktischere Lösung darstelle. Er misstraute dem Deep-Learning-Ansatz. Seiner Ansicht nach neigte dieser zu Fehlern und bedürfe einer endlosen Zufuhr von Trainingsdaten zur Ausformung von Alexas Lernmodellen. »Die Sache mit auf das Maschinenlernen fixierten Wissenschaftlern ist die, dass sie nie zugeben, wenn sie geschlagen sind, da all ihre Problemen mit immer mehr Daten zu lösen sind«, erklärte er. In seiner Antwort klingt womöglich eine gewisse Enttäuschung mit, denn für den Über-Produktmanager Bezos bestand kein Zweifel daran, in welche Richtung der Pfeil der Zeit wies: in die des Maschinenlernens und der Tiefen Neuronalen Netze. Mit den riesigen, hoch entwickelten Datenzentren von AWS war Amazon überdies in der einzigartigen Position, eine große Zahl von Hochleistungsrechnern zum Trainieren seiner Sprachmodelle einzuspannen, womit sich der Vorteil der Cloud auf eine Weise nutzen ließ, wie das nur wenigen seiner Konkurrenten möglich war. 12 Tunstall-Pedoe gab sich schließlich geschlagen und schied 2016 aus dem Unternehmen aus.

Aber auch wenn nun der Deep-Learning-Ansatz das Rennen gemacht hatte, so blieb Prasad und seinen Kollegen dennoch das Paradox, dem alle mit künstlicher Intelligenz befassten Unternehmen gegenüberstehen: Wer will schon mit einem »dummen« System auf den Markt? Die Kunden würden es nicht benutzen, sodass es auch nicht genügend Daten generieren könnte, um seine Nützlichkeit zu verbessern. Und man würde eine ungeheure Menge Daten benötigen, wenn das System wirklich smarter werden sollte.

Google und Apple lösten das Paradox teils damit, dass sie in Lizenz Technologie von Nuance Communications übernahmen, um mit deren Ergebnissen ihre eigenen Sprachmodelle zu trainieren; danach trennten sie sich von Nuance. Außerdem sammelte Google jahrelang Sprachdaten aus seiner gebührenfreien Telefonauskunft 800-Goog-411. Amazon standen solche Ressourcen nicht zur Verfügung, und Greg Hart sprach sich strikt gegen eine Lizenzierung externer Technologie aus; seiner Ansicht nach würde darunter auf lange Sicht die Flexibilität des Unternehmens leiden. Aber die spärlichen Trainingsdaten aus den Betatests mit den eigenen Mitarbeitern liefen summa summarum auf die sprachlichen Äußerungen einiger Hundert gebildeter Angestellter hinaus, die sie für gewöhnlich morgens und abends quer durch ein lärmiges Zimmer riefen, wenn sie nicht in der Arbeit waren. Die Daten waren mit anderen Worten lausig und reichten nicht aus.

Bezos scharrte inzwischen mit den Hufen. »Wie wollen wir denn dann überhaupt wissen, ob das Produkt was taugt?«, fragte er im Frühjahr 2013 immer wieder. Hart, Prasad und ihr Team zeigten ihm Hochrechnungen, welche Fortschritte Alexa mit steigender Datenmenge machen würde. Mathematisch gesehen, würde man beim Sammeln von Daten seine Bemühungen in etwa verdoppeln müssen für je 3 Prozent Fortschritt bei Alexas Genauigkeit.

In diesem Frühjahr legte das Team, nur wenige Wochen nach Rohit Prasads Einstieg, Bezos ein sechsseitiges Narrativ mit besagten Fakten vor, in dem es eine Verdoppelung des sprechwissenschaftlichen Teams und die Verschiebung der geplanten Produktpräsentation vom Sommer auf den Herbst vorschlug. Das Meeting, das in Bezos’ Konferenzraum stattfand, verlief alles andere als erfreulich.

»Ihr geht das falsch an«, sagte Bezos nach Lektüre des Narrativs. »Sagt mir erst, wie ein magisches Produkt aussehen würde, dann könnt ihr mir sagen, wie es zu machen ist.«

Bezos’ damaliger Technischer Berater, Dilip Kumar, wollte daraufhin wissen, ob das Unternehmen über genügend Sprachdaten verfüge.

Prasad, der dem Meeting von Cambridge aus beiwohnte, antwortete, man brauche Tausende weitere Stunden komplexer sprachlicher Fernfeld-Befehle. Einem der Executives zufolge, die damals mit dabei waren, hatte Bezos das Ersuchen um Aufstockung des sprechwissenschaftlichen Teams in seine Rechnungen miteinbezogen, als er einige Augenblicke später sagte: »Versteh ich das richtig: Ihr sagt mir, dass wir für ein erfolgreiches Produkt statt vierzig nur zwanzig Jahre brauchen, wenn ich eurem Antrag stattgebe?«

Prasad versuchte erst, darum herumzureden: »Jeff, so haben wir das nicht gemeint.«

»Zeigt mir, wo ich mich verrechnet habe!«, sagte Bezos.

Hart ging dazwischen: »Moment mal, Jeff, wir verstehen ja, wir haben’s kapiert.«

Prasad und andere Amazon-Executives sollten dieses Meeting – und die problematischen Interaktionen mit Bezos während Alexas Anfangsschwierigkeiten – unterschiedlich in Erinnerung behalten. Aber einem der Executives zufolge, die damals mit dabei waren, stand ihr CEO auf und meinte: »Euch ist es nicht wirklich ernst mit diesem Produkt.« Womit das Meeting zu Ende war.

In denselben Gebäuden in Seattle und im kalifornischen Sunnyvale, in denen das Doppler-Team Alexa gescheiter zu machen versuchte, torkelten Amazons Bemühungen um ein eigenes Smartphone langsam, aber sicher gegen die Wand.

Einige Jahre zuvor hatten Apple, Google und Samsung große Claims im eben aufkommenden Smartphone-Markt abgesteckt, dabei aber für den Eindruck gesorgt, dass womöglich noch Platz für innovative Newcomer war. Wie es Bezos’ Art war, hatte er nicht die Absicht, eine kritische strategische Position im digitalen Bereich anderen zu überlassen, schon gar nicht, wenn er der Ansicht war, der Boden sei noch fruchtbar genug für innovative Ansätze. So schlug er einmal in einer Brainstorming-Session einen Roboter vor, der in der Lage wäre, ein achtlos abgelegtes Handy aufzuspüren und in Reichweite eines drahtlosen Ladegeräts zu bringen. (Einige seiner Leute hielten das für einen Scherz, aber man reichte ein Patent für die Idee ein. 13 ) In einer anderen schlug er ein Telefon mit einer Art SciFi-3-D-Display vor, das auf Gesten in der Luft statt wie ein Touchscreen nur auf Berührungen reagiert. Es würde in allen Läden seinesgleichen suchen. Bezos hielt an der Idee fest, die auch den Keim des Fire-Phone-Projekts bildete.

Das erste Designteam einigte sich auf ein Handy mit vier Infrarotkameras, eine in jeder Ecke auf der Vorderseite des Geräts, die dem Blick des Benutzers folgen und die Illusion eines 3-D-Bilds schaffen sollten; eine fünfte Kamera war für die Rückseite gedacht. Da das Gerät nach vorne und hinten »sehen« könnte, gab man dem Projekt den Codenamen Tyto (Schleiereule). Die speziell in Japan gefertigten Kameras würden 5 Dollar pro Handy kosten, aber Bezos hatte sich nun mal ein Amazon-Smartphone mit Spitzenkomponenten in den Kopf gesetzt.

Drei Jahre lang konferierte Bezos alle paar Tage mit dem Tyto-Team, während er sich nicht weniger oft mit dem Alexa-Team traf; er war nun mal vernarrt in neue Technologien und Geschäftsbereiche. Außerdem stellte er gern Ideen in den Raum und überprüfte die Fortschritte des Teams. Und auch wenn er in anderen Geschäftsbereichen seines Unternehmens übermäßig auf das Feedback der Kundschaft fixiert war, glaubte Bezos nicht, dass es zu dramatischen Neuerungen in seiner Produktpalette führen würde, auf sie hören. Stattdessen predigte er das kreative »Wandern«, das seiner Überzeugung nach zu dramatischen Durchbrüchen führte. »Wirklich spektakulär wird immer das sein, wonach die Kundschaft noch nicht mal zu fragen wusste«, sollte er später in einem Aktionärsbrief schreiben. »Deswegen müssen wir uns Neues einfallen lassen. Dazu müssen wir in den Tiefen unserer Fantasie nach dem Möglichen graben.« 14

Allerdings mochte so mancher Skeptiker aus dem Tyto-Team seine Vision für Smartphones nicht teilen. Keiner hätte sagen können, ob das 3-D-Display womöglich nichts weiter als ein akkuintensives Gimmick war. Bezos hatte nachweislich einige bedenkliche blinde Flecken, was Smartphones anging. »Benutzt wirklich jemand den Kalender auf seinem Handy?«, fragte er mal in einem Meeting. »Natürlich benutzen wir den Kalender«, antwortete jemand, der nicht mit mehreren persönlichen Assistenten herumlief.

Wie beim Doppler-Projekt waren die von Bezos gesetzten Deadlines unrealistisch, aber um sie einzuhalten, heuerte das Team weitere Ingenieure an. Mehr Ingenieure auf eine zum Scheitern verurteilte Technologie anzusetzen ließ diese jedoch nur umso spektakulärer scheitern. Kindle war damals von strategischer Bedeutung für Amazon, und so musste sich die Tyto-Gruppe, anstatt in den eigenen Reihen zu wildern, außerhalb des Unternehmens – bei Motorola, Apple, Sony und anderen – nach Hardwareentwicklern umsehen. Selbstverständlich sagten sie keinem von ihnen, woran sie arbeiteten, bis er dann endlich bei ihnen anfing. »Wenn man einen guten Ruf in der Tech-Branche hatte, dann fanden die einen«, sagte einer der Fire-Phone-Manager.

Die Produktpräsentation war stets in sechs Monaten. Im Bemühen um ein funktionsfähiges 3-D-Display zog sich das Projekt endlos hin. Da die ursprünglich brandaktuellen Komponenten im Handumdrehen veraltet waren, entschloss man sich zu einem Reboot des Projekts mit einem leistungsfähigeren Prozessor und neuen Kameras. Um beim Eulenmotiv zu bleiben, erhielt es den Codenamen Duke. 15 Die Gruppe legte los und kippte dann ein anderes Smartphone-Projekt, ein schlichtes preisgünstiges Handy mit dem Codenamen Otus, das – bei HTC gefertigt – das spezielle Amazon-Android-Betriebssystem bekommen sollte. Damit liefen auch die neuen Fire-Tablets, die als preiswerte Alternative zu Apples iPad Anlass zu berechtigen Hoffnungen gaben.

Die mit dem Projekt betrauten Mitarbeiter waren enttäuscht, als man Otus aufgab, da sie insgeheim Amazons Chance nicht in überkandidelten 3-D-Displays sahen, sondern darin, mit einem preiswerten oder gar kostenlosen Smartphone den Markt aufzumischen. Die Moral des Teams sank. Eine der Gruppen zweifelte derart an dem ganzen Projekt, dass sie ostentativ mit einer Erkennungsmarke um den Hals herumliefen, wie Soldaten sie tragen. Darin eingeprägt war das Motto des dreizehnten Führungsprinzips, »Disagree and commit«, was besagt, dass Mitarbeiter zwar anderer Meinung sein können, aber nach einer endgültigen Entscheidung zu dieser stehen.

In seinem jährlichen Aktionärsbrief vom April 2014 schrieb Bezos: »Neues zu erfinden ist ein chaotischer Prozess, und wir können davon ausgehen, im Lauf der Zeit auch einige große Wetten zu verlieren.« Diese Bemerkung erwies sich auf kuriose Weise als prophetisch. Das Team bereitete sich auf die Präsentation des Handys anlässlich eines großen Events im Sommer vor. Bezos’ Frau MacKenzie schaute bei den Proben vorbei, um mit Rat und Tat zur Seite zu stehen.

Am 18. Juni 2014 enthüllte Bezos das Fire Phone in einer Veranstaltung in den Freemont Studios in Seattle, wo er sich, um Steve Jobs’ magisches Charisma bemüht, so langatmig wie begeistert über das 3-D-Display und die Gestensteuerung seines Handys ausließ. »Ich glaube wirklich, dass er daran geglaubt hat«, sagte Craig Berman, der damalige Vice President von Amazons PR-Abteilung. »Im Ernst. Und wenn nicht, dann hätte er sich das sicher nicht anmerken lassen, nicht vor dem Team.«

Die Besprechungen des Geräts waren vernichtend. Der Smartphone-Markt hatte sich während der vier schmerzlichen Jahre, die das Fire Phone hinter sich hatte, nicht nur verlagert, sondern auch eine gewisse Sättigung erreicht. Was als aufrichtiger Versuch gedacht war, ein neuartiges Produkt zu schaffen, schien jetzt irgendwie an den Erwartungen der Kundschaft vorbeizugehen. Da es nicht mit Googles autorisierter Android-Version lief, gab es dafür keine der beliebten Apps wie Gmail oder YouTube. Und auch wenn es billiger war als das kommende iPhone 6, so war es doch teurer als die Vielzahl schlichter, aber preisgünstiger Handys aus Asien, die damals im Gegenzug für einen Zwei-Jahres-Vertrag mit erheblichen Summen von den Mobilfunkanbietern subventioniert wurden.

»Es unterschied sich in vieler Hinsicht von anderen, aber letztendlich sagte es eben den Kunden nichts«, sagte Vice President Ian Freed, der die Leitung des Projekts hatte. »Ich habe einen Fehler gemacht, und Jeff hat einen Fehler gemacht. Wir haben das Wertversprechen des Fire Phone nicht mit dem der Marke Amazon in Deckung gebracht, die nun mal für hohen Wert steht.« Freed erzählte mir, Bezos habe ihm hinterher gesagt: »Du darfst dir keinen Kopf wegen des Fire Phone machen, auch nicht eine Minute. Versprich mir, dass du darüber keinen Schlaf verlierst.« 16

Im Spätsommer fanden Arbeiter in Amazons Logistikzentrum in Phoenix, Arizona, eine Reihe von Holzpaletten mit Tausenden von unverkauften Fire Phones. Im Oktober schrieb man 170 Millionen Dollar aus dem Lagerbestand ab und kippte das Projekt in der Erkenntnis, dass es einer der teuersten Fehlschläge des Unternehmens gewesen war. »Es scheiterte aus genau den Gründen, die wir vorausgesagt hatten – das ist das Verrückte daran«, sagte Isaac Noble, einer der frühen Softwareentwickler, die von Anfang an ihre Zweifel gehabt hatten.

Es entbehrte nicht einer gewissen Ironie, dass das Fire-Phone-Fiasko ein gutes Zeichen für Doppler war. Da man nun keinen Marktanteil zu verteidigen hatte, konnte Amazon sich mit ungeteiltem Ehrgeiz auf die bahnbrechende neue Kategorie smarter Lautsprecher konzentrieren. Vielen der Ingenieure, die sich plötzlich ohne Aufgabe sahen, gab man, sofern sie nicht bereits bei Google und Apple untergekommen waren, ein paar Wochen, um sich innerhalb des Unternehmens nach einem neuen Job umzusehen. Einige von ihnen gingen zu Doppler, andere zu einem neuen Renner im Programm: Fire TV. Am wichtigsten bei alledem war jedoch, dass Bezos Ian Freed und die anderen Fire-Phone-Manager nicht zur Rechenschaft zog, was auf die unmissverständliche Botschaft hinauslief, dass bei Amazon die Risikonahme belohnt wurde – zumal Bezos sich das ganze Debakel letztlich vor allem selbst zuzuschreiben hatte.

Auf der anderen Seite freilich enthüllte die Episode einen beunruhigenden Aspekt des Lebens bei Amazon. Viele der mit Fire Phone befassten Mitarbeiter hatten ernsthafte Zweifel daran gehabt, aber nicht einer, so schien es, war mutig oder clever genug gewesen, seinem sturen Chef die Stirn zu bieten und in der Auseinandersetzung mit ihm zu bestehen.

Nachdem Jeff Bezos sie wütend hatte stehen lassen, zogen die mit dem Prototyp für Alexa betrauten Doppler-Executives sich in ihrem Stolz verletzt in einen nahe gelegenen Konferenzraum zurück und ließen sich ihre Lösung für das Datenparadox noch mal durch den Kopf gehen. Der Boss hatte schon recht. Interne Tests mit Amazon-Mitarbeitern waren vom Umfang her zu begrenzt. Ihnen würde also nichts anderes übrig bleiben, als die Tests massiv auszuweiten und dabei das Geheimnis der Alexa-Beta zu wahren.

Rasch hatte Greg Hart grünes Licht für ein entsprechendes Programm gegeben, das Rohit Prasad und die Sprechwissenschaftlerin Janet Slifka während einiger Tage im Frühjahr 2013 ausgearbeitet hatten. Es sollte das Doppler-Projekt auf Steroide setzen und außerdem eine Frage beantworten, die später die Fachwelt beschäftigte: Wie in aller Welt konnte Amazon, praktisch aus dem Nichts kommend, Google und Apple im Wettlauf um einen sprachgesteuerten virtuellen Assistenten überrunden?

Firmenintern bekam das Programm den Decknamen AMPED. Amazon tat sich mit der australischen Datenerhebungsfirma Appen zusammen und ging mit einer getarnten Alexa auf Tournee. Appen mietete, anfänglich vor allem in Boston, Häuser und Wohnungen an, von denen Amazon dann einige Zimmer zur Ablenkung mit Geräten aller Art vollstellte: Standmikros, Xbox-Spielkonsolen, Fernseher und Tablets. Darüber hinaus platzierte man in diesen Zimmern etwa zwanzig Alexa-Boxen, alle in verschiedenen Höhen, alle mit akustischem Gewebe verkleidet, das sie vor Entdeckung schützte, aber den Schall durchließ. Appen tat sich dann mit einer Zeitarbeitsfirma zusammen, und schon floss, acht Stunden am Tag, sechs Tage die Woche, ein endloser Strom von Leiharbeitern durch diese Räume, die von iPads Texte ablasen, zum einen vorgegebene Sätze, die jeder aufzusagen hatte, zum anderen offene Fragen wie etwa »Bitten Sie jemanden, Ihren Lieblingssong zu spielen« und »Bitten Sie einen Assistenten um irgendetwas, was Sie gern erledigt hätten«.

Die Boxen waren dabei abgeschaltet, sodass Alexa keinen Piep von sich gab, aber die sieben Mikrofone in jedem der Geräte zeichneten alles auf und streamten Aufnahmen auf Amazons Server. Schließlich ging ein weiteres Heer von Arbeitern die Aufnahmen händisch durch, kommentierte die Abschriften und markierte Fragen, die eine Maschine womöglich vor ein Rätsel stellten – zum Beispiel »Turn on Hunger Games « als Aufforderung an Alexa, den Jennifer-Lawrence-Film zu spielen –, damit Alexa beim nächsten Mal Bescheid wüsste. 17

Die Bostoner Testreihe erwies sich als vielversprechend, und so weitete Amazon das Programm aus, indem man während der nächsten sechs Monate weitere Häuser und Wohnungen in Seattle und zehn anderen Städten anmietete, um die Stimmen und Sprachmuster Tausender bezahlter Freiwilliger aufzuzeichnen. Man erhielt so geradezu explosionsartig einen Atompilz von Daten im Hinblick auf das Platzieren der Geräte, auf akustische Umgebungen, Hintergrundgeräusche, regionale Akzente und auf all die unglaublich beliebigen Phrasen, mit denen ein Mensch eine schlichte Aufforderung ausdrücken konnte – etwa nach dem Wetter zu fragen oder etwas von Justin Timberlake hören zu wollen.

Der endlose Strom einer völlig willkürlichen Auswahl von Leuten, der durch diese Häuser und Wohnungen zog, ließ argwöhnische Nachbarn immer wieder mal die Polizei rufen. In einem Fall vermutete der Bewohner eines Bostoner Apartmentkomplexes einen Drogen- oder Prostituiertenring in der Nachbarwohnung und benachrichtigte die Polizei, die eingelassen zu werden verlangte. Die beunruhigten Tester lieferten eine vage Erklärung und führten die Polizisten durch die Räumlichkeiten, brachen danach jedoch die Arbeit dort ab. Gelegentlich kam es auch vor, dass einer der Leiharbeiter die ganze Situation und das merkwürdige Skript scheel beäugte, um schließlich die Teilnahme zu verweigern. Ein Amazon-Mitarbeiter, der mit der Kommentierung von Transkripten betraut war, erinnerte sich später, gehört zu haben, wie einer der Leute eine Sitzung unterbrach und sich flüsternd an einen vermeintlichen Lauscher wandte: »Das ist so was von dämlich. Das ist doch absolut peinlich!«

Amazon war das ganz und gar nicht peinlich. Bereits 2014 hatte man seinen Sprachdatenschatz um einen Faktor von 10.000 aufgestockt und damit die Datenlücke gegenüber Rivalen wie Apple und Google größtenteils geschlossen. Bezos war ganz aus dem Häuschen. Hart hatte ihn erst gar nicht um seinen Segen für das AMPED-Projekt gebeten, aber einige Wochen vor Start des Programms brachte er Bezos mit einem sechsseitigen Dokument auf den Stand der Dinge. Er beschrieb darin das Projekt und die Kosten: einen mehrstelligen Millionenbetrag. Bezos begann bei der Lektüre übers ganze Gesicht zu grinsen; wie weggewischt war der verdrossene Ausdruck der letzten Zeit. »Jetzt weiß ich, dass es dir ernst damit ist! Was machen wir als Nächstes?«

Nun, als Nächstes folgte Dopplers lang ersehnte Produktpräsentation. Bei achtzig, neunzig Wochenstunden musste das Team auf die Familie mehr oder weniger verzichten, und Bezos ließ nicht einen Augenblick locker. Er wollte alles bis ins letzte Detail sehen und stellte impulsiv eine neue Forderung nach der anderen. Eines für Seattle ungewöhnlich klaren Tages zum Beispiel – der Konferenzraum war ins Licht der untergehenden Sonne getaucht – fiel Bezos auf, dass ihm der Leuchtring oben auf dem Gerät nicht markant genug war, also ordnete er eine komplette Überarbeitung an. Fast als Einziger sprach er sich für ein Feature namens Voice Cast aus, das Alexa mit einem Fire Tablet verband, sofern eines in der Nähe war, sodass die Fragen an Alexa auf dem Bildschirm zu sehen waren. Als das Ingenieursteam das Feature sang- und klanglos verschwinden lassen wollte, bekam er das sofort mit und sagte seinen Leuten, es werde ohne das Feature keine Präsentation geben. (Letztlich machte kaum ein Benutzer davon Gebrauch.)

Aber er lag auch mit vielem richtig. Die Präsentation rückte schon näher, als eine Fraktion des Teams die Sorge äußerte, das Gerät könnte unter bestimmten Umständen – wie bei lauter Musik oder Gesprächslärm – die Kommandos nicht hören; also machten sie sich für den Einbau einer Fernbedienung stark. Als Vorbild diente ihnen dabei die von Fire TV. Bezos war dagegen, erklärte sich jedoch bereit, mit dem ersten Kontingent Lautsprecher auch eine Fernbedienung auszuliefern, um zu sehen, ob die Kunden sie benutzten. 18 (Taten sie nicht, worauf sie wieder verschwand.)

Außerdem verhinderte er eine Katastrophe, als es um die Taufe des Geräts ging. Vier Jahre lang war es hierin nicht zum Konsens gekommen. Endlos diskutierte man darüber, ob man beiden Komponenten Namen geben sollte, also sowohl der virtuellen Assistentin als auch der Hardware. Nachdem man sich für zwei Namen entschieden hatte, ging man endlos die Optionen für den Lautsprecher durch und einigte sich schließlich auf … Amazon Flash. Die täglichen Besprechungen liefen darauf unter dem Namen »Flash Briefings«; die Verpackungen mit Flash als Markenname waren bereits gedruckt.

Dann jedoch, nicht einmal einen Monat vor der Präsentation, sagte Bezos bei einem der Meetings: »Ich denke, wir können das besser.« Auf der Suche nach Ersatz entschloss man sich schließlich, den Namen von Alexas Echo-Feature zu mopsen, über das der Kunde Alexa bitten konnte, etwas – ein Wort, einen Satz – zu wiederholen. (Den Befehl für das Feature änderte man auf »Simon says«.) Für neue Verpackungen oder Bedienungsanleitungen freilich blieb keine Zeit mehr, sodass die ersten Kunden Alexa in schlichten schwarzen Kartons bekamen. Toni Reid, die Hart als Direktorin für die Produktpräsentation aus einer anderen Abteilung geholt hatte, musste die Bedienungsanleitung schreiben, ohne das Produkt beim Namen zu nennen. »Das ist eine Fertigkeit, die jeder haben sollte«, sagte sie.

Die Vorstellung des Amazon Echo am 6. November 2015 war von der Pleite des Fire Phone nur einige Monate früher geprägt. Es gab weder eine Pressekonferenz noch eine visionäre Ansprache von Bezos – überhaupt schien er seine halbherzigen Versuche, Steve Jobs’ schwungvolle Produktvorstellungen zu imitieren, für immer aufgegeben zu haben. Er machte ganz den Eindruck, als wäre ihm mit dem neuen, von Understatement geprägten Ansatz bei Weitem wohler in seiner Haut. Das Team kündigte den Echo mit einer Presseverlautbarung und einer zweiminütigen Video-Erklärung auf YouTube an, die eine strahlende Familie beim Plausch mit Alexa zeigte. Die Amazon-Executives priesen das neue Gerät keineswegs als vollwertigen Konversationscomputer, sondern hoben bewusst einige Anwendungsbereiche heraus, deren Nützlichkeit sie sich sicher sein konnten, so etwa Nachrichten und Wetter, Timer-Funktionen, Einkaufslisten und Musik.

Man bat die Kundschaft, sich auf eine Warteliste für einen Echo setzen zu lassen, und sah sich diese unter Erwägung von allerhand Faktoren sorgfältig an: nutzten die Interessenten Amazon Music, besaßen sie einen Kindle et cetera. In der Erkenntnis, dass es sich hier um einen völlig unerforschten Markt handelte, bestellten sie zunächst gerade mal 80.000 Einheiten, was wenig war im Vergleich zu über 300.000 Fire Phones, und brachten diese innerhalb der nächsten Monaten unter die Leute. »Das Fire Phone hatte die Kunden zweifellos ein bisschen vorsichtiger gemacht«, sagte Greg Hart. »Es hatte uns dazu gebracht, alles immer wieder zu überdenken.«

Nach vier Jahren Entwicklungszeit argwöhnten mehr als ein Dutzend Doppler-Veteranen, der Amazon-Echo würde im Bereich Verbrauchertechnologie einen rauchenden Krater hinterlassen – gleich neben dem von Fire Phone. Am Tag der Präsentation saßen sie in ihrem neuen Bürokomplex im Prime-Building, ein paar Minuten zu Fuß von Fiona, in einem »War Room« und verfolgten, wie die Warteliste selbst ihre optimistischsten Hochrechnungen überstieg.

Inmitten ihrer »Nachtwache« wurde plötzlich jemandem klar, dass sie bei alledem einen wesentlichen Teil der Anerkennung versäumten. »Das war der Augenblick unserer Präsentation, und wir waren darauf nicht gefasst«, sagte Al Lindsay. Also zog eine gute Hundertschaft von Amazon-Leuten in eine Bar in der Nähe, um die lang ersehnte Feier nachzuholen; und eine Handvoll übernächtigter Executives machte dort an diesem Abend auch das Licht aus.

Im Verlauf der nächsten paar Wochen registrierten sich 109.000 Kunden für einen Echo. Neben der einen oder anderen verständlichen skeptischen Äußerung trudelten die positiven Rezensionen ein: »Ich habe eben mit der Zukunft gesprochen, und sie hat mir zugehört« 19 und »Das ist das innovativste Gerät, das Amazon seit Jahren vorgestellt hat«. 20 Bei Toni Reid und Greg Hart trafen E-Mails von Amazon-Angestellten ein mit der Bitte um Geräte für Angehörige und Freunde.

Nach Auslieferung des Echo konnte das Team nachverfolgen, wann die Geräte eingeschaltet wurden und dass die Leute sie tatsächlich nutzten. Bezos hatte mit seiner Eingebung recht behalten – es hatte etwas Magisches, zu Hause einen Computer aufzurufen, ohne das Display eines Smartphones zu berühren, ganz zu schweigen davon, dass es nützlich war, einen ansprechbaren Lautsprecher zu haben, der nicht nur Musik abspielen, sondern auch auf praktische Fragen antworten konnte (»Wie viele Tassen hat ein Liter?«), ja mit dem sich sogar schäkern ließ: »Alexa, bist du verheiratet?«

Viele aus dem Doppler-Team waren davon ausgegangen, jetzt erst einmal Luft holen zu können, womöglich sogar all die Überstunden abzufeiern, die sich angesammelt hatten. Wozu es freilich nicht kam. Statt dass sie von der rauen See erschöpft an den Strand wanken konnten, schlug gleich die nächste Welle über ihnen zusammen. Bezos folgte seinem Lehrbuch für Experimente, die vielversprechende Funken schlugen: Er schüttete sofort Benzin darauf. »Wir hatten einen Erfolg an der Hand, und damit war mein Leben nicht mehr das alte«, sagte Rohit Prasad, der zum Vice President befördert und schließlich auch noch in Amazons sagenumwobenen Führungskreis, das S-Team, aufgenommen wurde. »Ich kannte die Pläne für die Präsentation von Alexa und Echo«, sagte er. »Von den Plänen für die nächsten fünf Jahre hatte ich keine Ahnung.«

Im Verlauf der folgenden fünf Monate erfolgte das Roll-out von Alexas Skills Kit, das es anderen Firmen ermöglichte, sprachgesteuerte Apps für den Echo und für den Alexa Voice Service zu programmieren; damit konnten die Hersteller von Produkten wie Glühbirnen oder Weckern Alexa in ihre eigenen Geräte integrieren. Dann gab Bezos Greg Hart noch zu verstehen, dass das Team in wöchentlicher Folge mit neuen Features aufzuwarten hätte. Und da man keine Möglichkeit hatte, den Leuten hinsichtlich Updates Bescheid zu geben, sollte Amazon die Kunden Woche für Woche per E-Mail über neue Features für ihr Gerät informieren.

Bezos’ Wunschliste wurde zum Produktplan – er wollte Alexa nicht nur überall sehen, sie sollte auch alles tun, und das auf einmal . Dienste, die man im Run auf die Präsentation beiseitegeschoben hatte, wie etwa über Alexa einzukaufen, hatten mit einem Mal höchste Priorität. Bezos orderte eine kleinere und billigere Version des Echo, ein kleines Ding von der Größe eines Eishockey-Pucks, den Echo Dot. Darüber hinaus wollte er noch eine tragbare, batteriebetriebene Version: den Amazon Tap. In einem Kommentar zum Wettlauf um einen virtuellen Assistenten mit Smart Speaker sagte Bezos ein Jahr nach Alexas Präsentation im Rahmen der alljährlichen Reihe von OP1-Planungsmeetings im Spätsommer: »Amazon kommt schon klar, selbst wenn uns jemand überholen sollte. Aber wäre es nicht unglaublich ärgerlich, wenn wir bei dieser Entwicklung nicht vorn lägen?«

Das Leben im Prime Building wie überhaupt in der wachsenden Zahl von Alexa-Büros im Bezirk South Lake Union wurde immer hektischer. Viele der neuen Features nickte man einfach nur ab, um Feedback sammeln zu können. Unter Start-ups im Silicon Valley bezeichnet man so etwas als »Minimalprodukt« (Minimal Viable Product oder MVP) . Jeff Wilke hatte bei Amazon statt MVP den Begriff MLP (Minimal Lovable Product) eingeführt. Seine Frage lautete: »Was würden wir mit Stolz auf den Markt bringen?« Es schien keine Rolle zu spielen, dass viele von Alexas Features wie der Sprachanruf ursprünglich unausgegoren waren und kaum genutzt wurden. Was zählte, war, dass Amazon 2015 über die Weihnachtsfeiertage eine Million Echos verkaufte. 21

Das neue Motto der Division griff mit »Get Big Fast« den Slogan aus Amazons Anfangszeit wieder auf. Die Geschichte wiederholte sich. Eine Organisation von wenigen Hundert Mitarbeitern schwoll im ersten Jahr nach der Vorstellung des Produkts auf 1000 und in den nächsten fünf Jahren auf sage und schreibe 10.000 an. Die ganze Zeit über spritzte Bezos wie ein Pyromane Feuerzeugbenzin in die Flammen. So gab er im Januar 2016 schätzungsweise zehn Millionen Dollar für Amazons ersten Super-Bowl-Werbespot aus, in dem neben dem ehemaligen Quarterback der Miami Dolphins Dan Marino auch Alec Baldwin und Missy Elliott zu sehen waren.

Bei all der Aufmerksamkeit hatte man bei Amazon intern das Gefühl, dass die Alexa-Organisation nicht flink genug war. Greg Hart, der das Gerät auf der Basis einer E-Mail und einer Whiteboard-Skizze von Bezos praktisch aus dem Nichts geschaffen hatte, verließ die Abteilung, um bei der Leitung von Prime Video zu helfen. »Ich bin jeden Tag aufgestanden und habe mich drauf gefreut, Alexa zu schaffen«, sagte er Jahre später wehmütig. Aber als die Alexa-Gruppe dann rasant zu wachsen begann, »war sie wahrscheinlich in den Händen eines neuen Leiters besser aufgehoben«.

So nahm mit Mike George ein alter Günstling von Bezos seinen Platz ein, ein charismatischer kahlköpfiger Amazonianer in Cowboystiefeln mit einer Schwäche für Gesichtsbemalung, der gern mit einem plärrenden Amazon Tap unterm Arm zu den Meetings kam.

Mike George hatte, was Bezos als »fungible« – sprich universell einsetzbare – Energie bezeichnete. Im Lauf der Jahre schickte er ihn denn auch als Feuerwehrmann überall dorthin, wo loderndes Chaos zu löschen und Ordnung zu schaffen war – Personalwesen, Marktplatz, Ausgaben –, um ihn dann später mit seinen privaten philanthropischen Bemühungen, dem Day 1 Academies Fund, zu betrauen. Verschiedene Kollegen bezeichneten ihn liebevoll als »Raubein«, als »unverbesserliche Sportskanone« und als »aus demselben Holz geschnitzt wie Jeff«.

Mike George leitete Alexa nur ein Jahr lang, aber sein Wirken ist noch heute zu spüren. Da die Alexa-Abteilung nicht schnell genug Leute einstellen konnte, um ihren Bedarf zu decken, sorgte Amazon für eine Art unternehmensweite Rekrutierungsstrategie, in deren Rahmen man jedem Neuen – sei es bei AWS oder im Einzelhandel – bei der Einstellung alternativ auch einen Job bei Alexa anbot. Die betroffenen Manager waren alles andere als glücklich darüber, dringend benötigte Ingenieure zu verlieren, die sie gerade eingestellt zu haben meinten.

George sorgte darüber hinaus für eine dramatische Veränderung in Alexas Gruppenstruktur. Die Abteilung hatte als Organisation durchaus funktioniert mit ihren zentralisierten Teams für Programmierung, Produktmanagement und Marketing. Nur wuchs das Ganze für Bezos’ Geschmack nicht organisch oder schnell genug. Also organisierte George Alexa anhand von Amazons altem Ideal der flinken und beweglichen »Zwei-Pizzen-Teams«, von denen jedes mit einem speziellen Bereich von Alexa betraut war: Musik, Wetter, Beleuchtung, Thermostate, Videogeräte et cetera.

Die Leitung eines solchen Teams hatte ein sogenannter Single-threaded Leader, der letztlich das Sagen und dann auch für das Abschneiden des Teams geradezustehen hatte. (Der Begriff kommt aus der Informatik, wo Single-threaded-Software Programme bezeichnet, die jeweils nur einen Befehl auf einmal ausführen können.) Alexa geriet schließlich – wie Amazon selbst – zu einem Konstrukt mit zahllosen autonom arbeitenden CEOs. Um sie alle zusammenzuspannen, sorgte George für die Abfassung eines »North-Star«-Dokuments, einer Art Referenz mit klaren Angaben über die Strategie einer globalen sprachgesteuerten Rechenplattform.

Bezos nickte diese Änderungen ab und kümmerte sich auch weiterhin persönlich um die Details, besuchte Produktbesprechungen und las den Update-Katalog sämtlicher Zwei-Pizzen-Teams, der ihm jeden Freitagabend vorzuliegen hatte. Er stellte dazu detaillierte Fragen oder wies auf Probleme hin, die dann von den Gruppen übers Wochenende zu beseitigen waren. Alexas Führungsriege geriet immer wieder zur Zielscheibe der im ganzen Unternehmen gefürchteten »Eskalations-E-Mails« des CEO, in denen Bezos – nur mit einem Fragezeichen versehen – die Beschwerde eines Kunden weiterleitete. Man hatte vierundzwanzig Stunden, um darauf zu reagieren. Darüber hinaus war er Alexas wesentlicher Fürsprecher im Unternehmen. »Was tun denn Sie für Alexa?«, fragte er jeden seiner Executives, genau wie er das Jahre zuvor im Fall von AWS gemacht hatte. Jeder Einzelne im Unternehmen hatte Alexa in die OP1-Dokumente mit den jeweiligen Plänen fürs kommende Jahr aufzunehmen, die dem S-Team vorzulegen waren.

Gegen Ende 2016 gab Geräte-Chef Dave Limp firmenintern bekannt, dass Amazon mittlerweile weltweit die Nummer eins der verkauften Lautsprecher war. Acht Millionen amerikanische Haushalte hatten mittlerweile einen Echo oder Echo Dot. Womit der Kreuzzug gerechtfertigt war. Aber selbstverständlich genügte Bezos das nicht; er wollte Amazon als Nummer eins auf der Rangliste der KI-Firmen sehen, und in dieser Hinsicht hatte er bald ernsthafte Konkurrenz.

Im Herbst desselben Jahres brachte diese Konkurrenz mit Google Home eine intelligente Lautsprecherbox auf den Markt. Sie bot ein entschieden schmuckeres Bild – sie sah aus »wie etwas, in das man Sukkulenten pflanzen könnte«, wie Wired schrieb. 22 Außerdem hatte sie einen knackigeren Klang, und wie nicht weiter verwunderlich fand sie souverän jede Antwort im Web. Das Alexa-Team hatte »Jahr für Jahr nur darauf gewartet, dass zu Weihnachten entweder Apple oder Google etwas ankündigen würde, und immer wenn es wieder nicht dazu gekommen war, klatschten wir ab«, sagte der ehemalige Alexa-Chef Charlie Kindel. Beide Unternehmen mochten hochgradig allergisch gegen Nachahmerprodukte sein, letztendlich konnten sie dem rasant wachsenden Smart-Speaker-Markt jedoch nicht widerstehen.

Das freilich erhöhte den Druck auf das Alexa-Team, das damit nicht nur schneller vorankommen, sondern auch vorn bleiben musste, was neue Features und Hardware-Varianten anging. Anfang 2017 bekam Bezos eine E-Mail von einem schwedischen Kunden, der wissen wollte, warum Amazon auf die Entwicklung sprachspezifischer Versionen von Alexa wartete, bevor man den Echo in Europa auf den Markt brachte. Man könne das Gerät doch einfach erst mal überall in der englischen Version verkaufen? Die Idee an sich hatte längst auf Amazons Meilensteinplan gestanden, aber keine Priorität gehabt. Einem seiner Executives zufolge traf besagte E-Mail um zwei Uhr morgens in Seattle ein, und schon am nächsten Vormittag war ein halbes Dutzend unabhängiger Gruppen damit beschäftigt, Alexa in 80 neuen Länder zu verkaufen. 23

Später dann sollten Alexa-Executives behaupten, Bezos’ enge Verbundenheit mit dem Projekt hätte ihnen zwar das Leben schwerer gemacht, aber auch zu enormen Resultaten geführt. Jeff »gab uns Freiheit und grünes Licht für so einiges, was wir machen mussten, um schneller und größer zu werden«, sagte Toni Reid. »Es ist recht einfach, sich selbst zu reglementieren oder zu überlegen, wie man bestehende Ressourcen einsetzen soll … Manchmal weiß man einfach nicht, wo die Grenzen sind. Jeffs Willen zufolge sollten wir uns in keiner Weise eingeschränkt fühlen.«

Freilich hatten das irrwitzige Tempo und das rasante Wachstum auch ihre Nachteile. So sah zum Beispiel Alexas Smartphone-App aus, als hätte ein Designstudent sie nachts auf einer Kneipentour gemacht. Installation, Einrichtung und Vernetzung des Echo im eigenen Zuhause waren weit komplizierter, als sie hätten sein müssen. Außerdem war es verwirrend und schwierig, Befehle so zu formulieren, dass die Nutzer auf externe Anwendungen oder spezielle Features zugreifen konnten.

Der dezentralisierte und chaotische Ansatz – zahllose Zwei-Pizzen-Teams unter Leitung je eines Single-threaded Leaders – führte dazu, dass der eine oder andere Aspekt zu komplex geriet. Grundlegende Aufgaben, wie etwa die Einrichtung des Geräts und der Anschluss smarter Haushaltsgeräte waren »eine Quälerei für den Kunden, es tat richtig weh«, sagte Tom Taylor, ein Amazon-Executive von ausgeglichenem, wenn auch sardonischem Naturell, der 2017 den Posten des Alexa-Chefs von Mike George übernahm. Er machte sich daran, »all die Stellen in unserer Organisationstruktur zu finden, unter denen der Kunde litt«.

Es gab jedoch eine Menge Turbulenzen, die Taylor und seine Kollegen nicht zu beruhigen vermochten. So führte im März 2018 ein Bug dazu, dass Alexa überall auf der Welt immer wieder mal ganz spontan in irres Gelächter ausbrach. 24 Einige Monate später zeichnete Echo versehentlich die Privatgespräche eines Paars in Portland, Oregon, auf und schickte die Aufzeichnung einem der Angestellten des Ehemanns in Seattle, dessen Telefonnummer im Adressbuch stand. Amazon entschuldigte das damit, dass das Gerät wohl einen Weckbefehl gehört haben müsste und anschließend eine Reihe von Befehlen, das Gespräch aufzuzeichnen und zu verschicken. Es handele sich um einen »extrem seltenen Vorfall«, sagte das Unternehmen und versprach: »So unwahrscheinlich diese Folge von Ereignissen an sich schon ist, wir sind bereits bei der Auswertung von Möglichkeiten, einen solchen Fall noch unwahrscheinlicher zu machen.« Nach diesem Zwischenfall hatten die Mitarbeiter einen »Fehlerkorrektur«-Bericht einzureichen, der einen Zwischenfall im Detail analysiert und dann seiner Ursache auf den Grund zu gehen versucht, indem sie schrittweise die »die fünf Warums« durchgingen, eine Abfolge von Fragen und Antworten. Das Memo ging dann bis hinauf zu Bezos. Es beschrieb, was passiert war, und sprach eine Empfehlung aus, wie der Fehler, der das Problem ausgelöst hatte, zu beheben sei.

Einige Fehler freilich waren nicht zu beheben, wie etwa Alexas Neigung, den Weihnachtsmann zu killen – jedenfalls in den Augen jüngerer Nutzer. Zu einem dieser Zwischenfälle kam es im Rahmen des Alexa-Prize-Wettbewerbs, den Amazon an Colleges ausgelobt hatte. Es ging dabei um die Entwicklung eines Chatbots, der in der Lage wäre, eine niveauvolle Unterhaltung mit mehreren Teilnehmern zu führen. Wenn die Benutzer sagten: »Alexa, lass uns plaudern«, konnten sie sich mit einem der Chatbots unterhalten und dessen Leistung dann bewerten. W ährend des ersten Wettbewerbs dieser Art 2017 holte sich der Chatbot der University of Washington einige seiner Antworten aus dem Online-Forum Reddit und ließ ein Kind versehentlich wissen, dass der Weihnachtsmann ein Mythos sei. Die Eltern beschwerten sich, und man zog den Chatbot (der später den mit 500.000 Dollar dotierten Preis gewann) vorübergehend aus dem Verkehr.

Die immer wieder mal auftretenden Probleme mit Alexa unterstrichen zum einen, wie weit man gekommen war, zum anderen, wie weit man noch zu gehen hatte. Wie auch immer, 2019 hatte Amazon 100 Millionen Echos unter die Leute gebracht. Binnen eines Jahrzehnts war damit ein aus Bezos’ Liebe zur Science-Fiction und seiner Erfindungsfreude geborener Artikel zu einem weltweit anerkannten Produkt geworden, dessen Macken und Herausforderungen an konventionelle Vorstellungen von Privatsphäre ständig in den Medien waren.

Aber Alexa war eben immer noch nicht der Gesprächspartner, den Bezos und Rohit Prasad sich ursprünglich erhofft hatten. Und auch wenn das Gerät eine kleine Heimindustrie von Start-ups und anderen Firmen ins Leben gerufen hatte, die ihre Hoffnungen an sprachgesteuerte Geräte und Dienste knüpften, wurden Alexas als »Skills« bezeichnete Add-ons nicht allzu viel genutzt, und die Einkünfte der Entwickler waren im Vergleich zu dem, was Apps in den Stores von Apples und Google brachten, noch eher karg.

Bezos glaubte fest daran, dass all das in den nächsten paar Jahren Wirklichkeit würde. Die Beeindruckten unter Amazons Fans und Mitarbeitern, die miterlebt hatten, wie er Alexa praktisch kraft seines Willens aus dem Nichts geschaffen hatte, waren der festen Überzeugung, der CEO könne in die Zukunft sehen. Aber zumindest in einer Hinsicht konnte er das eben nicht.

2016 verfolgte er die Entwicklung des Echo Show, des ersten Alexa-Geräts mit Bildschirm. Die mit dem Projekt betrauten Executives erinnerten sich, dass Bezos Alexa bei mehreren solcher Gelegenheiten ein Video zu spielen bat, das einen gewissen Präsidentschaftskandidaten der Republikaner durch den Kakao zog.

»Alexa, zeig mir das Video ›Donald Trump sagt China‹«, sagte er, oder: »Alexa, spiel Stephen Colberts Monolog von gestern Abend.« Dann »brach er in schallendes Gelächter aus«, sagte ein Vice President, der bei den Vorführungen mit dabei war.

Bezos hatte keine Ahnung, was da auf ihn zukam.