Przez lata użyczałem swojego głosu historiom, które poruszały ludzi – opowieściom o odwadze, dowcipie i ludzkim duchu. Teraz pomagam innym odnaleźć ich głos” – w zwiastunie opublikowanym wczoraj przez ElevenLabs słyszymy głos Michaela Caine’a wygenerowany przez sztuczną inteligencję. „Każda nowa innowacja technologiczna spotyka się z ostrożnością. I słusznie. Ale za każdym razem zwycięża ludzka potrzeba pasji, artyzmu i kreatywności. Bo technologia to tylko medium. Nie chodzi o zastępowanie ludzi, lecz ich wspieranie i wzmacnianie” – dodał aktor.
92-latek jest ikoną światowego kina – wystąpił w ponad 100 filmach, w tym „Alfie”, „Włoska robota”, „Hannah i jej siostry”, ostatnio znany jest z ról w filmach Christophera Nolana, takich jak Alfred w trylogii o Batmanie i „Incepcja”. Brytyjczyk w ramach umowy z ElevenLabs, dołącza do nowo uruchomionej platformy Iconic Voice Marketplace, która pozwala markom na korzystanie z oficjalnie licencjonowanych głosów najsławniejszych osób na świecie w projektach opartych na sztucznej inteligencji (w tym do czytania książek i artykułów). Dzięki temu ma szansę zniknąć problem nieetycznego użycia głosów znanych osób w tworzeniu mediów i komercyjnych projektów opartych na AI.
Na platformie dostępne są głosy zarówno żyjących, jak i nieżyjących gwiazd, takich jak m.in. aktorzy Liza Minelli, Judy Garland, Lana Turner, John Wayne, Laurence Olivier, Jean Harlow, Burt Reynolds, Montgomery Clift, Rock Hudson, czy Polak Piotr Fronczewski. Można też skorzystać ze sklonowanych głosów naukowców, tj. Thomas Edison, Alan Turing, Robert Oppenheimer, a także pisarzy Marka Twaina i Mai Angelou. Firma współpracuje również ze spadkobiercami Jamesa Earla Jonesa, aby legendarny głos Dartha Vadera z „Gwiezdnych wojen” mógł pojawić się w grze „Fortnite”.
– Sztuczna inteligencja może odpowiedzialnie poszerzać możliwości studiów i talentów, jednocześnie ulepszając opowiadanie historii – podkreślił wczoraj Mateusz Staniszewski, prezes ElevenLabs, który razem z Piotrem Dąbkowskim założył firmę, gdy obaj nie mieli jeszcze 30-tki.
Docenił to także Matthew McConaughey, aktor znany z serialu „True Detective” i filmu „Interstellar”. Właśnie zainwestował w firmę Polaków, która dziś jest światowym liderem w sektorze generatywnej sztucznej inteligencji audio, nieujawnioną sumę i nawiązał artystyczną współpracę – umożliwi przetłumaczenie swojego biuletynu „Lyrics of Livin” na hiszpańskojęzyczną wersję, wykorzystując własny głos.
– Od naszej pierwszej rozmowy jestem pod wrażeniem tego, jak zespół ElevenLabs wykorzystał magię tej kluczowej technologii i przekształcił ją w produkty, z których twórcy, przedsiębiorstwa i opowiadacze historii korzystają na co dzień – ocenił laureat Oscara. – Pomagacie tworzyć przyszłość, w której będziemy mogli oderwać wzrok od ekranów i połączyć się poprzez coś tak ponadczasowego jak nasze głosy.
AGENCI AI DLA KAŻDEGO
Dla dwójki Polaków pozyskanie tych dwóch sławnych i cenionych nazwisk to kolejny element szybkiego rozwoju firmy, którą założyli zaledwie w 2022 roku. Impulsem była słaba jakość dubbingu i lektorów w amerykańskich filmach wyświetlanych w polskie telewizji. Nie podobało im się to, że każdą rolę czytała ta sama osoba, zero intonacji czy emocji. Zamarzyli, żeby za kilka lat wszystkie filmy były dostępne z profesjonalnym dubbingiem, w każdym języku. Problem, jaki zdiagnozowali, okazał się powszechny – koszty i stworzenie dubbingu to złożony proces w zasadzie na całym świecie.
Choć na początku chodziło im wyłącznie o lektorowanie w filmach i serialach, z czasem wizja rozrosła się do tego, co teraz jest znane pod nazwą ElevenLabs – tworzą modele sztucznej inteligencji do kreowania głosu: automatycznego dubbingu, czytania tekstu, a nawet efektów dźwiękowych z opisu tekstowego, i za opłatą udostępniają wszystkim chętnym.
Jak w maju zapowiedzieli podczas konferencji Impact’25 w Poznaniu, jeszcze w tym roku opracują tak zaawansowane modele głosowej AI, że rozmawiający z nimi ludzie, nie zorientują się, że dyskutują z maszyną. Będzie to model AI, który nie tylko płynnie rozmawia, rozumie kontekst i emocje, ale który też odpowiada od razu i któremu można przerwać.
Posłuży on do stworzenia każdej firmie własnego agenta głosowego AI – w edukacji, ochronie zdrowia, obsłudze klienta, który nie tylko świetnie rozumie mowę, ale sam też jest bardzo naturalny w odpowiedziach. Staniszewski i Dąbkowski wierzą, że w najbliższym roku to będzie najpopularniejsze wykorzystywanie technologii ich firmy.
WARCI PONAD 6 MILIARDÓW DOLARÓW
Nic dziwnego, że ich start-up wyceniany jest obecnie na 6,6 mld dol., co oznacza – jak informuje Reuters – że wartość wzrosła dwukrotnie od początku roku. Inwestują w niego nie tylko najwięksi gracze giełdowi i fundusze, ale też inwestorzy prywatni, w tym współzałożyciel Instagrama Mike Krieger, współzałożyciel Oculus VR Brendan Iribe, czy też współzałożyciel Perplexity AI Aravind Srinivas. Inwestorzy przeznaczają duże pieniądze na start-upy AI, które rozwijają syntetyczne głosy, wideo i obrazy, mając nadzieję, że rozwiązania te przede wszystkim przekształcą media i branżę gamingową.
ElevenLabs jest dziś spośród nich najważniejszym graczem na rynku – ich technologia klonowania głosu umożliwia ogromną kombinację skali i personalizacji. Produkty firmy umożliwiają generowanie naturalnie brzmiących głosów i dźwięków w ponad 70 językach, w tym w polskim, co więcej, uwzględniają też charakterystyczne akcenty, jak brytyjski cockney czy latynoamerykański. Są one wykorzystywane w mediach, wydawnictwach i sektorze edukacyjnym. Co więcej, technologia ElevenLabs miała swoje zastosowanie nawet w Kongresie USA, umożliwiając kongresmen Jennifer Wexton, która straciła głos z powodu rzadkiej choroby neurologicznej, przemawianie w Izbie Reprezentantów. Jest to pierwsze użycie głosu AI w rządzie. Drugi taki przypadek był w ub. miesiącu w Tajwanie.
O firmie zrobiło się też głośno w Ukrainie, gdy ponad pół roku temu przetłumaczyła wywiad prezydenta Wołodymyra Zełenskiego z amerykańskim informatykiem i podcasterem Lexem Fridmanem, a kilka dni temu ukraiński rząd oznajmił, że głosowa sztuczna inteligencja od Polaków będzie dostępna w ukraińskich usługach publicznych.
Wśród klientów ElevenLabs znajdziemy większość spółek z listy Fortune 500, a także Storytel czy Audioteka. Technologia audio AI firmy jest wykorzystywana przez czołowe globalne media, takie jak: „Time”, „The New Yorker”, „The Washington Post” i „The Atlantic”, wydawnictwa książkowe, jak choćby Harper Collins, czy producenci gier, jak Inworld.
KUMPLE Z JEDNEJ KLASY
Gdy 30-letni Staniszewski i 31-letni Dąbkowski zaczynali trzy lata temu nie podejrzewali, że ich start-up może okazać się takim przebojem. – To zdecydowanie przerosło nasze oczekiwanie. Kiedy uruchamialiśmy wersję beta platformy do zamieniania tekstu na mowę i klonowania głosu, wiedzieliśmy, że jest pewna grupa osób, które będą chciały jej używać, ale takiego tempa się nie spodziewaliśmy. W 2023 roku planowaliśmy osiągnąć milion dolarów rocznego przychodu. Tymczasem zrealizowaliśmy ten cel już po pierwszych miesiącach – mówił ten pierwszy magazynowi „Forbes”.
Znają się z warszawskiego liceum, chodzili do jednej klasy, szybko się zaprzyjaźnili, razem mieszkali i podróżowali, wspólnie spędzali przez lata mnóstwo czasu. W trakcie studiów – Piotr kształcił się przede wszystkim w kierunku uczenia maszynowego, Mateusz wybrał studia matematyczne – razem pracowali m.in. w Operze Software ASA, która udostępnia przeglądarkę internetową Opera. Co ciekawe, najfajniejsze rzeczy zaczęły się dziać, kiedy ich drogi zawodowe się rozeszły – co jakiś czas spotykali się weekendami, próbując tworzyć nowe projekty.
No i pewnego weekendu zainteresowali się obszarem audio – stworzyli system, który na podstawie nagranego przez kogoś własnego głosu podpowiadał mu, jak może poprawić sposób mówienia. To był 2021 rok, potraktowali ten projekt jako kolejny z wielu. Następnym krokiem był już ElevenLabs: kiedy zainspirowani „słabym dubbingiem hollywoodzkich filmów” postanowili połączyć siły we własnej firmie. Piotr odszedł z Google, a Mateusz z Palantir, firmy założonej przez popularnego miliardera Petera Thiela, a wcześniej współtwórcy PayPal.
W tym roku Staniszewski jako jedyny Polak trafił na listę tygodnika „Time” stu najbardziej wpływowych osób w dziedzinie AI. Umieszczono go w kategorii „innowatorzy”. Obecnie razem ze wspólnikiem zatrudnia ponad 330 pracowników, w porównaniu z siedemdziesięcioma rok temu. W październiku ogłosili, że ich spółka, która działa głównie na rynku globalnym, a przede wszystkim w USA, otworzy biuro w Warszawie i w ciągu pięciu lat zainwestuje nad Wisłą 11 mln zł. ﹡