Benjamin Boster’ın planı basitti. 30 dakikalık ses kaydını yükleyecekti ve gerisini yazılım halledecekti.
Bir veya iki saatlik işlemden sonra klon ortaya çıkacaktı; haftada üç bölümden beş bölüme çıkmasını sağlayacağını umduğu bir ses simülasyonu.
Boster, popüler bir yatıştırıcı podcast olan “I Can’t Sleep“in sunucusu ve tek sahibi (Wikipedia’dan kadife ses tonuyla okuyor) ve aylık ortalama 400.000 indirme alıyor.
Utah, Pleasant Grove’da yaşayan 44 yaşındaki eski proje yöneticisi Boster, “İnsanlar bana her zaman sesimin onları uyuttuğunu söylerdi. Bunu yeterince kez duyduğunuzda, sonunda bir anda her şey netleşiyor” diyor.
Arşivinde düzinelerce saatlik ses kaydı bulunan Boster, istediği uzunlukta bir ses örneği buldu, bunu Elevenlabs adlı bir yapay zeka ses üretim platformuna yükledi ve ikizini bulmak için bekledi.
ChatGPT gibi sohbet robotları ve Midjourney gibi görüntü oluşturucuların arkasındaki teknolojiyi kullanan Elevenlabs ve benzeri hizmetler, kullanıcıların sıfırdan gerçekçi sesler oluşturmasına, önceden hazırlanmış seslerden oluşan bir kütüphaneden seçim yapmasına veya kendi seslerini neredeyse mükemmel bir doğrulukla kopyalamasına olanak tanıyor.
İkinci işlev, podcast sunucuları arasında hem endişe hem de hayranlık uyandırdı. Bir podcast sunucusunun sesi aynı zamanda bir imzadır, insanların etrafında toplandığı bir ateş gibidir. Bir kopyası, sahibinin daha hızlı, daha az masrafla ve yabancı dillerde çalışmasına yardımcı olma potansiyeli olan bir yardımcı mıdır, yoksa sadık dinleyicilere ihanet mi?
“Criminal” ve “This Is Love” programlarının sunucusu Phoebe Judge, “İnsanların sesime bağlandıklarını hissetmelerinden çok memnunum ve bunu başkalarına devretmekle ilgilenmiyorum. Podcast’lerin çoğunlukla yapay zeka tarafından seslendirildiği bir döneme geldiğimizde, umarım bu işin içinde olmayacağım” diyor.
Gerçek bir kişiyi temsil etmeyen yapay sesler, diğer alanlarda da yaygınlaşmıştır. Son nesil sesle çalışan asistanlar ve telefonla müşteri hizmetleri sistemleri, milyonlarca tüketiciyi gerçekçi sesli robotlarla tanıştırmıştır. Bazı reklamlar, haber makaleleri ve sesli kitaplar için sentetik sesli anlatım standart hale gelmektedir.
Podcast yayıncılığında, sunucu koltuğuna insan olmayan birini oturtmaya yönelik ilk denemeler tepkiyle karşılandı. 2023 yılında, podcast stüdyosu Wondery, deneme sürümünün eleştirilere yol açmasının ardından, spor podcast’i “The Lead: Starting Five”ın yapay zeka sunucusunu sessizce emekliye ayırdı. Geçen ay, Inception Point AI adlı bir start-up, haftada 3.000’den fazla yapay zeka sunuculu podcast bölümü yayınlama stratejisi nedeniyle büyük bir tepkiyle karşılaştı. LinkedIn’de yayınlanan bir gönderide, şirketin “yarım yamalak yapay zeka saçmalıklarıyla” insan emeğinin değerini düşürdüğü iddia edildi.
Ancak, sunucular, reklamcılar, yazılım geliştiriciler ve yayıncılar dahil olmak üzere sektördeki bir düzineden fazla kişiyle yapılan röportajlar, ses klonlarının giderek yaygınlaştığını gösterdi. Sunucu kopyaları, stüdyo performanslarını geliştirmek, hatta değiştirmek ve bölümleri diğer dillere çevirmek için zaten kullanılıyor. Bu bahar, popüler iş podcast’i “Diary of a CEO”nun sunucusu Steven Bartlett, ses klonunun sunuculuğunu yaptığı bir yan program başlattı.
Klonların okuduğu reklamlar da halihazırda geliştirme aşamasında.
Podcast ağı ve reklam platformu Acast’ın CEO’su Greg Glenday, şirketin klonların okuduğu reklamlarla ilgili iç deneyleri hakkında “Şaşırtıcı derecede iyi. Birlikte çalıştığımız yaratıcılar bu durumdan çok memnun görünüyor” dedi.
Boster’ın klonu hazır olduğunda, Wikipedia makalesinden (“Arkeoloji” başlığını seçti) metni kopyalayıp Elevenlabs uygulamasına yapıştırdı ve bir düğmeye basarak konuşma oluşturdu. Çıkan ses tuhaftı; birkaç tuhaflık dışında neredeyse tamamen ona benziyordu.
“Tınısı biraz farklıydı ve ritimde bazı nüanslar tam olarak yoktu” dedi.
Boster, bazı ayarlarda birkaç düzenleme ve ince ayar yaparak, daha da ikna edici bir yeni model üretti. Test olarak, bunu “I Can’t Sleep” adlı bir bölümde kullandı ve kasıtlı olarak yapay zeka ile oluşturulduğunu belirtmedi.
Boster, “Bir deney yapmak istedim. İnsanlar bunu fark edebilecek mi? Ve eğer fark ederlerse, bu sorun olur mu? Yoksa rahatsız olurlar mı?” dedi.
Elevenlabs ve Speechify, Respeecher ve Resemble.AI gibi rakip programlar en gelişmiş ses klonlama teknolojisini sunsa da, modern podcast düzenleme araçlarında daha temel sürümler yerleşik olarak bulunur. Descript ve Riverside.fm gibi popüler hizmetler, kullanıcıların konuşmacının sesini yapay zeka ile simüle ederek kaydedilmiş konuşmaya ekleme veya değişiklik yapma olanağı sunar.
Podcast düzenleme, hatalar veya düzeltmeler nedeniyle sık sık bölümlerin yeniden kaydedilmesini gerektirir, bu da stüdyoya birden fazla kez gitmek anlamına gelebilir. Ses klonlamaya genel olarak şüpheyle yaklaşan birkaç sunucu, bu gibi durumlarda klonlamanın yararlı olabileceğini kabul etti.
“Snap Judgment” programının sunucusu Glynn Washington, “Diyelim ki, bir şeyleri kaydedebileceğim bir stüdyoya yakın değilim ve biri bana ‘Hey, bunu bir yapay zeka programı kullanarak düzeltmemiz gerekiyor’ diyor. Bunun meşru bir kullanım olduğunu düşünürdüm” diyor.
Birçok sunucu, podcaster Lex Fridman’ın Hindistan Başbakanı Narendra Modi ile yaptığı son röportajda yaptığı gibi, kendilerini başka dillere çevirmek için yapay zeka klonunu kullanmayı onayladı ve hatta bu konuda heyecan duydu. Genellikle, birden fazla dilde mevcut olan az sayıdaki podcast, kendi sesleriyle konuşan insan çevirmenler kullanıyor.
Spotify ve iHeartMedia‘daki pilot programlar şu anda Bill Simmons, Malcolm Gladwell ve Jay Shetty gibi seçkin podcast sunucularının seslerini İspanyolca, Fransızca, Portekizce ve diğer dillere klonlamasına izin veriyor. (Programlarda yapay zeka kullanımı hakkında açıklamalar yer alıyor.)
“Talk Easy” programının sunucusu Sam Fragoso, “Farklı ülkelerdeki insanlara kendi ana dillerinde ulaşabilmek harika olurdu. Bu, herkes için kazan-kazan durumu” diyor.
Klonlar reklamcılıkta da ilerleme kaydetmeye hazırlanıyor. Birçok sunucu, sponsorların bir bölüm sırasında tanıtım materyallerini okumaları için onlara ödeme yaptığı reklam okumalarını biraz tatsız buluyor. Teorik olarak bir klon, bu görevi üstlenmekle kalmayıp, minimum çabayla (örneğin belirli demografik gruplara yönelik) neredeyse sınırsız sayıda reklam varyasyonu üretebilir.
Büyük reklamverenlerin bir kopyayı desteklemek için ödeme yapıp yapmayacağı ve ne kadar ödeyeceği henüz belli değil. Ancak Acast’tan Glenday, ses klonunun kullanılmasıyla reklamın değerinin azalmayacağını savundu.
Glenday, “Bence bunun, sunucunun okuduğu reklamla aynı değerde olduğu çok makul bir argüman. Ödediğiniz şey, yaratıcının sesinin sahip olduğu etki, onu okumak için harcanan emek değil” dedi.
Bazı podcast yayıncıları için, koşullu klon kullanımının faydaları bile potansiyel maliyetlerden daha ağır basmaktadır. Dinleyiciler, söylenen sözler nedeniyle değil, onları söyleyen kişiyle bir bağ hissettikleri için dinlediklerini savunuyorlar.
Dinleyiciler, o kişinin gerçekten orada olup olmadığından şüphe etmeye başladıkları anda, büyü bozulur.
“Memory Palace” programının sunucusu Nate DiMeo, “Bu, sanat formunu tamamen baltalar. Dinlediğiniz şey, başka birinin bilincine açılan bir penceredir. Her şeyin özü budur” diyor.
Şişeden çıktıktan sonra, yapay zeka cini kontrol etmek zor olabilir. Yıllardır, özel efektlerin yoğun olduğu film yapımlarında aktörlerin dijital olarak taranması yaygın bir uygulamadır. Bu sayede film yapımcıları, yapay zeka araçlarını kullanarak aktörlerin performanslarını geliştirebilir veya değiştirebilir. Bu tür kopyaların kullanımının kısıtlanması, 2023 Hollywood aktör grevinde önemli bir tartışma konusu oldu.
Röportajlarda, büyük podcast yayıncılarının yöneticileri, yaratıcılar veya dinleyicilerle ilişkilerini tehlikeye atacak bir ürün veya politika sunmaktan çekindiklerini söylediler. Ancak ses klonlarının yetenekleri konusunda heyecanlarını dile getirdiler.
Spotify’ın podcast ürünleri başkanı Maya Prohvonik, “Bu teknolojinin birçok yaratıcı için daha fazla olanak sağlayacağına dair iyimserim. Bu sadece kendinizi ölçeklendirmek için bir araç. Sizin yerinizi almıyor” dedi.
iHeartPodcasts’in başkanı Will Pearson, bir bölümü sunmak veya bir reklamı baştan sona okumak için klonların kullanımına karşı çıkacağını, ancak düzenlemelerde veya bir insanın performansını özelleştirmek için kullanılabileceğini söyledi.
Pearson, “Bu şeyleri uyarlama yeteneğini keşfetmek ilginç olacak” dedi.
Boster kararsız kalmaya devam ediyor. “I Can’t Sleep” hayranlarının yapay zeka deneyini eleştireceğinden endişelenmesine rağmen, herhangi bir şikayet almadı.
Yine de, podcast’i kendisi kaydetmeye geri döndü ve klonla başka bir bölüm yayınlamadı. Boster, dinleyicilerinin sadece yarı bilinçli olmasına rağmen, belirli bir özen yükümlülüğü hissettiğini söyledi.
Boster, “Muhtemelen bu işten paçayı sıyırabilirim. Ama bu durum bana geri tepebilir” dedi.
Kaynak: Reggie Ugwu / New York Times