“Podcast yayıncılığının ses yerine video mecrasına dönüşmesiyle ilgili tartışmalarda bir şey eksik. Sadece sesli bir mecra olarak yapabileceğimiz ama videonun yapamayacağı çok şey var. Ne demek istediğimi size göstermek daha kolay, bu yüzden Amanda McLoughlin ile podcast’imiz Attach Your Résumé için iki giriş bölümü kaydederken kamerayı açtık.” Multitude Productions Geliştirme Başkanı Eric Silver yazdı…
Podcast yayıncılığının ses yerine video mecrasına yönelmesiyle ilgili tartışmalarda bir şey eksik. Bu, Pivot to Video’nun zaten on yıl önce başarısız ve sakatlayıcı bir oyun olduğunu gösteren bir Wikipedia sayfasına sahip olması değil; insanların yalnızca sesli içeriği de sevdiği ve bunu hurdaya çıkarmak için bir neden olmadığı değil; bunun Spotify’ın tüketmeye devam edebilmesi için her zaman 10 kat daha fazla teknoloji şirketi oyunu olması gerektiği değil. Bunların hepsi doğru ama benim bahsettiğim bu değil. Sadece sese dayalı bir mecra olarak videonun yapamayacağı çok şey yapabiliriz.
Ne demek istediğimi size göstermek daha kolay. Amanda ve ben podcastimiz Attach Your Résumé için iki giriş bölümü kaydettik. Bu introlar eşzamanlı bir temizlik: birimiz biriyle dijital işi hakkında röportaj yaptıktan sonra, diğerimiz röportajı dinliyor ve dinleyiciler için onu ön plana çıkaracak bir gözlem hazırlıyor. Ayrıca bir harekete geçirme çağrısı yapıyor ve dinleyicilerin bilmesini istediğimiz başka bir şey söylüyoruz.
İki adet 5 dakikalık giriş yapmaya hazırlandığımız bu kayıt için, hiçbir şeyi kesmediğimizde nasıl görüneceğini göstermek amacıyla stüdyoda bir kamera açmaya karar verdik. Bu, sesten videoya geçerken neleri kaybettiğimizi yansıtacaktı. Videodaki kesintiler çok daha belirgindir, yani küçük hataları kesmek, onları içeride tutmaktan daha dikkat dağıtıcıdır. Dolayısıyla video kaydederken, yüksek kaliteli podcast’leri zahmetsiz ve ilginç kılan küçük parçaları kesmezsiniz ve kesemezsiniz (özellikle editörümüz Mischa bunu gerçekten çok iyi yaptığı için.)
İşte karşınızda, kusurlarıyla birlikte:
İzledin mi? Tekrar izlediğimde fark ettiğim birkaç şey şunlar:
💥 Kamera üzerimde olduğunda farklı davranıyorum! Ringer’ın Spotify’ın direktifi doğrultusunda neredeyse tüm şovlarını YouTube kanallarına dönüştürmesinden beri bunu düşünüyorum. Ve birçoğu blog yazarı olarak başlayıp podcaster olan çekirdek sunucuları video dünyasına itiliyor. Ve tonlarının farklı olduğunu fark ettim! Daha bilinçliler, daha çılgınlar, politik şakalara, çocuklarına veya Los Angeles gezilerine ve birinin uzun süredir konuşmadığını hissettiklerinde başvurdukları konulara yaslanıyorlar. Ve dostum, kamerada olduğumda ben de aynısını yapmadım mı! Uzun süre podcast yapmadan podcast yaptıktan sonra görsel olarak algılandığımda kendimi bilinçli hissettim. Belki bir süre sonra daha rahat hissederim ama daha önce açık olmayan videoyu aniden açmak davranışımı değiştirdi.
💥 Videoda olacağımı tamamen unuttum, bu yüzden spor salonuna gitmek için giyindim. Amanda bunu unutmadı ve yüzüne tam makyaj yaptı. Kendimi Cinsiyet Çalışmaları 101 ders kitabında gibi hissediyorum.
💥 Dar bir pencerede bilgi iletişimi zordur. Kameramız stüdyoda tuttuğumuz bir monitöre yerleştirilmişti, bu yüzden bu iki giriş için hazırladığımız notlara bakıyorduk. Doğru yapmak istiyorduk, bu yüzden işe yaramadığını düşündüğüm şeylerin tekrar çekimlerini yaptığımız için mutluyum. Ve sadece bazı şeyleri tekrar çekmek zorunda olmak ve tüm bölümü tekrar çekmemek, sese özgü düzenleme için gerçek bir nimet. Bu bir video podcast’i olacaksa, sıfırdan başlamak veya fark edilir bir kesinti yapmak arasında seçim yapmak zorunda kalacaktık.
💥 Dürüst olmak gerekirse, YouTuber olmak istemiyorum. Bu yüzden podcaster oldum. Multitude’da bazı şovlar için video kaydediyoruz, ancak yalnızca sosyal medyada paylaştığımız klipler için. Bir podcast kaydının tam videosunu yayınlamak, asla yapmak istemediğim farklı bir ortama tecavüz etmek gibi geliyor. Podcast hayranlarının şovlarına ne kadar bağlı olduklarını, başka bir şey yaparken nasıl dinlediklerini ve bir TikTok videosunda veya canlı bir şovda yüzümü gördüklerinde yaşadıkları şaşkınlığı seviyorum. Ve internette yeterince uzun süredir bulunuyorum ve YouTube’un, popüler podcast sanatçılarının, teknoloji devrimlerinin ve büyük şirketlerin iddia ettiği gibi bir İnternet Cenneti olmadığını biliyorum. Jack Conte’nin Patreon’u başlatmasının nedeni buydu; müzik videoları Google AdSense ile para kazanmadı. Herhangi bir YouTuber ile konuşun, eziyetten ve değişen algoritmadan ve herhangi bir izleyicinin You Won’t Believe These 5 Feromone to Woo the Trad Wife Of Your Dreams’den iki adım uzakta olmasından nefret ederler! Burada kendi mükemmel olmayan havuzumuz varken neden bu tamamen farklı ve kendi belirgin sorunlarıyla dolu havuza dalmak istiyoruz?
Danimarka, insanların kendi özelliklerini telif hakkıyla korumayı planlıyor
Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. Bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.
Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. The Guardian’ın haberine göre, bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.
Danimarka Kültür Bakanlığı, mevcut yasayı değiştirmek için bir öneri sunması gerekse de, kurum şimdiden tüm partilerin desteğini almayı başardı.
Danimarka Kültür Bakanı Jakob Engel-Schmidt, The Guardian gazetesine verdiği demeçte, “Tasarıda, herkesin kendi bedeni, kendi sesi ve kendi yüz özellikleri üzerinde hak sahibi olduğu konusunda hemfikiriz ve bu konuda net bir mesaj veriyoruz. Ancak mevcut yasa, insanları yapay zeka ile üretilen içeriklere karşı bu şekilde korumuyor” dedi.
ABD’de, birkaç eyalet, seçimler sırasında kötüye kullanım ve rıza dışı cinsel içerikle ilgili derin sahtecilik yasalarını kabul etti. Kongre, eyaletlerin yapay zekayı 10 yıl boyunca düzenleme yetkisini elinden alacak yeni bir bütçe uzlaşma tasarısını değerlendirirken, bu yasaların çoğu şu anda risk altında.
Meta, ses klonlama girişimi Play AI’ı satın almaya hazırlanıyor
Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.
Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Bloomberg’in haberine göre şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.
Habere göre teknoloji devi, girişimin teknolojisini satın almayı ve bazı çalışanlarını bünyesine katmayı hedefliyor.
Play AI, web sitesine göre, herkesin müşteri hizmetleri gibi AI destekli kullanım durumları için kullanabileceği farklı türde sesleri klonlamasına olanak tanıyor. Crunchbase’e göre, bu girişim toplamda 23,5 milyon dolar fon topladı ve yatırımcıları arasında 500 Global, Kindred Ventures, Race Capital ve Soma Capital bulunuyor.
Meta şu anda sosyal platformlarındaki içerik oluşturucuların kendi sohbet robotlarını oluşturmalarına izin veriyor ve Meta AI sohbet robotuna video düzenleme özellikleri ekledi. Bir ses girişimini satın almak, şirketin yaratıcı paketine ses özellikleri eklemesine olanak tanıyacak.
ElevenLabs, yapay zeka özelliklerine sahip mobil uygulamasını başlattı
Sesli yapay zeka şirketi ElevenLabs, iOS ve Android için kullanıcıların hareket halindeyken metinden ses klipleri oluşturmasına olanak tanıyan, etiketler aracılığıyla ifade kontrolü ve popüler içerik oluşturma uygulamalarıyla sorunsuz entegrasyon sağlayan en yeni v3 alfa metinden sese modellerine erişim sunan bağımsız bir mobil uygulama başlattı.
Sesli yapay zeka şirketi ElevenLabs, iOS ve Android kullanıcılarının metinden ses klipleri oluşturmasına olanak tanıyan bağımsız bir mobil uygulama yayınladı.
Şimdiye kadar, ElevenLabs’ın yapay zeka destekli ses kütüphanelerini kullanarak örnekler üretmeniz gerekiyorsa, web uygulamasına güvenmek zorundaydınız. Şimdi hareket halindeyken klipler üretmek için mobil uygulamasını kullanabilirsiniz.
ElevenLabs mobil uygulaması, hareket halindeki içerik üreticiler için tasarlanmış şık ve sezgisel bir arayüzde güçlü AI ses üretme özelliklerini bir araya getiriyor. Kullanıcılar, 70’den fazla dilde binlerce gerçekçi sese erişebilir ve yaş, aksan ve stil filtreleri kullanarak her projeye en uygun sesi bulabilir. Uygulama, stadyum tezahüratlarından ince komedi zamanlamalarına kadar her ses klibini olağanüstü derecede insan sesine benzeten, benzeri görülmemiş bir duygusal aralık ve ifade kontrolü sunan son teknoloji Eleven v3 modelini içeriyor.
Uygulamayı diğerlerinden ayıran özellik, özelleştirme seçenekleri ve sorunsuz iş akışı entegrasyonu. Kullanıcılar, hayal ettikleri sesi tam olarak elde etmek için hız, kararlılık ve stil gibi ses parametrelerini ince ayar yapabilirler. Tek dokunuşla dışa aktarma özelliği sayesinde, oluşturulan sesler CapCut, TikTok, Instagram ve YouTube Shorts gibi popüler içerik oluşturma platformlarında anında paylaşılabilir. Uygulama, kullanıcıların ElevenLabs hesaplarıyla senkronize olarak, kişisel ses klonları, kaydedilmiş favoriler ve web platformundaki önceki içerikler dahil olmak üzere tam ses kitaplığına erişim sağlıyor. Ücretsiz kullanıcılar, mobil ve web uygulamaları arasında paylaşılan kredi limitleri ile ayda yaklaşık 10 dakika ses oluşturma hakkı elde ediyor.
V3 Alpha İfade Kontrolleri
Eleven v3 (alpha), satır içi ses etiketleri aracılığıyla ses ifadesinde benzeri görülmemiş bir kontrol sağlayarak AI konuşma sentezinde devrim yaratıyor. Önceki modellerden farklı olarak, v3 kullanıcıların [fısıldar], [güler], [kızgın], [heyecanlı] ve [iç çeker] gibi duygusal ipuçlarını doğrudan metne yerleştirerek performansları yönlendirmelerine olanak tanıyor ve doğal duygusal geçişlerle olağanüstü insan benzeri bir sunum yaratıyor. Bu etiketler birleştirilebilir (örneğin, “[mutlu][bağırır] Başardık! [güler]”) birleştirilerek, AI ses teknolojisiyle daha önce imkansız olan nüanslı performanslar elde edilebilir.
Modelin gelişmiş mimarisi, tüm duyguları ve ses efektlerini destekleyerek, ince ton değişikliklerinden cümle ortasında dramatik performans değişikliklerine kadar her şeyi mümkün kılıyor. v3, önceki sürümlerden daha fazla hızlı mühendislik gerektirse de, sesli kitaplar, videolar ve etkileşimli medya gibi uygulamalarda olağanüstü gerçekçilik sağlıyor. Gerçek zamanlı üretim ihtiyacı olan kullanıcılar için ElevenLabs, v3’ün gerçek zamanlı sürümü kullanıma sunulana kadar v2.5 Turbo veya Flash modellerini kullanmaya devam etmelerini öneriyor. Şirket, arayüzü üzerinden erişen self servis kullanıcılar için 2025 Haziran sonuna kadar v3 kullanımında %80 indirim sunuyor.
Çapraz Platform Entegrasyon Yetenekleri
ElevenLabs, geliştiricilerin AI ses teknolojisini çeşitli uygulamalara sorunsuz bir şekilde entegre etmelerini sağlayan, birden fazla platformda sağlam entegrasyon yetenekleri sunuyor. Platform, geliştiricilerin ses özelliklerini hızlı bir şekilde uygulamaya koyarken, kurumsal düzeyde güvenlik için GDPR ve SOC II uyumluluğunu koruyan Python ve TypeScript SDK’ları sağliyor. Kodsuz çözümler arayanlar için Albato, Make ve Appy Pie Automate gibi hizmetler, programlama uzmanlığı gerektirmeden ElevenLabs’ı yüzlerce popüler uygulamaya bağlamayı mümkün kılıyor.
Şirketin Konuşma Yapay Zeka teknolojisi, Salesforce, HubSpot ve Gmail gibi hizmetlere bağlanmak için Çok Kanallı Protokolü (MCP) destekleyen 11ai’nin tanıtımıyla entegrasyon olanaklarını daha da genişletti. Mobil uygulama entegrasyonu, geliştiricilerin önceden hazırlanmış sesler arasından seçim yapabileceği veya mobil uygulamalar için kendi seslerini özelleştirebileceği konuşma AI oyun alanı aracılığıyla kolayca gerçekleştirilebilir. Bu entegrasyon seçenekleri, ElevenLabs’ı web, mobil ve telefon kanallarında gerçekçi AI tarafından üretilen seslerle ürünlerini geliştirmek isteyen işletmeler için çok yönlü bir seçim haline getiriyor.