Bizimle iletişime geçin

Haberler

Podcast’inize nefes alma izni verin

Podcast bölümlerinizi düzenlerken mükemmel olmasını istiyor ve tüm “ııııı”lar ile nefesleri temizliyorsanız bir kez daha düşünün; bu tercihiniz hem podcast’inizin doğallığını bozabilir, hem de dinleyicilerinizi yorabilir.

Yayınlanma tarihi

on

Kısa bir süre önce Twitter’da bir anket düzenledim ve en sevdiğiniz podcast’i dinlemenize engel olan en önemli şeyin ne olduğunu sordum. Seçenekler reklam ekleme, format değişikliği, sıklık değişikliği ya da “diğer” şeklindeydi. Sonuçlar aşağıda yer alıyor (Twitter’daki anketi açmak için resme tıklayın):

Gördüğünüz gibi, reklam eklemek ve formatı değiştirmek arasında oldukça eşit bir dağılım var. Ancak 81 oydan neredeyse %25’i “diğer” dedi ve bu oylar öncelikle tüm podcast yayıncılarının öğrenmesi ve/veya yapmayı hatırlaması gereken bir şeyi paylaştı ve bu da podcast’inize nefes alma izni vermek.

İnsan Sesi Staccato Değildir

“Diğer” sonucu için yanıtlara bakıldığında, düzenli olarak ortaya çıkan bir şey düzenlemeydi. Daha spesifik olarak, iyi/mükemmel ses elde etme arayışının biraz fazla ileri gittiği ve düzenlemenin sergilenen sesin daha doğal akışını ortadan kaldırdığı çok fazla düzenleme.

Ve bu anlaşılabilir bir durum, sonuçta dinleyicilerinize sunabileceğiniz en iyi deneyimi sunmak istiyorsunuz. Ancak, düzenleyebileceğiniz her şeye çok fazla takılırsanız, bu deneyim pahasına olabilir.

Örneğin, Euan McAleece şunları söyledi:

Son zamanlarda duyduğum bir başka sıkıntı da Premier Pro, Descript ya da bunu sunan başka bir şeyde yapay zekanın otomatik dolgu sözcüklerini kaldırma işlevinin kullanılmasıyla ortaya çıkan kötü düzenlemeler. Düzenlemelerin yarısından fazlası 17. yüzyıl Hollanda köylülerinin dansından bile daha hantal.

Euan’ın belirttiği gibi, bu birkaç kez fark ettiğim bir şey ve genellikle bir podcaster, genellikle post prodüksiyonda zaman kazanmak amacıyla, dolgu kelimelerini tek bir tıklamayla kaldırmak için yukarıda bahsedilen araçları kullandığında meydana geliyor.

Ancak, bu araçlar aşırı agresif olabiliyor ve örnek olarak doğal bir “ıııı”nın ne olduğunu ve birinin tekrar konuşmadan önce durakladığını ve düşündüğünü vurgulamak için bu “ııı”lardan bazılarının neden bırakılması gerektiğini her zaman yakalayamayabiliyor.

Bu araçların düzenleyebildiği agresiflik seviyesi nedeniyle, sonuç çok dalgalı veya kesik kesik olabilir. Bu durum YouTube atlama klipleri için iyi olabilir, ancak sesli podcast’ler için pek de iyi değil.

Bir başka mükemmel noktaya da The Nerdstalgic Podcast’ten Luke değindi:

Son derece kurgulanmış, o kadar ki tüm insan kişiliği kaybolmuş ve kulağa çok mükemmel geliyor. Bu gerçek yüzünden programları dinlemeyi bıraktım, “ıııı”, nefes ve kötü mikrofon kalitesiyle başa çıkabilirim çünkü bunlar indie podcast’ler, insan şakası olacak, ama gerçek hissettirdiğinde dışarıdayım.

Hem Luke hem de Euan’ın yanıtlarında vurguladıkları gibi, bazı podcast yayıncıları düzenleme tahtasına büyük bir kesme bıçağı götürüyor ve konuşmanın belirli kelimeleri olmayan her şeyi çıkarıyor.

Bu genellikle ıııı, ahh, vb. gibi dolgu kelimelerdir. Ancak, konuşmacılardan birinin diğerlerinden daha duyulabilir bir nefes alma sesine sahip olduğu nefesler kadar basit bir şey de olabilir. Ve bunlar, her örnek bırakıldığında kesinlikle dikkat çekici olabilirken, dinleme deneyiminden uzaklaşabilir, ancak hepsini kaldırmak da aynı derecede kötü olabilir.

Bu da bizi podcast’inizin nefes almasına izin vermenin önemine geri getiriyor.

Konuşmanın Organik Akışı

Şimdiye kadar yaptığınız herhangi bir konuşmayı düşünün. Ya da yapmış olabileceğiniz bir monoloğu (belki bir düğünde sağdıç olarak yaptığınız bir konuşmayı ya da okulda yaptığınız bir mezuniyet konuşmasını, hatta yerel süpermarkette kasiyerle yaptığınız bir konuşmayı, vb.) Şimdi, siz (ve diğerleri) konuşurken, bu nasıl gitti?

  • Konuşma rahattı ve ıııı ve ah’ları içeriyordu, aynı zamanda kasıtlıydı ve biri tekrar konuşmadan önce duraklamalar vardı.
  • Konuşma ürkek ve bir sonraki noktaya geçmeye aşırı odaklanmıştı.

Tahminimce her seferinde birincisiydi. Çünkü biz insanlar böyleyiz.

Sohbetler, insan konuşmasının güzelliği, tonu ve nüansının geldiği bir gelgit ve akış içinde yakalanan ses anlarıdır. Bunu ortadan kaldırırsak, harika bir sohbeti oluşturan organik tonu ortadan kaldırmış oluruz ve bu da bölümlerimizi oynatırken dinleyicileri o andan uzaklaştırabilir.

Bir dinleyiciyi dinleme deneyiminin dışına çıkarırsak, onu tekrar içeri çekmek zor olabilir ki bu da -en kötü senaryoda- dinleyiciyi kaybetmek demektir.

Dolayısıyla podcast’imizin nefes almasına izin vermeliyiz ve düzenleme söz konusu olduğunda bunu yapmanın üç basit yolu var.

  1. Her ıııı’yı silmeyin. Evet, çok fazla olduklarında çok dikkat çekici olabilirler, ancak bazen konuşmanın çok doğal bir parçası da olabilirler (örneğin, bir şey yapmak için bir nokta düşünürken). Bu yüzden onları içeride bırakın.
  2. Nefesleri çıkarma konusunda çok agresif olmayın. Tıpkı “ıııı”lar gibi, eğer birisi konuşurken özellikle nefes nefese kalıyorsa bunlar da dikkat çekici olabilir; ancak bu konuda çok agresif olursanız, artık doğal nefesler de çıkarıldığı için kulağa dalgalı gelebilir. Bu nedenle, fark edilmeyen nefesleri içeride bırakırken, post prodüksiyonda dB’yi düşürerek herhangi bir nefes çıkarma işlemini yönetmeye çalışın.
  3. Dolgu sözcükleri ve boşlukları kaldırmak için yapay zekaya güvenmeyin. Size zaman kazandırsa da, bir podcaster’ın gözden geçirmeden dolgu kelimeleri kaldırmak için bir yapay zeka aracı kullandığını her zaman anlayabilirsiniz, çünkü kelimeler ve cümleler arasındaki boşluk çok daha belirgin ve zıplamalı ve kulağa çok doğal gelmiyor. Bu nedenle, gözden geçirmek için zaman ayırın ve yalnızca deneyime katkıda bulunmayan veya kaldırıldığında daha belirgin olanları kaldırın.

Dinleyiciler de tıpkı podcast yayıncıları gibidir; iyi bir dinleme deneyimi isterler, ancak aynı zamanda günlük olarak alıştıkları her şeye benzeyen bir ses de isterler. Buna, daha iyi bir kelime bulmak gerekirse, ııııı, aah, nefes alma vb. gibi konuşma “tuhaflıkları” da dahildir.

Ve bunu yapmanın en iyi yolu, podcast’inizin nefes almasına izin vermek ve onu akıcı kılan parçaları çıkarmak ve kopuk bir deneyim bırakmak yerine onları korumaktır.

Bir dahaki sefere kadar, mutlu podcast yayınları!

Kaynak: Danny Brown / Pod Chat News

Okumaya devam et
Yorum yapmak için tıklayın

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haberler

Danimarka, insanların kendi özelliklerini telif hakkıyla korumayı planlıyor

Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. Bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.

Yayınlanma tarihi

=>

Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. The Guardian’ın haberine göre, bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.

Danimarka Kültür Bakanlığı, mevcut yasayı değiştirmek için bir öneri sunması gerekse de, kurum şimdiden tüm partilerin desteğini almayı başardı.

Danimarka Kültür Bakanı Jakob Engel-Schmidt, The Guardian gazetesine verdiği demeçte, “Tasarıda, herkesin kendi bedeni, kendi sesi ve kendi yüz özellikleri üzerinde hak sahibi olduğu konusunda hemfikiriz ve bu konuda net bir mesaj veriyoruz. Ancak mevcut yasa, insanları yapay zeka ile üretilen içeriklere karşı bu şekilde korumuyor” dedi.

ABD’de, birkaç eyalet, seçimler sırasında kötüye kullanım ve rıza dışı cinsel içerikle ilgili derin sahtecilik yasalarını kabul etti. Kongre, eyaletlerin yapay zekayı 10 yıl boyunca düzenleme yetkisini elinden alacak yeni bir bütçe uzlaşma tasarısını değerlendirirken, bu yasaların çoğu şu anda risk altında.

Kaynak: TechCrunch

Okumaya devam et

Haberler

Meta, ses klonlama girişimi Play AI’ı satın almaya hazırlanıyor

Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.

Yayınlanma tarihi

=>

Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Bloomberg’in haberine göre şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.

Habere göre teknoloji devi, girişimin teknolojisini satın almayı ve bazı çalışanlarını bünyesine katmayı hedefliyor.

Play AI, web sitesine göre, herkesin müşteri hizmetleri gibi AI destekli kullanım durumları için kullanabileceği farklı türde sesleri klonlamasına olanak tanıyor. Crunchbase’e göre, bu girişim toplamda 23,5 milyon dolar fon topladı ve yatırımcıları arasında 500 Global, Kindred Ventures, Race Capital ve Soma Capital bulunuyor.

Meta şu anda sosyal platformlarındaki içerik oluşturucuların kendi sohbet robotlarını oluşturmalarına izin veriyor ve Meta AI sohbet robotuna video düzenleme özellikleri ekledi. Bir ses girişimini satın almak, şirketin yaratıcı paketine ses özellikleri eklemesine olanak tanıyacak.

Meta ve Play AI haberlere ilişkin yorum yapmadı.

Kaynak: TechCrunch

Okumaya devam et

Haberler

ElevenLabs, yapay zeka özelliklerine sahip mobil uygulamasını başlattı

Sesli yapay zeka şirketi ElevenLabs, iOS ve Android için kullanıcıların hareket halindeyken metinden ses klipleri oluşturmasına olanak tanıyan, etiketler aracılığıyla ifade kontrolü ve popüler içerik oluşturma uygulamalarıyla sorunsuz entegrasyon sağlayan en yeni v3 alfa metinden sese modellerine erişim sunan bağımsız bir mobil uygulama başlattı.

Yayınlanma tarihi

=>

Sesli yapay zeka şirketi ElevenLabs, iOS ve Android kullanıcılarının metinden ses klipleri oluşturmasına olanak tanıyan bağımsız bir mobil uygulama yayınladı.

Şimdiye kadar, ElevenLabs’ın yapay zeka destekli ses kütüphanelerini kullanarak örnekler üretmeniz gerekiyorsa, web uygulamasına güvenmek zorundaydınız. Şimdi hareket halindeyken klipler üretmek için mobil uygulamasını kullanabilirsiniz.

ElevenLabs mobil uygulaması, hareket halindeki içerik üreticiler için tasarlanmış şık ve sezgisel bir arayüzde güçlü AI ses üretme özelliklerini bir araya getiriyor. Kullanıcılar, 70’den fazla dilde binlerce gerçekçi sese erişebilir ve yaş, aksan ve stil filtreleri kullanarak her projeye en uygun sesi bulabilir. Uygulama, stadyum tezahüratlarından ince komedi zamanlamalarına kadar her ses klibini olağanüstü derecede insan sesine benzeten, benzeri görülmemiş bir duygusal aralık ve ifade kontrolü sunan son teknoloji Eleven v3 modelini içeriyor.

Uygulamayı diğerlerinden ayıran özellik, özelleştirme seçenekleri ve sorunsuz iş akışı entegrasyonu. Kullanıcılar, hayal ettikleri sesi tam olarak elde etmek için hız, kararlılık ve stil gibi ses parametrelerini ince ayar yapabilirler. Tek dokunuşla dışa aktarma özelliği sayesinde, oluşturulan sesler CapCut, TikTok, Instagram ve YouTube Shorts gibi popüler içerik oluşturma platformlarında anında paylaşılabilir. Uygulama, kullanıcıların ElevenLabs hesaplarıyla senkronize olarak, kişisel ses klonları, kaydedilmiş favoriler ve web platformundaki önceki içerikler dahil olmak üzere tam ses kitaplığına erişim sağlıyor. Ücretsiz kullanıcılar, mobil ve web uygulamaları arasında paylaşılan kredi limitleri ile ayda yaklaşık 10 dakika ses oluşturma hakkı elde ediyor.

V3 Alpha İfade Kontrolleri

Eleven v3 (alpha), satır içi ses etiketleri aracılığıyla ses ifadesinde benzeri görülmemiş bir kontrol sağlayarak AI konuşma sentezinde devrim yaratıyor. Önceki modellerden farklı olarak, v3 kullanıcıların [fısıldar], [güler], [kızgın], [heyecanlı] ve [iç çeker] gibi duygusal ipuçlarını doğrudan metne yerleştirerek performansları yönlendirmelerine olanak tanıyor ve doğal duygusal geçişlerle olağanüstü insan benzeri bir sunum yaratıyor. Bu etiketler birleştirilebilir (örneğin, “[mutlu][bağırır] Başardık! [güler]”) birleştirilerek, AI ses teknolojisiyle daha önce imkansız olan nüanslı performanslar elde edilebilir.

Modelin gelişmiş mimarisi, tüm duyguları ve ses efektlerini destekleyerek, ince ton değişikliklerinden cümle ortasında dramatik performans değişikliklerine kadar her şeyi mümkün kılıyor. v3, önceki sürümlerden daha fazla hızlı mühendislik gerektirse de, sesli kitaplar, videolar ve etkileşimli medya gibi uygulamalarda olağanüstü gerçekçilik sağlıyor. Gerçek zamanlı üretim ihtiyacı olan kullanıcılar için ElevenLabs, v3’ün gerçek zamanlı sürümü kullanıma sunulana kadar v2.5 Turbo veya Flash modellerini kullanmaya devam etmelerini öneriyor. Şirket, arayüzü üzerinden erişen self servis kullanıcılar için 2025 Haziran sonuna kadar v3 kullanımında %80 indirim sunuyor.

Çapraz Platform Entegrasyon Yetenekleri

ElevenLabs, geliştiricilerin AI ses teknolojisini çeşitli uygulamalara sorunsuz bir şekilde entegre etmelerini sağlayan, birden fazla platformda sağlam entegrasyon yetenekleri sunuyor. Platform, geliştiricilerin ses özelliklerini hızlı bir şekilde uygulamaya koyarken, kurumsal düzeyde güvenlik için GDPR ve SOC II uyumluluğunu koruyan Python ve TypeScript SDK’ları sağliyor. Kodsuz çözümler arayanlar için Albato, Make ve Appy Pie Automate gibi hizmetler, programlama uzmanlığı gerektirmeden ElevenLabs’ı yüzlerce popüler uygulamaya bağlamayı mümkün kılıyor.

Şirketin Konuşma Yapay Zeka teknolojisi, Salesforce, HubSpot ve Gmail gibi hizmetlere bağlanmak için Çok Kanallı Protokolü (MCP) destekleyen 11ai’nin tanıtımıyla entegrasyon olanaklarını daha da genişletti. Mobil uygulama entegrasyonu, geliştiricilerin önceden hazırlanmış sesler arasından seçim yapabileceği veya mobil uygulamalar için kendi seslerini özelleştirebileceği konuşma AI oyun alanı aracılığıyla kolayca gerçekleştirilebilir. Bu entegrasyon seçenekleri, ElevenLabs’ı web, mobil ve telefon kanallarında gerçekçi AI tarafından üretilen seslerle ürünlerini geliştirmek isteyen işletmeler için çok yönlü bir seçim haline getiriyor.

Kaynak: Perplexity

Okumaya devam et

En son