Bizimle iletişime geçin

Haberler

Mikrofon kullanmadan yapay zekayla podcast üretmek artık mümkün

Mikrofona gerek kalmadan, yalnızca yapay zeka kullanarak bir podcast kaydedebilir misiniz? Artık mümkün. Paul McNally, üç sunucunun haberler hakkında sohbet ettiği, tamamen yapay zeka tarafından oluşturulan bir podcast hazırladı. Bu yazıda bunun nasıl yapılacağını açıklıyor.

Yayınlanma tarihi

on

Eksiksiz bir podcast bölümü oluşturmak için yapay zekayı kullanabilirsiniz, üstelik mikrofon gerekmiyor.

Tamamen yapay zeka araçlarıyla bir podcast bölümünü nasıl oluşturabileceğinizi açıklıyoruz. Her şeyin değişmesine hazır olun.

Bu yılın başlarında Atina’daydım. Oraya vardığımda neden orada olduğumdan tam olarak emin değildim. Görünüşte iki yıl önce gerçekleşen bir suikastı haberleştirmem gerekiyordu, ancak kısa süre sonra bu hikayenin haberleştirilmemesinin bir nedeni olduğu söylendi. Güvenliğim için bir haberi yapmamamın açıkça söylendiği ve bu tavsiyeye gerçekten uyduğum tek zamandı.

Sonraki birkaç ay boyunca şehirde dolaştım, harika gazetecilerle takıldım ve deli gibi beyaz peynir yedim. Ama aynı zamanda yapay zekanın yaklaşan dünyası karşısında sarsılmıştım ve medyanın nereye gittiği konusunda biraz paniğe kapılmıştım. Airbnb’me kapandım ve dünyanın yeni en iyi arkadaşı ChatGPT ile konuşmaya başladım.

Bu Nisan 2023’te oldu. O zamandan beri yapay zeka ve medya da dahil olmak üzere her sektör için ne anlama geleceği hakkında çok şey yazıldı ve söylendi. Ancak benim bir insan sesi kaydetmeye bile gerek kalmadan sıfırdan bir podcast bölümü üretebilecek bir uygulama geliştirme hayalim vardı. Bu podcast’in bir versiyonunu Atina için, bir diğerini Johannesburg için, bir diğerini Londra için hayal ettim… robotlar tarafından üretilen ve sentetik olarak seslendirilen günün haberleri.

O ay ChatGPT ile herkesten daha fazla konuştum. Kod yazmak için Google’ın Colab programını kullandım (Python’da) ve tekrarlayan, zaman zaman sinir bozucu ve genellikle heyecan verici bir zaman geçirdim.

Bu sizin hayatınız haline geldiğinde… insanlarla suikastlar hakkında sohbet etmek yerine…

Johannesburg’dan günlük haberleri üç eğitimli hayali ses arasında bir tartışma formatında anlatan 10 dakikalık bir podcast bölümünün tamamını ortaya çıkaracak bir çalışma senaryosu oluşturmayı başardım.

Sunuculardan birinin her zaman haberlerde bir sonraki adımın ne olacağını tahmin etmesi fikrine sahiptim; bu nedenle iki ana sunucu bir hikayenin ayrıntılarını anlattıktan sonra hikayenin nereye gideceğine dair tahminleri için üçüncü sunucuya aktaracaklardı. Bunun nedeni ChatGPT’nin hayali anlatılar yaratma konusunda gerçekleri aktarmaktan daha güçlü olmasıydı.

Program Google News ile konuşuyor, günün en önemli haberlerini buluyor ve malzeme için önde gelen siteleri tarıyordu. ChatGPT doğrudan wesbite metninden bir senaryo üretemiyordu, bu yüzden önce haber makalelerini gerçekler listesine dönüştürmesini ve ardından gerçeklerden bir senaryo oluşturmasını istemem gerekti. Buradaki zorluk, her sunucunun farklı bir sentetik sesle eşleştirilmesini sağlamaktı. Bu yüzden senaryoyu farklı diyalog satırlarına ayırmam ve ardından her satırı uygun sentetik ses emülatörüne göndermem gerekiyordu. Daha sonra tüm satırları düzinelerce küçük MP3 olarak geri çekiyor, hepsini bir araya getiriyor ve tam bir MP3 olarak çıkarıyorsunuz.

Birkaç pürüz vardı; sentetik seslerin maliyeti (karakter başına ücretlendiriliyordu) çok yüksekti. Günde 100 podcast bölümünden oluşan distopik bir fabrika hayal etmiştim; kimse yayınlanmadan önce içeriği dinlemiyordu bile. Bu mümkün olmayacaktı. Diğer bir sorun da her bir bölümün üretilme hızının birkaç tıklama ve ardından bitecek kadar hızlı olmamasıydı. Tutarlı bir senaryo elde etmek için istemleri bazen birden fazla kez ChatGPT’ye geri göndermeniz gerekiyordu. Bölüm başına 2 dakika bütçe ayırmıştım, ancak 10 dakikaya yaklaştı (on dakikalık senaryolu içerik için yine de etkileyici). Üçüncü engel ise podcast bölümünün affedilmez derecede sıkıcı olmasıydı… Podcast hazırlayan biri için bu sonuncusu neredeyse bir rahatlama oldu. Bununla birlikte, üç sunucu arasındaki “sohbet” rahatsız edici derecede gerçekçiydi ve ses inanılmaz derecede gerçek geliyordu. Büyük bir potansiyel olduğunu biliyordum ama bu her şeyi çözecek bir çözüm değildi.

Sonunda Atina’dan ayrıldım. Cape Town’a (liseye ve üniversiteye gittiğim yer) bir uçak bileti aldım ve buraya yerleştim. Beş ay oldu ve o zamandan beri yapay zeka patladı. Yapay Zekayı Geliştirmeye başladım ve bu bülteni temel alarak bu mektupta açıklanan yapay zeka aracıyla geliştirilen bir podcast bölümünü şimdiden dinleyebilirsiniz. Kendi otomatik podcast bölümünüzü üretebilmeniz için bu uygulamayı yakında halka açacağız.

Uni adında bir WhatsApp dezenformasyon botumuz zaten var (son bültende bahsetmiştim). Deneyin ve ardından WhatsApp Topluluğumuza katılarak bize ne düşündüğünüzü söyleyin.

www.bing.com/images/create ile üretildi ve “iki Afrikalı gazetecinin etrafta zıplayıp yapay zekayla bir podcast bölümü oluşturması, foto gerçekçi yakın çekim ve dağınıklık” istemiyle üretildi

Kaynak: Paul McNally / Substack

 

Okumaya devam et
1 Yorum

1 Yorum

  1. Yavuz Kömeçoğlu

    23 Ekim 2023 at 08:49

    🎙️ #AIPodcast ilk bölümüyle yayında! İlk bölümde konuğumuz #YapayZeka Uzmanı Elif Yılmaz.
    Yapay Zeka Destekli Sanat ve Yaratıcılık üzerine sohbeti kaçırmayın.

    DİKKAT: Konusundan, dialoglarına ve hatta konuk adına tamamen YapayZeka üretimi.
    Seslendirme bile YapayZeka’ya ait.
    Ne böyle bir kişi var, ne de bu sesler birisine ait!

    Spotify’dan dinlemek için:
    https://open.spotify.com/show/6nhuKcRWN3hbsovTs7KPtJ?si=4cb49f8ceea34db6&nd=1

    Apple Podcasts’den dinlemek için:
    https://podcasts.apple.com/us/podcast/ai-podcast/id1712368675

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haberler

Danimarka, insanların kendi özelliklerini telif hakkıyla korumayı planlıyor

Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. Bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.

Yayınlanma tarihi

=>

Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. The Guardian’ın haberine göre, bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.

Danimarka Kültür Bakanlığı, mevcut yasayı değiştirmek için bir öneri sunması gerekse de, kurum şimdiden tüm partilerin desteğini almayı başardı.

Danimarka Kültür Bakanı Jakob Engel-Schmidt, The Guardian gazetesine verdiği demeçte, “Tasarıda, herkesin kendi bedeni, kendi sesi ve kendi yüz özellikleri üzerinde hak sahibi olduğu konusunda hemfikiriz ve bu konuda net bir mesaj veriyoruz. Ancak mevcut yasa, insanları yapay zeka ile üretilen içeriklere karşı bu şekilde korumuyor” dedi.

ABD’de, birkaç eyalet, seçimler sırasında kötüye kullanım ve rıza dışı cinsel içerikle ilgili derin sahtecilik yasalarını kabul etti. Kongre, eyaletlerin yapay zekayı 10 yıl boyunca düzenleme yetkisini elinden alacak yeni bir bütçe uzlaşma tasarısını değerlendirirken, bu yasaların çoğu şu anda risk altında.

Kaynak: TechCrunch

Okumaya devam et

Haberler

Meta, ses klonlama girişimi Play AI’ı satın almaya hazırlanıyor

Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.

Yayınlanma tarihi

=>

Meta, yapay zeka araştırma yetenek havuzunu güçlendirmenin yanı sıra, tüketiciye yönelik yapay zeka özelliklerini de geliştirmeye istekli görünüyor. Bloomberg’in haberine göre şirket, Play AI adlı bir ses klonlama girişimini satın almak için görüşmeler yürütüyor.

Habere göre teknoloji devi, girişimin teknolojisini satın almayı ve bazı çalışanlarını bünyesine katmayı hedefliyor.

Play AI, web sitesine göre, herkesin müşteri hizmetleri gibi AI destekli kullanım durumları için kullanabileceği farklı türde sesleri klonlamasına olanak tanıyor. Crunchbase’e göre, bu girişim toplamda 23,5 milyon dolar fon topladı ve yatırımcıları arasında 500 Global, Kindred Ventures, Race Capital ve Soma Capital bulunuyor.

Meta şu anda sosyal platformlarındaki içerik oluşturucuların kendi sohbet robotlarını oluşturmalarına izin veriyor ve Meta AI sohbet robotuna video düzenleme özellikleri ekledi. Bir ses girişimini satın almak, şirketin yaratıcı paketine ses özellikleri eklemesine olanak tanıyacak.

Meta ve Play AI haberlere ilişkin yorum yapmadı.

Kaynak: TechCrunch

Okumaya devam et

Haberler

ElevenLabs, yapay zeka özelliklerine sahip mobil uygulamasını başlattı

Sesli yapay zeka şirketi ElevenLabs, iOS ve Android için kullanıcıların hareket halindeyken metinden ses klipleri oluşturmasına olanak tanıyan, etiketler aracılığıyla ifade kontrolü ve popüler içerik oluşturma uygulamalarıyla sorunsuz entegrasyon sağlayan en yeni v3 alfa metinden sese modellerine erişim sunan bağımsız bir mobil uygulama başlattı.

Yayınlanma tarihi

=>

Sesli yapay zeka şirketi ElevenLabs, iOS ve Android kullanıcılarının metinden ses klipleri oluşturmasına olanak tanıyan bağımsız bir mobil uygulama yayınladı.

Şimdiye kadar, ElevenLabs’ın yapay zeka destekli ses kütüphanelerini kullanarak örnekler üretmeniz gerekiyorsa, web uygulamasına güvenmek zorundaydınız. Şimdi hareket halindeyken klipler üretmek için mobil uygulamasını kullanabilirsiniz.

ElevenLabs mobil uygulaması, hareket halindeki içerik üreticiler için tasarlanmış şık ve sezgisel bir arayüzde güçlü AI ses üretme özelliklerini bir araya getiriyor. Kullanıcılar, 70’den fazla dilde binlerce gerçekçi sese erişebilir ve yaş, aksan ve stil filtreleri kullanarak her projeye en uygun sesi bulabilir. Uygulama, stadyum tezahüratlarından ince komedi zamanlamalarına kadar her ses klibini olağanüstü derecede insan sesine benzeten, benzeri görülmemiş bir duygusal aralık ve ifade kontrolü sunan son teknoloji Eleven v3 modelini içeriyor.

Uygulamayı diğerlerinden ayıran özellik, özelleştirme seçenekleri ve sorunsuz iş akışı entegrasyonu. Kullanıcılar, hayal ettikleri sesi tam olarak elde etmek için hız, kararlılık ve stil gibi ses parametrelerini ince ayar yapabilirler. Tek dokunuşla dışa aktarma özelliği sayesinde, oluşturulan sesler CapCut, TikTok, Instagram ve YouTube Shorts gibi popüler içerik oluşturma platformlarında anında paylaşılabilir. Uygulama, kullanıcıların ElevenLabs hesaplarıyla senkronize olarak, kişisel ses klonları, kaydedilmiş favoriler ve web platformundaki önceki içerikler dahil olmak üzere tam ses kitaplığına erişim sağlıyor. Ücretsiz kullanıcılar, mobil ve web uygulamaları arasında paylaşılan kredi limitleri ile ayda yaklaşık 10 dakika ses oluşturma hakkı elde ediyor.

V3 Alpha İfade Kontrolleri

Eleven v3 (alpha), satır içi ses etiketleri aracılığıyla ses ifadesinde benzeri görülmemiş bir kontrol sağlayarak AI konuşma sentezinde devrim yaratıyor. Önceki modellerden farklı olarak, v3 kullanıcıların [fısıldar], [güler], [kızgın], [heyecanlı] ve [iç çeker] gibi duygusal ipuçlarını doğrudan metne yerleştirerek performansları yönlendirmelerine olanak tanıyor ve doğal duygusal geçişlerle olağanüstü insan benzeri bir sunum yaratıyor. Bu etiketler birleştirilebilir (örneğin, “[mutlu][bağırır] Başardık! [güler]”) birleştirilerek, AI ses teknolojisiyle daha önce imkansız olan nüanslı performanslar elde edilebilir.

Modelin gelişmiş mimarisi, tüm duyguları ve ses efektlerini destekleyerek, ince ton değişikliklerinden cümle ortasında dramatik performans değişikliklerine kadar her şeyi mümkün kılıyor. v3, önceki sürümlerden daha fazla hızlı mühendislik gerektirse de, sesli kitaplar, videolar ve etkileşimli medya gibi uygulamalarda olağanüstü gerçekçilik sağlıyor. Gerçek zamanlı üretim ihtiyacı olan kullanıcılar için ElevenLabs, v3’ün gerçek zamanlı sürümü kullanıma sunulana kadar v2.5 Turbo veya Flash modellerini kullanmaya devam etmelerini öneriyor. Şirket, arayüzü üzerinden erişen self servis kullanıcılar için 2025 Haziran sonuna kadar v3 kullanımında %80 indirim sunuyor.

Çapraz Platform Entegrasyon Yetenekleri

ElevenLabs, geliştiricilerin AI ses teknolojisini çeşitli uygulamalara sorunsuz bir şekilde entegre etmelerini sağlayan, birden fazla platformda sağlam entegrasyon yetenekleri sunuyor. Platform, geliştiricilerin ses özelliklerini hızlı bir şekilde uygulamaya koyarken, kurumsal düzeyde güvenlik için GDPR ve SOC II uyumluluğunu koruyan Python ve TypeScript SDK’ları sağliyor. Kodsuz çözümler arayanlar için Albato, Make ve Appy Pie Automate gibi hizmetler, programlama uzmanlığı gerektirmeden ElevenLabs’ı yüzlerce popüler uygulamaya bağlamayı mümkün kılıyor.

Şirketin Konuşma Yapay Zeka teknolojisi, Salesforce, HubSpot ve Gmail gibi hizmetlere bağlanmak için Çok Kanallı Protokolü (MCP) destekleyen 11ai’nin tanıtımıyla entegrasyon olanaklarını daha da genişletti. Mobil uygulama entegrasyonu, geliştiricilerin önceden hazırlanmış sesler arasından seçim yapabileceği veya mobil uygulamalar için kendi seslerini özelleştirebileceği konuşma AI oyun alanı aracılığıyla kolayca gerçekleştirilebilir. Bu entegrasyon seçenekleri, ElevenLabs’ı web, mobil ve telefon kanallarında gerçekçi AI tarafından üretilen seslerle ürünlerini geliştirmek isteyen işletmeler için çok yönlü bir seçim haline getiriyor.

Kaynak: Perplexity

Okumaya devam et

En son