Araştırma
Dünyanın ilk yüzde 100 yapay zeka tarafından oluşturulan podcast’lerinden birini nasıl yaptım?
Yapay zeka ve makine öğrenimiyle podcast geliştirme üzerine araştırma ve çalışmaların sayısı artıyor. Eric Borgos da bu meraklı podcast araştırmacılarından birisi. Borgos, bu yazısında dünyanın ilk yüzde 100 yapay zeka tarafından oluşturulan podcast’lerinden birini nasıl yaptığını ayrıntılarıyla anlatıyor.
Yayınlanma tarihi
3 yıl önceon
Yazar :
Podcast TurkeyBirkaç hafta önce, “Joe Rogan interviews Steve Jobs” adlı AI (yapay zeka) tarafından oluşturulan bir podcast, dinlerken yarattığı gerçekçilik hissiyle viral oldu. Etkileyici bir başarıydı, ama gerçekten de halihazırda çalışmakta olduğum çeşitli teknolojilerin (GPT-3 ve ses klonlama gibi) gelişmiş bir kombinasyonuydu; bu yüzden kendi versiyonumu yapmaya karar verdim.
Ünlü kişilere dayalı yapay zeka modelleri oluşturmanın bazı potansiyel sorunları var. Yasal olarak ünlülerin adlarının, fotoğraflarının, suretlerinin ve seslerinin izinsiz kullanımını yasaklayan bir “tanıtım hakkı” var. Bunu bir parodi olarak veya eğitim amaçlı yapıyorsanız bunu aşabilirsiniz, ancak bu benim durumum için geçerli değildi.
Bunun yerine, şunu buldum:
Katılan ünlü yok. Podbot.ai‘den ilham aldı; ancak benim sürümüm daha otomatik. Çünkü podcast bölüm başlığı kendi başına geliyor. Diğer benzer AI podcast’leri arasında Lexman ve Roborah bulunuyor.
Bu proje için programlamanın ilk adımı, AI’nın daha sonra podcast’in başlığı olarak kullanılacak bir konu hakkında “düşünmesini” sağlamaktı. Bir ML modelini blog gönderi başlıkları üzerine eğitmenin podcast’lerden daha iyi olacağına karar verdim. Bu yüzden iyi olanları yazmayı öğrenmesi için 100.000 blog gönderi başlığını açık kaynaklı aitextgen‘e koydum; ama bu korkunç oldu (neden olduğundan emin değilim). Bunun yerine GPT-J kullanan NLPCloud.com Metin Oluşturma API‘sine geçtim (GPT-3’e benzer). İnce ayara gerek yoktu; bunun yerine en iyi neyin işe yaradığını görmek için çeşitli istemleri denemeye güvendim. Denediğim bazı iyi şeyler şunlardı:
“Bir blog yazısı yazdım. Adı:”, “Blog yazımın adı:”, “Adında bir yazı yazdım:”, “Blog yazım için bir isim düşündüm. Bu:”, “İlk 3 blog gönderisi adı:” ve “İlk 3 makale adı:”.
Hepsi otomatikleştirilmiş olsa da, rahatsız edici veya r-dereceli (r-rated) podcast’leri çıkarmak istemedim. Bu yüzden kullanılmadan önce her bir başlığa manuel olarak baktım ve uygunsuz olanları sildim. Ayrıca, kullanmak istemediğim kelimeleri içeren başlıkları otomatik olarak silmek için bir “kötü kelimeler” filtresi ekledim, ancak ben onları yönetmedikçe bazıları yine de geçti.
Ardından, önceden oluşturduğum 8 ana sunucudan oluşan bir kitaplıktan bölüm için bir AI ana sunucusu seçecek şekilde programladım. Her ana sunucunun adı ve soyadı, açık kaynaklı nameCreator (AI değil) kullanılarak oluşturuldu ve ana sunucunun görüntüsü “AI-Generated Faces” web sitemden rastgele seçildi. Daha sonra her ana bilgisayar, resemble.ai‘den bir AI sesiyle rastgele eşleştirildi (bunun kullanımı maliyetli, ancak Coqui ve Tortoise gibi açık kaynaklı alternatifler var).
Podcast’in metin içeriğini almak için başlığı NLPCloud’un Blog Post Generator API‘siyle destekledim. AI podcast içeriği için özel olarak herhangi bir program veya API bulamadım; bu yüzden şimdilik blog yazısı olması gereken şeyi kullanıyorum. Programlamam, ortaya çıkan metni otomatik olarak SSML ile çoğaltıyor; belirli kısımlarını daha yüksek sesle (başlık ve her bölümün adı gibi) yapıyor ve ana sunucunun sesini daha insancıl hale getirmek için her paragrafın arasına duraklamalar ekliyor. Resemble.ai API‘sinden Text-To-Speech daha sonra bu metni bir sese dönüştürüyor.
Resmi bir podcast gibi görünmesi için her bölüme Storyblocks.com‘dan indirdiğim kısa MP3 dosyaları kitaplığından rastgele seçilmiş giriş ve çıkış müziği verdim. Her ikisi de açık kaynak olan FFmpeg ve MoviePy, her ikisi de açık kaynak, daha sonra sesi otomatik olarak karıştırmak için kullanıldı.
Bölümler için kapak resmi, ona bir cümle (“istem”) verdiğiniz ve konseptinizi makine öğrenimini kullanarak bir görüntüye dönüştürdüğünüz yeni bir metinden görüntüye program olan Stable Difusion (açık kaynak) kullanılarak oluşturuldu. Her podcast bölümü için başlık bilgi istemiydi.
Podcast’i sunucumda barındırabilirdim, ancak bunun yerine ücretsiz hesap seviyelerini kullanarak BuzzSprout’a yükledim ve podcast oynatıcılarını BoredHumans.com AI Podcast sayfama yerleştirdim. Bunu kısmen daha resmi görünmesi için yaptım, ama aynı zamanda podcast’i Apple, Spotify, Amazon ve podcast’lerin duyulduğu diğer yerlere gönderebilmem için yaptım.
Şu anda yalnızca 1 bölümüm tamamlandı, ancak planım 100 bölüm daha oluşturmak ve haftada 1 bölümü otomatik olarak yüklemek için BuzzSprout API’sini kullanmak için kod yazmak. Podcast’ler RSS beslemeleri kullanılarak dağıtılır, yani yeni bir bölüm yüklediğimde tüm büyük podcast uygulamalarında otomatik olarak görünecek.
Ayrıca sesli podcast’imi Synthesia kullanarak bir video podcast’e dönüştürmeyi düşünüyorum, aşağıya bakın:
AI Video Barındırıcıları
Ancak bununla ilgili potansiyel bir sorun var. Şartlar ve koşullar sayfasında, yapmak istediklerimi yasaklayan iki kısıtlama var:
Kısıtlama 1: Stok Avatar’ın her türlü görüş beyanında bulunduğu “Kullanıcı Tarafından Oluşturulan İçerikte”, herhangi bir kişisel tercih veya deneyimin Stok Avatar’ın tercihleri veya deneyimleriymiş gibi ifade edilmesi de buna dahil.
Kısıtlama #2: Stok Avatar’ın din, siyaset, ırk, cinsiyet, cinsellik veya belirli demografik özelliklere duyarlı olduğu bilinen diğer benzer konularla ilgili herhangi bir gerçek beyanında bulunduğu “Kullanıcı Tarafından Oluşturulan İçeriklerde.”
Çözüm benim için başka bir benzer hizmeti kullanmak veya kendi metinden videoya yazılımımı oluşturmak olurdu; bu yüzden üzerinde çalışacağım bir sonraki şey bu.
Kaynak: Eric Borgos / Medium
Beğenebilirsin
Araştırma
PodGPT: Yapay zeka modeli, bilim podcast’lerinden öğrenerek soruları daha iyi yanıtlayabiliyor
Üretken yapay zekanın (AI), özellikle de büyük dil modellerinin (LLM’ler) yükselişi, veri analizi, yorumlama ve içerik üretiminde dönüştürücü bir değişime işaret ediyor. Kapsamlı metinsel veri kümeleri üzerinde eğitilen bu modeller, OpenAI’nin GPT-4’ü gibi modellerin dikkate değer bir yetenek gösterdiği bilim ve tıp gibi alanlar için derin etkileri olan, bağlamsal olarak doğru ve dilsel olarak zengin çıktılar üretme yeteneğini gösterdi.
Yayınlanma tarihi
2 gün önce=>
8 Temmuz 2025Üretken yapay zekanın (AI), özellikle de büyük dil modellerinin (LLM’ler) yükselişi, veri analizi, yorumlama ve içerik üretiminde dönüştürücü bir değişime işaret ediyor. Kapsamlı metinsel veri kümeleri üzerinde eğitilen bu modeller, OpenAI’nin GPT-4’ü gibi modellerin dikkate değer bir yetenek gösterdiği bilim ve tıp gibi alanlar için derin etkileri olan, bağlamsal olarak doğru ve dilsel olarak zengin çıktılar üretme yeteneğini gösterdi.
Ancak, bilim, teknoloji, mühendislik, matematik ve tıp (STEMM) alanlarında LLM’lerin tam potansiyeli, özellikle ses içeriği gibi geleneksel olmayan veri türlerinin entegrasyonu konusunda hala yeterince araştırılmış durumda değil.
Boston Üniversitesi’nden araştırmacılar, bilim ve tıp podcast’lerinden öğrenerek bilimsel soruları daha akıllıca anlama ve yanıtlama becerisini geliştiren PodGPT adlı yeni bir bilgisayar programı geliştirdiklerini yeni bir çalışmada duyurdu. Bu çalışma npj Biomedical Innovations dergisinde yayınlandı.
Boston Üniversitesi Chobanian & Avedisian Tıp Fakültesi tıp ve bilgisayar bilimi doçenti ve makalenin baş yazarı Vijaya B. Kolachalama, “Konuşma içeriğini entegre ederek, modelimizin konuşma dilini daha iyi anlamasını ve uygulamasını STEMM disiplinleri içindeki daha özel bağlamlara genişletmeyi amaçlıyoruz” diye açıkladı.
Kolachalama, “Bu, sadece yazılı materyaller yerine uzman röportajları ve konuşmaları gibi gerçek konuşmaları kullandığı için özeldir ve insanların gerçek hayatta bilim hakkında nasıl konuştuğunu daha iyi anlamasına yardımcı oluyor” dedi.
Kolachalama ve meslektaşları, halka açık bilim ve tıp podcast’lerinden 3.700 saatten fazla kayıt topladı ve gelişmiş yazılımlar kullanarak konuşmaları metne dönüştürdü. Ardından, bu bilgilerden öğrenmesi için bir bilgisayar modeli eğitti.
Bunun ardından, modelin performansını görmek için biyoloji, matematik ve tıp gibi konularda farklı dillerde sorular da dahil olmak üzere çeşitli testler yaptılar. Sonuçlar, STEMM sesli podcast verilerinin dahil edilmesinin, modelin doğru ve kapsamlı bilgileri anlama ve üretme yeteneğini geliştirdiğini gösterdi.
Araştırmacılara göre, bu çalışma podcast gibi ses tabanlı içeriklerin yapay zeka araçlarını eğitmek için kullanılabileceğini gösteriyor. Kolachalama, Boston Üniversitesi Bilgisayar ve Veri Bilimleri Fakültesi’nin kurucu üyesi ve Boston Üniversitesi Hariri Bilgisayar Enstitüsü’nün bir üyesi.
Kolachalama, “Bu, dersler veya röportajlar gibi her türlü ses kaydını kullanarak daha akıllı ve insan benzeri teknolojiler geliştirmek için kapı açıyor. Ayrıca, bilimi birçok dilde daha erişilebilir hale getirerek, dünyanın dört bir yanındaki insanların öğrenmesine ve bilgilenmesine yardımcı olma konusunda da umut vaat ediyor” dedi.
Araştırmacılar, bu teknolojinin bilimsel ve tıbbi bilgilere erişimi kolaylaştıracağına inanmakla kalmıyor, aynı zamanda alanlarında uzman kişilerin konuşmalarını dinlemenin, insanların sağlık ve eğitim konusunda daha bilinçli kararlar almasına yardımcı olacağına da inanıyor.
Kolachalama, “Bu, Alzheimer hastalığı, kardiyovasküler hastalıklar, bulaşıcı hastalıklar, kanser ve ruh sağlığı gibi birçok sağlık durumunun anlaşılması ve teşhis edilmesinde yardımcı olabilir. Ayrıca halk sağlığı ve gezegen sağlığı gibi alanlarda öğrenmeyi de destekleyebilir” dedi.
Kaynak: Phys.org
Araştırma
Sesli kitap satışları çift haneli büyümeyle 2,2 milyar dolara ulaştı
Sesli kitap satışları çift haneli büyüme ile 2,2 milyar dolara ulaştı; Amerikalı yetişkinlerin %51’i (134 milyon kişi) sesli kitap dinledi.
Yayınlanma tarihi
4 hafta önce=>
14 Haziran 2025Sesli kitap satışları çift haneli büyüme ile 2,2 milyar dolara ulaştı; Amerikalı yetişkinlerin %51’i (134 milyon kişi) sesli kitap dinledi.
Kâr amacı gütmeyen ticaret grubu Audio Publishers Association tarafından iki araştırma şirketi aracılığıyla düzenlenen iki ankette şu bilgiler elde edildi:
- Sesli kitap satış gelirleri 2024 yılında çift haneli büyüme kaydetti. Sesli kitap satış gelirleri 2024 yılında 2,22 milyar dolara ulaşarak bir önceki yıla göre %13 artış gösterdi. Satış artışları, 2024 yılında gelirlerin %99’unu oluşturan ve bir önceki yıla göre %14 büyüme kaydeden dijital sesli kitaplar tarafından sürdürülmeye devam ediyor. Bu bilgiler, küresel araştırma şirketi Toluna tarafından yürütülen Audio Publishers Association Satış Anketi’nden alındı.
- Amerikalı yetişkinlerin %51’i (134 milyon kişi) sesli kitap dinledi. Dinlemeyenler arasında ilgi önemli ölçüde artmıştır: %38’i sesli kitaplarla ilgilendiğini belirtirken, bu oran geçen yıl %32 idi ve çok ilgilenenlerin sayısı %10’dan %18’e neredeyse iki katına çıktı.
Bu rakamların ardındaki çalışma, Sesli Kitap Yayıncıları Birliği’nin talebi üzerine 1.700 ABD’li yetişkine anket uygulayan Edison Research tarafından yapıldı.
Manşetlerin arkasında, bu anketten elde edilen birkaç önemli bulgu yer aldı:
- Dinleyicilerin giderek artan bir kısmı, sesli kitap tüketiminde erişilebilirliği önemli bir faktör olarak belirtmektedir: %72’si sesli kitapların tercih ettikleri dinleme platformunda mevcut olmasının önemli olduğunu, %63’ü ise kütüphane uygulaması üzerinden erişimin önemli olduğunu belirtiyor.
- Genel kurgu, türlere göre gelirlerin en büyük payını oluşturuyor ve 2023 gelirlerine göre %16 artış gösterdi. Bilim kurgu/fantastik, romantik ve genel kurgu dışı türler, gelir açısından geri kalan en popüler türleri oluşturuyor.
- Tür satışlarında yıllık bazda en büyük artışlar romantik (+%30), çocuk ve genç yetişkin (+%26) ve bilim kurgu/fantastik (+%21) türlerinde görüldü.
- AI tarafından seslendirilen sesli kitapların tüketimi ve sayısı artmış olsa da, AI tarafından seslendirilen sesli kitapları deneme isteği yıllık bazda düşüş göstermiş ve 2023’te %77 olan oran 2025’te %70’e geriledir.
Son nokta özellikle ilginç. İnsan okuyucuların AI performansları tarafından yerinden edilmesi, serbest okuyucuların çoğunun işlerinin düzensiz ve değişken olduğu profesyonel okuyucular arasında önemli bir endişe konusu.
Daha fazlası BURADA
Kaynak: RainNews
Araştırma
Bağımsız podcast uygulamalarına daha iyi video podcasting mi geliyor?
Bağımsız podcast uygulamalarına daha iyi video podcasting mi geliyor? LinkedIn’deki bir gönderide Podcast Standartları Projesi, açık RSS kullanarak video desteği için daha iyi bir çözümü tartışıldığını duyurdu.
Yayınlanma tarihi
1 ay önce=>
30 Mayıs 2025Bağımsız podcast uygulamalarına daha iyi video podcasting mi geliyor? LinkedIn’deki bir gönderide Podcast Standartları Projesi, açık RSS kullanarak video desteği için daha iyi bir çözümü tartışıldığını duyurdu. Odaklanılan çözüm, PodNews Editörü James Cridland’in geçen yıl yazdığı kişisel bir blog yazısında vurgulanan sorunların çoğunu çözmeyi vaat ediyor; hatta dinamik olarak eklenen video reklamlarına da izin verebilir ve mevcut örneklerden önemli ölçüde daha ucuza sunulurken daha iyi tüketim verileri de sağlayabilir.
——- 0 ——
Bu yıl Podcast Show’da iki ayrı PSP toplantısı yaptık. Büyük tartışmalardan biri şuydu…
Video/HLS akışı
Giderek daha fazla podcast yayıncısı içeriklerini video yoluyla dağıtmak istiyor.
Açık podcast sisteminin RSS aracılığıyla sunulan video podcast’ler için daha iyi bir çözüm sunması gerektiği konusunda neredeyse fikir birliği vardı.
Helen Ryles gibi müşteri başarısı alanında çalışan kişiler, “içerik oluşturucuların videolarını sadece YouTube’a dağıtmak istemediklerini, her yere dağıtmak istediklerini” vurguladılar.
Ses ve video için ayrı beslemelerden oluşan eski iTunes paradigması yerine, “önce ses” olan ancak HLS aracılığıyla video akışı için alternatif bir muhafazaya sahip tek bir RSS videosu görmek istiyoruz.
Bu, podcast yayıncılarının izleyicilerini iki yayın arasında bölmemelerini sağlar (Leo Laporte bunu TWiT ile yıllarca yapmak zorunda kaldı) ve podcast yayıncılarına RSS uygulamalarını açmak için bir video podcast yayınlama olanağı verir.
Bu senaryoda, içerik oluşturucular video bölümlerini barındırma platformlarına yükleyecektir. Videolar HLS ile uyumlu formatlarda kodlanacak ve Pocket Casts, TrueFans ve Fountain gibi akışı destekleyen uygulamaları kullanan dinleyiciler tarafından talep edilebilecek.
İdeal bir dünyada Apple Podcasts’in bu yeni paradigmayı desteklediğini görmek isteriz (özellikle Apple TV+’ı genişletmek ve Podcast Aboneliklerinde bonus içerik olarak video sunmak için faydalı olacağını düşünüyoruz). Ancak Ellie’nin de belirttiği gibi Pocket Casts gibi uygulamalar HLS akışını zaten destekliyor, bu nedenle spesifikasyon hazır olduğunda bunu kullanıma sunabiliriz.
Özellikle barındırma platformları için bant genişliği maliyetleri konusunda hala cevaplanmamış sorular var. Ancak PSP üyeleri bu zorlukları çözmek için işbirliği yapmaya istekli. Rockie ve Kevin gibi birkaç üye zaten bu altyapıyı kurma deneyimine sahip. (İlginç bir öneri, Apple Podcasts gibi daha büyük platformların videoyu önbelleğe almasıdır).
Eğer bunu başaramazsak, podcast yayıncılarına video için tek gerçek seçeneklerinin YouTube ve Spotify olduğunu söylemiş olacağız.
Bu konuyu daha fazla tartışmak için PSP Slack’e katılmak isterseniz bana (Justin Jackson) DM atın, sizi ekleyeyim.
PodGPT: Yapay zeka modeli, bilim podcast’lerinden öğrenerek soruları daha iyi yanıtlayabiliyor
Klaxon AI ile dakikalar içinde podcast reklamları oluşturun
Yeni Podcast Bilgi Kütüphanesi küresel podcasting topluluğunu bir araya getiriyor
En son
- Haberler3 yıl önce
Podcast’ten para kazanmanın 12 yolu
- Haberler3 yıl önce
Spotify’dan ‘Şişedeki Çalma Listesi’
- Etkinlik2 yıl önce
‘Podcast Dinliyorum’ etkinliğinin ikincisi 25 Ekim’de
- Araştırma11 ay önce
Popüler podcast yayıncıları sektördeki en büyük zorlukları yorumluyor
- Araştırma3 yıl önce
Mart ayına Anchor, Buzzsprout ve Spreaker damgası
- Haberler3 yıl önce
Video podcast nedir?
- Haberler3 yıl önce
Podcast’leri nasıl daha hızlı dinleyebilirsiniz?
- Haberler3 yıl önce
Daniel Ek Spotify’ın büyük vizyonunu anlattı