Haberler
Yapay zeka podcast’leri tartışması büyüyor
Yapay zeka kullanımı podcast alanında yaygınlaştıkça tartışmalar da büyümeye başladı. Bazı örnek uygulamalar üzerinden yapay zekanın ürettiği seslerin dinleyicilerin ilgini çekip çekmeyeceği, insan podcaster’ların yerini tutup tutmayacağı tartışmalarını da çoğalttı. Destekleyenlerin yanı sıra şüpheyle yaklaşanlar da var.
Yayınlanma tarihi
2 yıl önceon
Yazar :
Podcast Turkeyİşte podcast’lerle ilgili gerçek: Çok fazla var. Podcast Index veritabanına göre kesin olarak 4 milyondan fazla. Yalnızca son üç gün içinde, yaklaşık 103.000 ayrı podcast bölümü çevrimiçi olarak yayınlandı. O kadar büyük bir ses içeriği seli ki, dinleyicilerin hiçbir zaman seçeneklerinin tükenmesine gerek kalmıyor. Hayatının geri kalanını Apple Podcast’lerdeki gerçek suç kataloğunda veya Spotify’daki spor sohbet programlarında çalışarak geçirebilirsin ve sonunda 2070’te Michael Barbaro, cesedine Mailchimp için bir reklam okurken yaşlılıktan ölebilirsin.
Halen devam eden üretken AI (yapay zeka) altına hücumunda, fırsatçı girişimciler en doymuş pazarlara bile girmek istiyor. ElevenLabs, WondercraftAI ve Podcastle dahil olmak üzere bir dizi girişim, AI seslerini dakikalar içinde oluşturmak için kullanımı kolay araçları tanıttı. Yani, sanki istenmiş gibi, yapay zeka podcast’leri, istense de istenmese de burada.
İlk günlerde, kimse bu garip yeni podcast türünün kaç dinleyicisi olduğunu takip etmedi. Apple Podcasts ve Spotify gibi büyük merkezlerde robot sunucular için ayrı istatistikler yok. Bununla birlikte, en azından ilk bölümleri için açıkça izleyici bulan birkaç bireysel AI podcast var.
THE JOE ROGAN AI EXPERIENCE’IN YARATICISI HUGO
AI TARAFINDAN ÜRETILEN İLK podcast’i biraz aldatıcıydı. Dünyanın en popüler insan podcast sunucusunun klonlanmış sesini kullandı. Joe Rogan Yapay Zeka Deneyimi, Rogan’ın OpenAI CEO’su Sam Altman ve eski başkan Donald Trump gibi (eşit derecede sahte) konuklarla gevezelik ettiği bir dizi simülasyonu içeriyordu. İlk bölüm çıktıktan kısa bir süre sonra, gerçek Rogan bir tweet attı ve “Bu çok kaygan olacak çocuklar” diye yazdı.
Kopya, YouTube’da yarım milyondan fazla görüntülendi. Bazı dinleyiciler bunun yapay zeka olmasını umursamadı bile. “Aslında bu benim için yeterli. İyi şeyler” diye yazdı biri.
Joe Rogan Yapay Zeka Deneyimi, Hugo adlı bir Rogan hayranı tarafından oluşturuldu. (Projeyle profesyonel olarak ilişkilendirilmek istemediği için WIRED’e tam adını vermeyi reddetti.) Şovun yapımını desteklemek için bir Patreon’u var ve yakın zamanda YouTube’da para kazanma özelliğini açtı, ancak herhangi bir kazanç sağlamayı beklemiyor. Özellikle Rogan’ın sesini veya benzerliğini kullanmaya izni olmadığının ve podcast platformlarının bu tür kimliğe bürünmeyi yasaklayabileceğinin farkında.
Hugo, yapay zeka ses araçlarının neler yapabileceğini göstermek istediği için bu diziyi yarattı. Bölümleri dinleyiciler için akıcı hale getirmek için dikkatlice düzenlemesine rağmen (doğru olması günler veya haftalar alabilir) makul ölçüde doğru taklitler olsalar bile konuşmaların kendilerinin özellikle büyüleyici olduğunu düşünmüyor. Hugo, “Teknolojik gelişimi nedeniyle podcast’i dinlemenin dışında hiçbir anlamı yok” diyor. Dna göre, “Sadece zaman kaybı.”
Seyircinin ortalıkta dolaşıp durmayacağı veya sadece alışılmadık ve yeni bir şeyi kontrol etmek isteyip istemediği belli değil; Hugo dört bölüm yayınladı ve sonraki her bölüm bir öncekinden daha az izleyici çekti.
WIRED, Hugo’nun yaklaşımını tekrarlayan yapay zeka tarafından üretilen podcast’lerin diğer birkaç yaratıcısıyla konuştu. Teknolojiyle oynamaktan zevk alıyorlardı, ancak nihai sonuçları deneylerin bir yan ürünü olarak görüyorlar. Örneğin İsrail merkezli ses mühendisi Lior Sol, ElevenLabs’in araçlarını kullanarak Myself, I Am and That adlı tuhaf bir podcast yarattı. Sesinin bir klonunu ve ardından son derece meta konuşmasında o klonun bir klonunu yaptı. Lior Sol, “Kesinlikle onunla eğleniyorum” diyor. Ancak bu, büyük kitleleri kovaladığı anlamına gelmiyor. Şu anda, dinleyicilerinin sayısı düzinelerce. Arkadaşları beğeniyor, o beğeniyor. Bu bir sanat projesi ve ticari bir şey yapma girişimi değil, yeni teknolojiyle uğraşma şansı.
DİĞER BAZI YARATICILAR, özellikle de yenilik etkisini yitirdikten sonra izleyicilerin ürettiklerini beğenmesini bile beklemiyor. Örneğin Andi Durrant, İngiltere merkezli içerik pazarlama girişiminde Yapay Zeka tarafından oluşturulan Sentetik Hikayeler adlı bir podcast oluşturmaya yardımcı oldu. Klonlanmış sunucu seslerine ek olarak, senaryo ve ses tasarımı da dahil olmak üzere, Sentetik Hikayelerin diğer tüm unsurları yapay zeka tarafından üretildi. Durrant, “Bir deney olarak bununla gurur duyduk. Yine de yaratıcı bir çalışma olarak sınırlamaları gerçekten çok çabuk anlıyorsunuz” diyor.
Bununla birlikte, AI podcasting girişimi WondercraftAI’nin CEO’su Dimitris Nikolaou, izleyicilerin AI tarafından oluşturulan podcast’lere sadakat geliştirebileceğine inanıyor. Ekibi, platformunun neler yapabileceğini göstermek için bir kavram kanıtı olarak, Y Combinator tarafından yürütülen Hacker News forumundaki en önemli haberlerin günlük kısa özetlerini sunan Hacker News Recap‘i oluşturdu. Şu anda ABD’de Apple Podcasts’in teknoloji tablosunda 31. sırada yer alıyor. (Başka yerlerde, daha da iyi performans gösteriyor. “Her nedense Letonya’da iki numarayız” diyor Nikolaou.)
Nikolaou, Hacker News Recap‘in yapay zeka tarafından oluşturulan senaryolarının insanlar tarafından yazılanlardan daha üstün olduğunu veya yapay seslerinin daha melodik olduğunu düşünmüyor. “Bunda özel bir şey yok. Bu, diğer herhangi bir teknoloji podcast’inde bulacağınız içerikle aynı” diyor ve ekliyor, “Ne olursa olsun, çok tutarlı olup her sabah yayınlayabilmemiz daha önemli.”
Podcast, Wondercraft’ın hizmetlerinin nasıl çalıştığını göstermek için tasarlandı: Hem komut dosyası hem de ses, Hacker News’in en üstünde görünen gönderilere dayalı olarak yapay zeka tarafından oluşturuldu. (Wondercraft, içeriğini kullanmak için Y Combinator’dan izin aldı, bu özellikle şaşırtıcı değil; başlangıç inkübatörü de yatırımcılarından biri.) Yalnızca sesli biçimde bir bilgi özeti isteyen insanlar için bu tutarlı bir teklif.
Ayrıca Wondercraft’ın, blog gönderilerinin sesli bir versiyonunu yayınlamak isteyebilecek ancak bunu kendileri yapacak zamanı veya bir okuyucu tutacak parası olmayan haber bülteni yazarları gibi bazı bağımsız yaratıcı türlere hitap edeceğine inanıyor.
İNSAN PODCAST YAYINCILARI büyük podcast stüdyoları tarafından sıklıkla kullanılan AI düzenleme araçlarını benimsemeye başladı bile. Bu araçlar, arka plandaki gürültüyü gidermek veya mırıldanılan sözcükleri netleştirmek gibi görevleri basitleştirebilir. Ve bazıları seslerini reklamlar için klonlama fikriyle oynuyor. Örneğin bu hafta, The Ringer’ın kurucusu Bill Simmons kendi istikrarlı Spotify podcast’leri için sunucuların yapay zeka tarafından üretilen ses klonları tarafından okunan reklamlar geliştirme olasılığını tartıştı.
Tamamen yapay zeka tarafından oluşturulan sunucular ise tamamen başka bir hikaye.
Kim? Haftalık ortak sunucular Bobby Finger ve Lindsey Weber, AI düzenleme araçlarının potansiyel kullanım durumlarını görüyorlar, ancak AI ses üreten araçların uzun süredir devam eden çok sevdikleri podcast’leri için herhangi bir gerçek değere sahip olmasını öngörmüyorlar. Finger, “Mantıklı olmasının tek yolu gerçek bir şakadır. İkna edici değil” diyor.
NORMAL GOSSIP PODCAST’ININ SUNUCUSU KELSEY MCKINNEY
Yakın zamanda büyük çıkış yapan Normal Gossip’in sunucusu Kelsey McKinney, yapay zeka tarafından oluşturulan podcast’lerin izleyicilerle kalıcı bir şekilde bağlantı kuracağından şüphe ediyor. McKinney, “AI şeyleri, her biçimde ondan nefret ediyorum. İnsanlar diğer insanlarla bağlantılı hissetmek istiyor. Podcast’lerin bu kadar popüler olmasının nedeni, dinleyicilerin kendilerini onları yapan insanlara bağlı hissetmeleridir” diyor.
McKinney, yapay zeka podcast’lerini, eğlence şirketlerinin sanatı otomatikleştirmeye ve değerini düşürmeye yönelik daha büyük çabasının bir parçası olarak görüyor; yaratıcılardan ziyade maliyetleri düşüren yöneticiler tarafından yürütülen bir çaba olarak değerlendiriyor. McKinney, “Podcast’ler için AI kullanmak istiyorlar. Senaryo yazımı için AI kullanmak istiyorlar. Oyuncular için yapay zeka kullanmak istiyorlar. Yaratıcı insanlara ödeme yapmak istemediklerini söylemeye çalışıyorlar” diyor.
Özellikle “Kim?” gibi podcast’lerle? Weekly ve Normal Gossip – geveze, konudan sapan, komik, tuhaf – her hafta akort yapmanın temel çekiciliği, mikrofondaki belirli insanların söyleyeceklerini duymaktır. Teknoloji ne kadar gelişirse gelişsin, bir robotun bu deneyimi tam olarak tekrarlayabileceği fikri hâlâ saf bir bilim kurgu. (Spike Jonze’s Her 2: Her Starts a Podcast‘i 2033’te sinemalara geliyor.)
Bu, Nikolaou’nun Hacker News Recap‘nin temelsiz olduğu anlamına gelmez; bazı insanlar belli ki özetlenmiş haber makalelerinin kişilikten yoksun hoş, yapay bir sesle okunmasını istiyor. Ancak özetlenmiş haber makaleleri, popüler podcast’lerin büyük çoğunluğunu temsil etmiyor. Ortam, samimiyetle, dinleyicilerin eski arkadaşlar arasındaki bir sohbete kulak misafiri olduklarını veya odanın arkasında özellikle parlak bir panelde oturduklarını hissetmeleriyle tanımlanır. Podcast araştırmacısı Alyn Euritt, 2022 tarihli Podcasting as an Intimate Medium adlı kitabında dinleyicilerin kendilerini nasıl “hayali bir ulusal topluluğun üyeleri” olarak görmeye başlayabileceklerini anlatıyor. Haber özet programları gibi nişlerde bir robot yeterli olabilir. Ancak podcast işi bilgi üzerine kurulu değildir; konuşma üzerine inşa edilmiştir.
Yapay zeka podcast’leri, üretken yapay zeka ürünleri ve hizmetleri için büyüyen pazarda küçük bir balondur, ancak genç endüstri içindeki daha geniş gerilimleri açıklar. Teknoloji aynı anda hem gelişmiş hem de yapaydır; yakından dikkat etmediğiniz ve ayrıntıları tamamen yanlış anladığınız sürece gerçek gibi görünen sesler ve görseller üretebilir. Ve şu anda, AI’nın etkisi hakkındaki tartışmalar abartılarla tamamen çarpıtılıyor. Dikkat çekmeyi paradigma değiştirmeyle karıştırıyoruz. (Sahte Rogan podcast’i hakkında başka bir yorum: “Teknolojinin dünyalarını değiştirmesini izlerken büyükanne ve büyükbabamın nasıl hissettiğini artık merak etmem gerekmiyor.”) Sözcükler doğru sırada olabilir. Ama ton çok düz.
Kaynak: Kate Knibbs / Wired
Beğenebilirsin
Haberler
YouTube dinamik reklam ekleme özelliği getirmeye hazırlanıyor
Semafor’un haberine göre YouTube dinamik reklam ekleme özelliğini devreye sokabilir. Haberde, YouTube’un açık RSS kullanan ses podcast’lerinde olduğu gibi “ana sunucu tarafından okunan reklamların dinamik olarak tek tek YouTube videolarına eklenmesine ve değiştirilmesine izin vereceği” belirtiliyor. YouTube iddialarla ilgili henüz bir yorum yapmadı.
Yayınlanma tarihi
14 saat önce=>
27 Mart 2025YouTube, YouTuber’ların, podcast yayıncılarının, yayıncıların ve diğer içerik oluşturucuların para kazanma biçimlerini altüst edebilecek ve Google’ın sahip olduğu devin medya dünyasının merkezindeki yerini sağlamlaştırabilecek teknik bir değişikliği test etmeye hazırlanıyor.
Semafor, platformun şu anda Spotify ve Apple Podcasts gibi diğer platformlarda olduğu gibi, ana sunucu tarafından okunan reklamların YouTube videolarına dinamik olarak eklenmesine ve değiştirilmesine olanak tanıyacak bir özellik geliştirdiğini öğrendi.
Ortalama bir YouTube tüketicisinin büyük bir fark görmesi pek olası olmasa da, bu hamle YouTube’da önemli ölçüde daha fazla reklam esnekliği yaratacak ve podcast yayıncıları için potansiyel olarak daha büyük bir reklam doları havuzunun kilidini açabilecek.
Şirket sözcüsü bir e-postada, planlanan testlerle ilgili paylaşacakları herhangi bir ayrıntı olmadığını söyledi, ancak Semafor’u YouTube CEO’su Neal Mohan’ın platformun 2025 hazırlıklarını özetleyen halka açık mektubuna yönlendirdi: “Bu yıl podcast yayıncılarını desteklemek için daha fazla araç sunacağız, içerik oluşturucular için para kazanmayı iyileştireceğiz ve podcast’leri keşfetmeyi daha da kolaylaştıracağız.”
YouTube’un testi, video yoluyla sohbet programı tüketiminin patlamasıyla birlikte birçok YouTuber ve podcast yayıncısının platformla ilgili bir şikayetine odaklanıyor.
YouTube videolarda kendi programatik reklamlarını yayınlıyor ve bu reklamlardan elde edilen geliri içerik oluşturucular, podcast yayıncıları ve yayıncılarla paylaşıyor. Ancak Apple Podcasts, Spotify ve diğer podcast platformlarında, podcast yayıncıları genellikle kendi host-read reklamlarını satıyor ve bu reklamlar, podcast yayıncısı üzerinde anlaşılan indirme hedefine ulaştığında değiştirilebiliyor. Bu değiştirilebilirlik, aynı sponsorluğun belirli bir podcast bölümünde sonsuza kadar yayınlanmayacağı anlamına gelir, bu nedenle eski podcast bölümlerini dinleyen dinleyicilerin o anda kendileriyle alakalı bir reklam alma olasılığı daha yüksektir ve podcast yayıncıları bu reklam alanı için daha fazla ücret talep edebilir. YouTube’un podcast tüketimi için bir platform olarak büyümesine rağmen, bu dinamik olarak eklenen ana sunucu tarafından okunan video reklamlarına izin vermedi, yani bir podcast sunucusunun bir YouTube videosunda okuduğu reklam, o videoda kalıcı olarak sıkışmış durumda.
Bu nedenle, YouTube podcast izleyicileri için büyüyen bir yer temsil etse de, en iyi podcast yayıncılarının çoğu hala paralarının çoğunu diğer platformlardan kazanıyor. YouTube bu reklam değiştirme özelliğini podcast yayıncılarına açarsa, YouTube’da daha yüksek fiyatlı reklam paketleri satarak veya çeşitli podcast platformlarında reklamları bir araya getirerek daha iyi para kazanmalarına olanak sağlayabilir.
Daha geniş podcast reklam pazarını da etkileyebilecek bazı karışıklıklar var. Spotify ve Apple gibi platformlardaki bölüm indirmeleri oldukça istikrarlı ve öngörülebilir olma eğilimindeyken, YouTube izleyiciliği, tek bir videonun YouTube’un algoritmasında ilgi görüp görmediğine veya geniş çapta paylaşılıp paylaşılmadığına bağlı olarak çılgınca değişebilir. YouTube izleyicileri aynı zamanda geleneksel podcast dinleyicilerinden daha az değerli olarak görülüyor çünkü genellikle bir videoya rastlıyorlar ya da belirli bir podcast’i arayan dinleyicilerden daha kısa bir süre izliyorlar. Bu durum, değiştirilebilirliğin olmamasıyla birleşince YouTube’daki reklamların fiyatını düşürdü.
Ancak bu hamle, YouTube’un podcast yayıncılığına odaklanmasının ciddiyetine ve bu mecranın YouTube’un ana işi için ne kadar önemli olduğuna işaret ediyor.
Şirket, platformdaki aylık podcast dinleyicisinin 400 milyon saati aştığını ve yakın zamanda bir ay içinde YouTube’da podcast içeriği görüntüleyen bir milyar kullanıcı olduğunu belirterek, büyük podcast kitlesini giderek daha fazla sayıda olduğunu duyurdu. Ayrıca haber yaratıcıları için giderek daha fazla ortaklık teklif ediyor.
(Semafor’un edindiği bilgiye göre, şirketin ilk podcast direktörü Kai Chuk kısa bir süre önce YouTube’dan ayrıldı. Şirket Semafor’a Podcast Ortaklıkları ekibini Haber ve Yurttaşlık Ortaklıkları ekipleriyle bir araya getirerek yeniden yapılandırdığını ve “Kai Chuk’a yıllar boyunca yaptığı tüm katkılar için minnettar olduğunu” söyledi.)
Bu ayın başlarında Semafor’un Mixed Signals podcast’ine verdiği bir röportajda Mohan, bir CEO olarak bir numaralı endişesinin, en iyi içerik oluşturucularının hala platformda yayın yapmak istemelerini sağlamak olduğunu vurguladı.
Mohan, YouTube’un son üç yılda içerik oluşturuculara, medya şirketlerine ve diğer ortaklara 70 milyar dolar ödeme yaptığını söyleyerek, “Nihayetinde can damarımız, temel bileşenlerimizi memnun etmekle ilgili. Eğer içerik üreticilerimize iki çok temel şekilde hizmet sunamıyorsak o zaman başımız dertte demektir. YouTube, dünyanın neresinde olurlarsa olsunlar yaratıcı bir fikri ya da yaratıcıyı hayranlarıyla buluşturmanın en etkili yolu olmalı. … İkincisi ise, ilk günlerden bu yana misyonumuzun temelini oluşturan, para kazanmalarına yardımcı oluyor muyuz? Biz orijinal ve en büyük yaratıcı ekonomisiyiz” dedi.
YouTube’un podcast yayıncılığına daha fazla odaklanması rakiplerinin de dikkatini çekti.
Spotify 2010’ların sonlarında müziğin ötesine geçerek podcast sektörüne açılmak için yüz milyonlarca dolar harcadı. Bu çaba bazı iyi belgelenmiş başarısızlıklar ve yanlış adımlar getirmiş olsa da, sonuçta şirketin abonelikleri artırma ve podcast yayıncılığının en büyük oyuncularından biri olma hedefine ulaşmasına yardımcı oldu. Şirket konumunu YouTube’a bırakmaya hevesli değil. Geçen yıl İsveçli yayın devi, en iyi podcast yayıncılarından bazılarına video eklemeleri için ödeme yapmaya başladı. Şirket ayrıca bu yılın başlarında premium aboneler için reklamsız görüntülemeyi başlattı.
Netflix’in de kendi platformunda podcast yayıncılığına geçip geçmeyeceğini araştırdığı bildiriliyor.
Kaynak: Max Tani / Semafor
Haberler
OpenAI: Yapay zekalı sesli asistan artık sohbet etmek için daha iyi
OpenAI, ChatGPT’de gerçek zamanlı konuşmalara olanak tanıyan yapay zeka ses özelliği Gelişmiş Ses Modu için, yapay zeka asistanını daha cana yakın hale getirmek ve kullanıcıları daha az rahatsız etmek için güncellemeler yayınladı.
Yayınlanma tarihi
3 gün önce=>
25 Mart 2025OpenAI, ChatGPT’de gerçek zamanlı konuşmalara olanak tanıyan yapay zeka ses özelliği Gelişmiş Ses Modu için, yapay zeka asistanını daha cana yakın hale getirmek ve kullanıcıları daha az rahatsız etmek için güncellemeler yayınladı.
OpenAI eğitim sonrası araştırmacısı Manuka Stratta, Pazartesi günü şirketin resmi sosyal medya kanallarında yayınlanan bir videoda değişiklikleri duyurdu.
OpenAI’nin son güncellemesi, yapay zekalı sesli asistanlarda sıkça karşılaşılan ve kullanıcılar düşünmek ya da derin bir nefes almak için durakladıklarında sözlerini kesen bir sorunu ele almayı amaçlıyor.
ChatGPT’nin ücretsiz kullanıcıları artık, kullanıcıların AI asistanıyla konuşurken kesintiye uğramadan duraklamalarına olanak tanıyan Gelişmiş Ses Modunun yeni bir sürümüne erişebiliyor. OpenAI’nin Plus, Teams, Edu, Business ve Pro katmanlarına abone olanlar da dahil olmak üzere ChatGPT’nin ücretli kullanıcıları da artık Gelişmiş Ses Modu’nu kullanırken daha az sıklıkta kesinti yaşayacak ve sesli asistan için geliştirilmiş bir kişilik elde edecekler.
Bir OpenAI sözcüsü yaptığı açıklamada, ödeme yapan kullanıcılar için yeni yapay zeka sesli asistanının “cevaplarında daha doğrudan, ilgi çekici, özlü, spesifik ve yaratıcı” olduğunu söyledi.
Gelişmiş Ses Modu’nda yapılan iyileştirmeler, yapay zeka sesli asistan alanındaki rakiplerin yoğun baskısı altında gerçekleşti.
Oculus’un kurucu ortağı Brendan Iribe tarafından yaratılan Andreessen Horowitz destekli bir girişim olan Sesame, kısa süre önce Maya ve Miles adlı doğal sesli yapay zeka asistanlarıyla viral oldu. Alexa’nın LLM destekli versiyonunu piyasaya sürmeye hazırlanan Amazon gibi daha büyük oyuncular da yapay zeka sesli asistan alanına daha agresif bir şekilde adım atıyor.
Kaynak: TechCrunch
Haberler
OpenAI, gerçekçi, duygusal konuşmalar üretebilen yeni nesil bir “Ses Motoru” tanıttı
OpenAI, daha güvenilir konuşmadan metne dönüştürme ve arka plan gürültüsü ve aksanlar gibi zorlu ses koşullarının daha iyi işlenmesini sağlayan gpt-4o-transcribe ve gpt-4o-mini-transcribe adlı geliştirilmiş ses modellerini yayınladı.
Yayınlanma tarihi
7 gün önce=>
21 Mart 2025OpenAI, API’sine, şirketin önceki sürümlerini geliştirdiğini iddia ettiği yeni transkripsiyon ve ses üreten yapay zeka modelleri getiriyor.
OpenAI için bu modeller, kullanıcılar adına görevleri bağımsız olarak yerine getirebilen otomatik sistemler oluşturmak anlamına gelen daha geniş “ajan” vizyonuna uyuyor. “Temsilci” tanımı tartışmalı olabilir, ancak OpenAI Ürün Başkanı Olivier Godement bir yorumu, bir işletmenin müşterileriyle konuşabilen bir sohbet robotu olarak tanımladı.
Godement, “Önümüzdeki aylarda giderek daha fazla temsilcinin ortaya çıktığını göreceğiz. Genel tema, müşterilerin ve geliştiricilerin faydalı, kullanılabilir ve doğru aracılardan yararlanmasına yardımcı olmak” dedi.
OpenAI, yeni metinden konuşmaya modeli “gpt-4o-mini-tts ‘nin sadece daha nüanslı ve gerçekçi bir konuşma sunmakla kalmayıp aynı zamanda önceki nesil konuşma sentezleme modellerine göre daha ’yönlendirilebilir” olduğunu iddia ediyor. Geliştiriciler gpt-4o-mini-tts’e doğal dilde bir şeyleri nasıl söyleyeceği konusunda talimat verebiliyor; örneğin, “çılgın bir bilim adamı gibi konuş” veya “bir farkındalık öğretmeni gibi sakin bir ses kullan”.
İşte “gerçek suç tarzı”, yıpranmış bir ses:
OpenAI ürün ekibinin bir üyesi olan Jeff Harris, TechCrunch’a verdiği demeçte, amacın geliştiricilerin hem ses “deneyimini” hem de “bağlamı” uyarlamasına izin vermek olduğunu söyledi.
Harris, “Farklı bağlamlarda, sadece düz, monoton bir ses istemezsiniz. Bir müşteri destek deneyimindeyseniz ve sesin bir hata yaptığı için özür dilemesini istiyorsanız, aslında sesin içinde bu duyguyu barındırmasını sağlayabilirsiniz… Buradaki en büyük inancımız, geliştiricilerin ve kullanıcıların yalnızca ne konuşulduğunu değil, nasıl konuşulduğunu da gerçekten kontrol etmek istedikleridir” dedi.
OpenAI’nin yeni konuşmadan metne modelleri olan “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” ise şirketin uzun süredir kullandığı Whisper transkripsiyon modelinin yerini alıyor. OpenAI, “çeşitli, yüksek kaliteli ses veri kümeleri” üzerinde eğitilen yeni modellerin kaotik ortamlarda bile aksanlı ve çeşitli konuşmaları daha iyi yakalayabildiğini iddia ediyor.
Harris ayrıca halüsinasyon görme olasılıklarının da daha düşük olduğunu sözlerine ekledi. Whisper, ırkçı yorumlardan hayali tıbbi tedavilere kadar her şeyi transkriptlere ekleyerek, konuşmalarda kelimeleri ve hatta tüm pasajları uydurma eğilimindeydi.
Harris, “Bu modeller bu konuda Whisper’a kıyasla çok daha gelişmiş durumda. Modellerin doğru olduğundan emin olmak, güvenilir bir ses deneyimi elde etmek için tamamen önemlidir ve [bu bağlamda] doğru olması, modellerin kelimeleri tam olarak duydukları [ve] duymadıkları ayrıntıları doldurmadıkları anlamına gelir” diye konuştu.
Bununla birlikte, kat ettiğiniz mesafe yazıya dökülen dile bağlı olarak değişebilir.
OpenAI’nin dahili kıyaslamalarına göre, iki transkripsiyon modelinden daha doğru olan gpt-4o-transcribe, Tamil, Telugu, Malayalam ve Kannada gibi Indic ve Dravidian dilleri için %30’a yaklaşan (%120 üzerinden) bir “kelime hata oranına” sahip. Bu, modelden alınan her 10 kelimeden üçünün bu dillerde insan transkripsiyonundan farklı olacağı anlamına gelir.
OpenAI, geleneği bozarak yeni transkripsiyon modellerini açık bir şekilde kullanıma sunmayı planlamıyor. Şirket geçmişte Whisper’ın yeni sürümlerini MIT lisansı altında ticari kullanım için yayınlamıştı.
GPT-4o-transcribe ve gpt-4o-mini-transcribe’ın “Whisper’dan çok daha büyük” olduğunu ve bu nedenle açık bir sürüm için iyi adaylar olmadığını söyleyen Harris, “Whisper gibi dizüstü bilgisayarınızda yerel olarak çalıştırabileceğiniz türden bir model değiller. Bir şeyleri açık kaynak olarak yayınlıyorsak, bunu düşünceli bir şekilde yaptığımızdan ve bu özel ihtiyaç için gerçekten geliştirilmiş bir modele sahip olduğumuzdan emin olmak istiyoruz. Ve son kullanıcı cihazlarının açık kaynak modelleri için en ilginç durumlardan biri olduğunu düşünüyoruz” dedi.
Kaynak: TechCrunch
YouTube dinamik reklam ekleme özelliği getirmeye hazırlanıyor
OpenAI: Yapay zekalı sesli asistan artık sohbet etmek için daha iyi
OpenAI, gerçekçi, duygusal konuşmalar üretebilen yeni nesil bir “Ses Motoru” tanıttı
En son
- Haberler3 yıl önce
Podcast’ten para kazanmanın 12 yolu
- Haberler2 yıl önce
Spotify’dan ‘Şişedeki Çalma Listesi’
- Etkinlik1 yıl önce
‘Podcast Dinliyorum’ etkinliğinin ikincisi 25 Ekim’de
- Araştırma3 yıl önce
Mart ayına Anchor, Buzzsprout ve Spreaker damgası
- Haberler3 yıl önce
Video podcast nedir?
- Haberler3 yıl önce
Podcast’leri nasıl daha hızlı dinleyebilirsiniz?
- Haberler3 yıl önce
Daniel Ek Spotify’ın büyük vizyonunu anlattı
- Araştırma7 ay önce
Popüler podcast yayıncıları sektördeki en büyük zorlukları yorumluyor