Haberler
Sesame AI etkileyici sesli asistanını tanıttı
Kaliforniya merkezli start-up Sesame AI, daha gerçekçi diyaloglar oluşturmak için mikro duraklamalar, tonlama ve kahkaha gibi kasıtlı kusurları kullanan bir konuşma modeli geliştirdi.
Yayınlanma tarihi
6 ay önceon
Yazar :
Podcast TurkeyKaliforniya merkezli bir startup olan Sesame AI, konuşma çıktısına kasıtlı olarak kusurları dahil ederek sesli yapay zekaya alışılmadık bir yaklaşım getiriyor. Yeni modelleri, daha otantik diyaloglara ve yapay zeka sistemlerinde “ses varlığı” olarak adlandırdıkları şeye doğru erken bir adımı temsil ediyor.
İlk testlere göre, Sesame’ın en etkileyici özellikleri, konuşmalar sırasında mikro duraklamalar, vurgu değişimleri ve kahkahalar gibi ince unsurlar. Bir etkileşimde, Sesame’in avatarı Maya, bir kullanıcının ani kıkırdamasına gerçek zamanlı olarak yanıt vererek duygusal farkındalık gösterdi.
Sistem, cümle ortasında kendi kendini düzeltme, kesintiler için özür dileme ve dolgu sözcükleri gibi insan benzeri davranışları kasıtlı olarak içeriyor. Techradar bu kasıtlı kusurları özellikle övdü ve ChatGPT veya Gemini’nin cilalı kurumsal tonundan ne kadar farklı olduklarına dikkat çekti.
İş stresi veya parti planlaması hakkındaki tartışmalar gibi simüle edilmiş senaryolarda, sistem genel ifadelere geri dönmek yerine bağlama uygun yanıtlar ve sorular sağladı.
Sesame AI semantik ve akustik belirteçleri kullanıyor
Henüz resmi bir makale yayınlanmamış olsa da, Sesame’in blog yazısı mimarileri hakkında fikir veriyor. CSM, temel işleme için bir omurga transformatörünü (1-8 milyar parametre) ses üretimi için daha küçük bir kod çözücü (100-300 milyon parametre) ile birleştiren iki parçalı bir transformatör yapısı kullanıyor.
Sistem, perde ve vurgu gibi ses özellikleri için akustik belirteçlerin yanı sıra dilsel özellikler ve fonetik için semantik belirteçler kullanarak konuşmayı işliyor. Eğitimi optimize etmek için, ses kod çözücü ses karelerinin yalnızca on altıda biri üzerinde eğitilirken, anlamsal işleme tüm veri kümesini kullanıyor.
Model, beş dönem boyunca bir milyon saatlik İngilizce ses verisi üzerinde eğitildi. Uçtan uca bir mimaride 2.048 jetona kadar (yaklaşık iki dakikalık ses) dizileri işleyebiliyor. Bu yaklaşım, metin ve sesi entegre bir şekilde işlemesiyle geleneksel metinden sese sistemlerinden ayrılıyor.
Blog yazısında doğrudan belirtilmese de demo ses, Google’ın açık kaynaklı LLM Gemma’sının 27 milyar parametreli bir versiyonunu kullandığını ortaya koyuyor.
Testler insana yakın performans ortaya koyuyor
Sesame ile yapılan kör testlerde, katılımcılar kısa konuşma parçacıkları sırasında CSM ile gerçek insanlar arasında ayrım yapamadı. Bununla birlikte, daha uzun diyaloglar, zaman zaman doğal olmayan duraklamalar ve ses artefaktları gibi sınırlamaları ortaya çıkardı.
Sesame, model performansını ölçmek için özel fonetik kıyaslamalar geliştirdi. Dinleme testlerinde, katılımcılar üretilen konuşmayı bağlam olmadan duyduklarında gerçek kayıtlara eşdeğer olarak değerlendirdiler, ancak bağlam sağlandığında orijinali tercih etmeye devam ettiler.
Deneklerin yapay zeka tarafından üretilen konuşma tercihi neredeyse insani seviyelere ulaşıyor. | Resim: Sesame AI
Gelecekteki gelişmeler ve açık kaynak planları
Sesame, araştırmalarının temel bileşenlerini Apache 2.0 lisansı altında açık kaynak olarak yayınlamayı planlıyor. Önümüzdeki aylarda, hem model boyutunu hem de eğitim kapsamını büyütmeyi ve 20’den fazla dile genişletmeyi planlıyorlar.
Şirket özellikle önceden eğitilmiş dil modellerini entegre etmeye ve konuşmacı geçişleri, duraklamalar ve hızlanma gibi konuşma dinamiklerini doğrudan verilerden öğrenebilen tam çift yönlü yetenekli sistemler geliştirmeye odaklanıyor. Bu gelişme, veri küratörlüğünden eğitim sonrası yöntemlere kadar işleme hattı boyunca temel değişiklikler gerektirecek.
Geliştiriciler, “Sesli varlığa sahip dijital bir yol arkadaşı oluşturmak kolay değil, ancak kişilik, hafıza, ifade ve uygunluk dahil olmak üzere birçok cephede istikrarlı bir ilerleme kaydediyoruz” diyor.
Eski Oculus CTO’su Brendan Iribe ve ekibi tarafından kurulan Sesame AI, Andreessen Horowitz liderliğinde önemli bir A Serisi fon sağladı. Bir demo mevcut.
Doğal yapay zeka seslerinin asistanların benimsenmesi üzerindeki etkisi, ChatGPT’nin Gelişmiş Ses Modu etrafındaki heyecanla kanıtlandı. LLM’ler tarafından desteklenen sesli asistanların, Amazon’un Alexa+’ı piyasaya sürmesinin de gösterdiği gibi, giderek daha yaygın hale gelmesi muhtemel.
Kaynak: The Decoder
Beğenebilirsin
Haberler
Pocket FM’den, anlatıları dönüştürme ve merak uyandıran hikayeler yazma aracı
Hindistan merkezli sesli dizi platformu üreticisi Pocket FM, sesli dizilerin Netflix’i olmayı hedefliyor. Yani şirket, yüzlerce bölümlük sesli dizilerini kullanıcılarının zevkine uygun hale getirmeyi amaçlıyor. Bunun için içerikleri hızla yayınlaması gerekiyor ve bu konuda yapay zekaya yöneliyor.
Yayınlanma tarihi
5 gün önce=>
15 Ağustos 2025Hindistan merkezli sesli dizi platformu üreticisi Pocket FM, sesli dizilerin Netflix’i olmayı hedefliyor. Yani şirket, yüzlerce bölümlük sesli dizilerini kullanıcılarının zevkine uygun hale getirmeyi amaçlıyor. Bunun için içerikleri hızla yayınlaması gerekiyor ve bu konuda yapay zekaya yöneliyor.
Lightspeed destekli girişim, yazarlarına bir bölüme daha iyi sonlar önermek veya anlatıyı daha ilgi çekici hale getirmek gibi şeyler yapabilen bir yapay zeka araç seti sunuyor. Bu araçların hikaye yazım sürecini hızlandırması bekleniyor.
Pocket FM, ses dizileri için ses üretmek amacıyla ElevenLabs gibi bazı yapay zeka araçlarını kullanıyor. Ayrıca, şirket içinde yazım ve uyarlama yardımı için yapay zeka araçlarını test etti.
Pocket FM’in kurucusu Rohan Nayak, yapay zeka araçlarının tüm yazarlara sunulacağını, böylece yazarların bölümlerini bitirmelerinin daha az zaman alacağını söyledi.
CoPilot adı verilen yazma aracı, herhangi bir yazarın hikaye oluşturmasına yardımcı olmak için kullanılabilir.
CoPilot, belirli bir bölüm için anlatı tabanlı yazıyı diyalog tabanlı yazıya dönüştürebilir. Ayrıca, belirli bir türdeki sesli diziler için yazıyı daha ilgi çekici hale getirmek üzere şekillendirmek için “vuruş analizi” de yapabilir. Araç ayrıca, “kısaltma”, “genişletme” ve bir komut aracılığıyla metin oluşturma gibi temel sohbet robotu tarzı yazım özelliklerine de sahip.
Şirket, CoPilot’u geliştirmek için kullanıcıların belirli bir türdeki belirli bir hikaye ile daha fazla etkileşim kurmasını sağlayan şeyin ne olduğunu anlamak amacıyla binlerce saatlik veri noktasını inceledi.
Buna dayanarak, karakterler arasındaki çatışmayı artırmak ve bölümü daha heyecanlı hale getirmek için sonlar önermek üzere tasarlanmış yazı önerisi özellikleri ekledi. Yapay zeka ayrıca, ses üretilirken kullanılabilecek arka plan efektleri için etiketler de önerebiliyor.
Araç, karakterlerin biyografilerini, ilişkilerini otomatik olarak oluşturabilir ve farklı bölümlerin olay örgüsü noktalarını özetleyebilir; böylece yaratıcıların yazarken bu ayrıntılara tekrar başvurmalarına olanak tanıyor.
CoPilot’un ayrıca bir bölüm hakkında yorum yaparak olay örgüsünü, dilbilgisini kontrol eden ve nitel geri bildirimler bırakan bir inceleme aracı da bulunuyor.
Pocket FM, perde arkasında, karakter gelişimleri ve ilişkileri için bir hikâyenin bağlamını ve anlatı tutarlılığını korumak üzere daha küçük modelleri eğitiyor. Ayrıca, kullanıcılardan gelen sinyalleri kullanan girişim, yapay zekayı hikâyeye daha fazla dram katması için teşvik ediyor.
Uluslararası genişleme ve yerelleştirme planları
Yapay zeka araçlarının gelişiyle birlikte Pocket FM, metni bir dilden diğerine çevirmenin yanı sıra, o bölgenin kültürüne daha uygun şekilde isimleri ve ifadeleri değiştiren çeşitli pazarlara yönelik uyarlama araçları da piyasaya sürdü.
Şirket, geçen yıl Avrupa ülkesinde kullanıcılarla etkileşim kurmakta zorlandığı yönündeki haberlerin ardından, bu aracı ilk olarak bu yılın başlarında Almanya’da CoPilot paketinin bir parçası olarak diğer bölgelerdeki hikayeleri dönüştürmek için kullanıma sundu.
Nayak, şirketin bu denemeden harika sonuçlar aldığını, Haziran ayında aylık uygulama içi gelirinin 700.000 doları aştığını söyledi.
Nayak, “Yeni bölgelere açılmaya başladığımızda, o pazarda anlamlı bir şekilde var olmamız 12-18 ayı buluyordu. Kullanıcı edinmeye ve pazarı büyütmeye başlamak için en az 1.000 saatlik içeriğe sahip olmanız gerekiyor. Şimdi bunu üç aydan kısa sürede yapabiliyoruz” dedi.
Araç, Alman pazarındaki program çıktıları açısından yazar verimliliğini %50’ye kadar artırdı. Ayrıca, şirketin programların daha hatasız taslaklarını oluşturmasına yardımcı olarak sesli diziler için daha yüksek kullanıcı sadakati sağladı.
ABD’de, bu yeni yapay zeka araçlarının yardımıyla oluşturulan diziler artık izlenme süresinin %10’unu oluşturuyor. Ayrıca, bu diziler son 12 ayda 7 milyon dolar gelir elde ederken, yapım maliyetlerini 2-3 kat azalttı.
İçerik üretimini ölçeklendirmek için teknoloji oluşturma
Pocket FM, şirket içinde farklı yapay zeka özelliklerini benimsemesi sayesinde içeriği hızla ölçeklendirebildi. Girişim, ayda yaklaşık 1.000 pilot yayın başlattığını belirtti. Üstelik, yalnızca içerik hacmi bile birkaçının hit olmasını sağlıyor.
Ancak sesli gösteri sadece bir bölüm. Şirket, Pocket Toons platformuyla hikâyeleri çizgi romanlara dönüştürecek araçlar üzerinde çalışıyor . Ayrıca Nayak, videonun da şirketin araştırabileceği olası bir format olduğunu söyledi. Turlar boyunca 196 milyon doların üzerinde fon toplayan girişim , bir mikro drama uygulaması üzerinde de denemeler yapıyor.
Pocket FM, gelecek yıl programlarından toplanan verilere dayanan ve yazım yardımı, uyarlama, dramatizasyon ve hikaye bağlamını koruma gibi farklı araçları içeren kendi tekil büyük dil modelini (LLM) yayınlamayı planlıyor. Şirketin kurucu ortağı Prateek Dixit, kendi LLM programına geçtiğinde, ayrı özellikler için çok sayıda küçük model eğitmesine gerek kalmayacağını söyledi.
Yapay zekanın potansiyel dezavantajları
Yapay zekayı benimsemenin yan etkileri oldu.
Pocket FM, son 12 ayda birden fazla dönemde çalışan veya taşeron olarak çalışan kişileri işten çıkardı. Ayrıca, yazarların zaman içinde getirilerinin azaldığına dair raporlar da var. Şirket, istihdam ve ücret sorunları nedeniyle Kaliforniya’da davalarla karşı karşıya.
Bir şirket temsilcisi, bu işten çıkarmalara yanıt olarak, “İçerik odaklı çoğu sektörde olduğu gibi, proje bazında çeşitli yazar, seslendirme sanatçısı ve prodüksiyon ortaklarıyla çalışıyoruz ve kaynakları her pazara göre uyarlıyoruz. Yapay zekanın temel yaratıcı topluluğumuz üzerinde çok az etkisi oldu; bunun yerine, erişimi ve çıktıyı genişletmek için yeni yollar açtı,” dedi.
Kalite konusunda da sorular var. Şirket, kaliteyi bir gösterinin izlenme oranlarına göre ölçüyor.
Temel argüman, yeni yapay zeka araçlarının tek başına içerik üretenler için bile bir yazar odası gibi davrandığı ve böylece daha hızlı bir şekilde daha fazla içerik üretebilecekleri yönünde. Ayrıca, rakamlara bakıldığında, yazarlar yapay zekanın yardımıyla hikayeyi hızla düzenleyebilirler. Ancak bu araçlar, platforma “yapay zeka kaynaklı içerik” (yani düşük kaliteli, yapay zeka tarafından oluşturulmuş içerik) ekleyebilir ve kullanıcıların önerilerini etkileyerek iyi hikayeler keşfetmelerini zorlaştırabilir.
Pocket FM, yapay zekanın yardımıyla sağlam bir yapıya sahip hikayelerin popülerlik kazanacağını savunuyor.
Şirket, her içeriğin kalite ve özgünlük sağlamak için yapay zeka destekli moderasyon sistemi tarafından incelendiğini belirtti. Ayrıca, yapay zeka moderasyon sisteminin, sesin yayınlanmasını onaylamadan önce tekrar, telif hakkı sorunları, içerik sağlığı ve diğer kalite ölçütleri gibi unsurları kontrol ettiğini iddia ediyor. Her program eşit şekilde destekleniyor ve kullanıcı etkileşimi, bir programın sıralamasını belirliyor.
Bir diğer endişe ise yazarların zamanla yapay zekaya aşırı bağımlı hale gelebilmesi.
Almanya’da, yapay zeka, belirli programlar için program başına insanlardan daha fazla içerik yazıyor. Pocket FM’in daha fazla yapay zeka aracı sunma planlarıyla, yapay zeka tarafından yazılan içerik miktarı artabilir. Bununla birlikte, daha fazla program yayınlama beklentisi de yükselebilir. Kullanıcı benimsemesi hızla artmazsa, ortalama getiriler düşebilir.
Şirket, TechCrunch’ın iadelerle ilgili sorularına doğrudan yanıt vermedi, ancak yapay zeka araçlarının bir yazarın işini hızlandırabileceğini ve bir bölümü sayılara ve izleyici geri bildirimlerine göre düzenlemelerine yardımcı olabileceğini belirtti. Yani, tamamen yeniden yazmak yerine hedefli iyileştirmeler yapabilirler.
Bir sözcü yaptığı açıklamada, “Bu şekilde, daha hızlı içerik oluşturma, kaliteyi veya alaka düzeyini düşürmüyor; sadece yazarın rolünü daha üretken çıktıları düzenlemeye, iyileştirmeye ve yönlendirmeye kaydırıyor” dedi.
Kaynak: TechCrunch
Haberler
Meta, yapay zeka ses girişimi WaveForms’u satın aldı
Meta, AI ses teknolojisi girişimi WaveForms’u açıklanmayan bir bedel karşılığında satın aldı. Bu satın alma, şirketin yeni AI birimi Superintelligence Labs’ı güçlendirmek için yapılan en son hamle ve Meta’nın PlayAI’yi satın almasının ardından son bir ay içinde yaptığı ikinci büyük AI ses teknolojisi satın alımı.
Yayınlanma tarihi
2 hafta önce=>
9 Ağustos 2025Meta, AI ses teknolojisi girişimi WaveForms’u açıklanmayan bir bedel karşılığında satın aldı. The Information’ın haberine göre, bu satın alma, şirketin yeni AI birimi Superintelligence Labs’ı güçlendirmek için yapılan en son hamle ve Meta’nın PlayAI’yi satın almasının ardından son bir ay içinde yaptığı ikinci büyük AI ses teknolojisi satın alımı.
Sadece 8 ay önce kurulan WaveForms, PitchBook verilerine göre Andreessen Horowitz’den 40 milyon dolarlık yatırım aldı ve bu yatırım turunda şirketin değerlemesi 160 milyon dolar olarak belirlendi.
Girişimin iki kurucu ortağı, eski Meta ve OpenAI araştırmacısı Alexis Conneau ile eski Google reklam stratejisti Coralie Lemaitre’nin Meta’ya katıldığı bildirildi. Conneau, OpenAI’da çalışırken GPT4-o Advanced Voice Mode sinir ağlarını ortaklaşa oluşturdu.
TechCrunch, WaveForms’a ulaşarak şirketin baş teknoloji uzmanı Kartikay Khandelwal’ın da Meta’ya katılıp katılmayacağını ve şirketin diğer yaklaşık 14 çalışanının (LinkedIn’e göre) anlaşmanın sonucunu öğrenmek istedi.
WaveForms kendi web sitesini kapatmış gibi görünüyor, ancak şirketin LinkedIn sayfasında misyonunu, dinleyicinin insan ve yapay zeka tarafından üretilen konuşmaları ayırt edip edemediğini ölçmeye çalışan “Konuşma Turing Testi”ni çözmek olarak tanımlıyor. WaveForms ayrıca, bireysel öz farkındalık ve yönetimi anlamaya odaklanan “Duygusal Genel Zeka”yı da geliştiriyordu.
Kaynak: TechCrunch
Araştırma
İngiltere’de televizyonda podcast dinleme oranı 2 yılda iki katına çıktı
Edison Research’ün yayınladığı The UK Podcast Consumer 2025 raporuna göre, Birleşik Krallık’ta televizyonda podcast tüketimi son iki yılda iki katına çıktı. Araştırma ayrıca, ülkede kullanılan ana podcast platformunun Spotify olduğunu ve BBC Sounds’ın Apple Podcasts’ten daha popüler olduğunu gösteriyor.
Yayınlanma tarihi
2 hafta önce=>
8 Ağustos 2025Edison Research’ün yayınladığı The UK Podcast Consumer 2025 raporuna göre, Birleşik Krallık’ta televizyonda podcast tüketimi son iki yılda iki katına çıktı. Araştırma ayrıca, ülkede kullanılan ana podcast platformunun Spotify olduğunu ve BBC Sounds’ın Apple Podcasts’ten daha popüler olduğunu gösteriyor.
Edison Research’ün yayınladığı “The UK Podcast Consumer 2025” raporu, Birleşik Krallık’ta podcast’lerin muazzam erişimini ve podcast dinlemenin büyüme potansiyelini ortaya koyuyor.
İngilizlerin çoğu son bir ay içinde podcast dinledi: Birleşik Krallık’ta 16 yaş ve üstü kişilerin %71’i hiç podcast dinlemiş, %51’i son bir ay içinde podcast dinlemiş ve %33’ü son bir hafta içinde podcast dinlemiştir.
Birleşik Krallık’ta podcast dinleme büyümeye hazır: Evlerde podcast tüketimi için akıllı TV’lerin benimsenmesi, dijital hizmetlerde podcast’lere erişimin ve çeşitliliğin artması ve otomobillerde bilgi-eğlence sistemlerinin yaygınlaşması, bu mecranın büyüme potansiyelini artırıyor.
- 2023 yılından bu yana, 15 yaş ve üzeri İngiliz haftalık podcast tüketicileri arasında akıllı TV’de en sık dinleyenlerin sayısı iki katına çıktı: 2023 yılının ilk çeyreğinde akıllı TV’de en sık dinleyenlerin oranı %4 iken, 2025 yılının ilk çeyreğinde bu oran %8’e çıktı.
- İngiltere’de haftalık podcast dinleyicileri arasında 15 yaş ve üzeri olanların %33’ü podcast dinlemek için en sık Spotify’ı kullanıyor; %20’si YouTube’u, %15’i BBC Sounds’u ve %13’ü Apple Podcasts’ı kullanıyor.
- İngiltere’de son bir ay içinde araba süren veya araba ile seyahat eden 18 yaş ve üzeri kişilerin %38’i ana araçlarında Apple CarPlay veya Android Auto’ya sahip.
Edison Research Araştırma Direktörü Gabriel Soto, Edison’un The Infinite Dial® UK, Edison Podcast Metrics™ ve diğer özgün özel araştırmalarından elde edilen bulguları bir araya getiren çalışmanın sonuçlarını sundu.
Soto, “Bu yılın İngiltere Podcast Tüketici Raporu, podcast’lerin sadece ana akım tarafından benimsenmediğini, aynı zamanda değerli ve çeşitli kitlelere nasıl ulaştığını da gösteriyor” dedi. “Reklamverenler için bu çok önemli bir an. Edison olarak podcast’lere iyimser bakıyoruz, çünkü veriler daha fazla benimsenme potansiyeli, sağlam reklam ROI’si ve markaların medya stratejilerinin temel bir parçası olarak podcast’lere güvenle yatırım yapmalarına yardımcı olacak araçların zaten mevcut olduğunu gösteriyor.”
- Podcast’ler geniş bir nesil kitlesine hitap ediyor: Birleşik Krallık’ta 16-24 yaş grubunun %61’i, 35-54 yaş grubunun %56’sı ve 55 yaş üstü grubun %38’i aylık podcast tüketicisidir.
- Podcast reklamcılığı sağlam bir yatırım getirisi sağlıyor: Birleşik Krallık’ta 15 yaş ve üzeri haftalık podcast tüketicilerinin %83’ü, reklam dinlemenin ücretsiz içerik için ödenmesi gereken makul bir bedel olduğunu kabul etmektedir.
- Birleşik Krallık merkezli en popüler podcast’ler ABD’deki dinleyicilere ulaşıyor: Birleşik Krallık merkezli en popüler 10 podcast (Birleşik Krallık’tan bir kişi tarafından sunulan veya Birleşik Krallık’taki bir kuruluş tarafından üretilen podcast’ler) her hafta ABD’de toplam 2,3 milyon podcast dinleyicisine ulaşmaktadır.
Diğer bulgular şunlar:
- 15 yaş ve üzeri haftalık podcast tüketicilerinin %59’u podcast’leri en sık evde dinliyor.
- 15 yaş ve üzeri haftalık podcast tüketicilerinin %66’sı podcast’leri en sık akıllı telefonlarında dinliyor.
Kaynak: PodNews
Pocket FM’den, anlatıları dönüştürme ve merak uyandıran hikayeler yazma aracı
Meta, yapay zeka ses girişimi WaveForms’u satın aldı
İngiltere’de televizyonda podcast dinleme oranı 2 yılda iki katına çıktı
En son
- Haberler3 yıl önce
Podcast’ten para kazanmanın 12 yolu
- Araştırma12 ay önce
Popüler podcast yayıncıları sektördeki en büyük zorlukları yorumluyor
- Haberler3 yıl önce
Spotify’dan ‘Şişedeki Çalma Listesi’
- Etkinlik2 yıl önce
‘Podcast Dinliyorum’ etkinliğinin ikincisi 25 Ekim’de
- Araştırma3 yıl önce
Mart ayına Anchor, Buzzsprout ve Spreaker damgası
- Haberler3 yıl önce
Video podcast nedir?
- Haberler3 yıl önce
Podcast’leri nasıl daha hızlı dinleyebilirsiniz?
- Haberler3 yıl önce
Daniel Ek Spotify’ın büyük vizyonunu anlattı