Bizimle iletişime geçin

Haberler

Sesame AI etkileyici sesli asistanını tanıttı

Kaliforniya merkezli start-up Sesame AI, daha gerçekçi diyaloglar oluşturmak için mikro duraklamalar, tonlama ve kahkaha gibi kasıtlı kusurları kullanan bir konuşma modeli geliştirdi.

Yayınlanma tarihi

on

Kaliforniya merkezli bir startup olan Sesame AI, konuşma çıktısına kasıtlı olarak kusurları dahil ederek sesli yapay zekaya alışılmadık bir yaklaşım getiriyor. Yeni modelleri, daha otantik diyaloglara ve yapay zeka sistemlerinde “ses varlığı” olarak adlandırdıkları şeye doğru erken bir adımı temsil ediyor.

İlk testlere göre, Sesame’ın en etkileyici özellikleri, konuşmalar sırasında mikro duraklamalar, vurgu değişimleri ve kahkahalar gibi ince unsurlar. Bir etkileşimde, Sesame’in avatarı Maya, bir kullanıcının ani kıkırdamasına gerçek zamanlı olarak yanıt vererek duygusal farkındalık gösterdi.

Sistem, cümle ortasında kendi kendini düzeltme, kesintiler için özür dileme ve dolgu sözcükleri gibi insan benzeri davranışları kasıtlı olarak içeriyor. Techradar bu kasıtlı kusurları özellikle övdü ve ChatGPT veya Gemini’nin cilalı kurumsal tonundan ne kadar farklı olduklarına dikkat çekti.

İş stresi veya parti planlaması hakkındaki tartışmalar gibi simüle edilmiş senaryolarda, sistem genel ifadelere geri dönmek yerine bağlama uygun yanıtlar ve sorular sağladı.

Sesame AI semantik ve akustik belirteçleri kullanıyor

Henüz resmi bir makale yayınlanmamış olsa da, Sesame’in blog yazısı mimarileri hakkında fikir veriyor. CSM, temel işleme için bir omurga transformatörünü (1-8 milyar parametre) ses üretimi için daha küçük bir kod çözücü (100-300 milyon parametre) ile birleştiren iki parçalı bir transformatör yapısı kullanıyor.

Sistem, perde ve vurgu gibi ses özellikleri için akustik belirteçlerin yanı sıra dilsel özellikler ve fonetik için semantik belirteçler kullanarak konuşmayı işliyor. Eğitimi optimize etmek için, ses kod çözücü ses karelerinin yalnızca on altıda biri üzerinde eğitilirken, anlamsal işleme tüm veri kümesini kullanıyor.

Model, beş dönem boyunca bir milyon saatlik İngilizce ses verisi üzerinde eğitildi. Uçtan uca bir mimaride 2.048 jetona kadar (yaklaşık iki dakikalık ses) dizileri işleyebiliyor. Bu yaklaşım, metin ve sesi entegre bir şekilde işlemesiyle geleneksel metinden sese sistemlerinden ayrılıyor.

Blog yazısında doğrudan belirtilmese de demo ses, Google’ın açık kaynaklı LLM Gemma’sının 27 milyar parametreli bir versiyonunu kullandığını ortaya koyuyor.

Testler insana yakın performans ortaya koyuyor

Sesame ile yapılan kör testlerde, katılımcılar kısa konuşma parçacıkları sırasında CSM ile gerçek insanlar arasında ayrım yapamadı. Bununla birlikte, daha uzun diyaloglar, zaman zaman doğal olmayan duraklamalar ve ses artefaktları gibi sınırlamaları ortaya çıkardı.

Sesame, model performansını ölçmek için özel fonetik kıyaslamalar geliştirdi. Dinleme testlerinde, katılımcılar üretilen konuşmayı bağlam olmadan duyduklarında gerçek kayıtlara eşdeğer olarak değerlendirdiler, ancak bağlam sağlandığında orijinali tercih etmeye devam ettiler.

Deneklerin yapay zeka tarafından üretilen konuşma tercihi neredeyse insani seviyelere ulaşıyor. | Resim: Sesame AI

Gelecekteki gelişmeler ve açık kaynak planları

Sesame, araştırmalarının temel bileşenlerini Apache 2.0 lisansı altında açık kaynak olarak yayınlamayı planlıyor. Önümüzdeki aylarda, hem model boyutunu hem de eğitim kapsamını büyütmeyi ve 20’den fazla dile genişletmeyi planlıyorlar.

Şirket özellikle önceden eğitilmiş dil modellerini entegre etmeye ve konuşmacı geçişleri, duraklamalar ve hızlanma gibi konuşma dinamiklerini doğrudan verilerden öğrenebilen tam çift yönlü yetenekli sistemler geliştirmeye odaklanıyor. Bu gelişme, veri küratörlüğünden eğitim sonrası yöntemlere kadar işleme hattı boyunca temel değişiklikler gerektirecek.

Geliştiriciler, “Sesli varlığa sahip dijital bir yol arkadaşı oluşturmak kolay değil, ancak kişilik, hafıza, ifade ve uygunluk dahil olmak üzere birçok cephede istikrarlı bir ilerleme kaydediyoruz” diyor.

Eski Oculus CTO’su Brendan Iribe ve ekibi tarafından kurulan Sesame AI, Andreessen Horowitz liderliğinde önemli bir A Serisi fon sağladı. Bir demo mevcut.

Doğal yapay zeka seslerinin asistanların benimsenmesi üzerindeki etkisi, ChatGPT’nin Gelişmiş Ses Modu etrafındaki heyecanla kanıtlandı. LLM’ler tarafından desteklenen sesli asistanların, Amazon’un Alexa+’ı piyasaya sürmesinin de gösterdiği gibi, giderek daha yaygın hale gelmesi muhtemel.

Kaynak: The Decoder

Okumaya devam et
Yorum yapmak için tıklayın

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haberler

Spotify yapay zeka destekli kişiselleştirilmiş podcast’leri tanıttı

Spotify, kullanıcıların ilgi alanlarına ve dinleme alışkanlıklarına göre yapay zeka desteğiyle doğrudan Spotify içinde podcast oluşturmalarına olanak tanıyan kişisel podcast özelliğini duyurdu. Yeni özellik kapsamında Spotify, “Günlük şehir güncellemelerimi paylaş ve sevdiğim sanatçıların yerel konserleri hakkında bilgi ver” gibi istemlere dayanarak sesli içerik oluşturacak.

Yayınlanma tarihi

=>

Spotify, platformuna daha fazla yapay zeka özelliği eklerken, yakında kullanıcıların kendi podcast’lerini oluşturmalarına olanak tanıyacağını duyurdu.

Spotify, Perşembe günü düzenlediği yatırımcı gününde, kullanıcıların ilgi alanlarına ve dinleme alışkanlıklarına göre doğrudan Spotify içinde podcast oluşturmalarına olanak tanıyan kişisel podcast özelliğini duyurdu. Bu özellik, kullanıcıların Spotify’a bir istek yazması ve Spotify’ın da bu isteğe göre ses dosyaları oluşturması prensibine dayanan mevcut “İstekli Çalma Listeleri” bölümüne benzer bir mekanizma izliyecek. 

Spotify şu örneği verdi:

“Günlük bir özet, merak ettiğiniz bir konu hakkında derinlemesine bir inceleme veya aklınızdaki her şeyin haftalık bir özetini oluşturabilirsiniz. ‘Günlük şehir güncellemelerimi paylaş ve sevdiğim sanatçıların yerel konserlerinden bahset’ veya ‘Ekonomiyi beş dakikada anlamama yardımcı ol’ gibi isteklerde bulunun ve Spotify, size özel bir sesli özet oluştururken, daha fazlasını keşfedebileceğiniz ilgili bölümlere, programlara ve içerik oluşturuculara da bağlantı verecektir.” 

Kullanıcılar daha sonra bu podcast’leri günlük veya haftalık olarak tekrar edecek şekilde planlayabilir, bir ses seçebilir ve ek metin, PDF veya bağlantılar aracılığıyla daha fazla bağlam ekleyebilirler. Bölümler yalnızca her bireyin kendi kütüphanesi aracılığıyla erişilebilir durumda. 

Kişisel podcast’ler, önümüzdeki aydan itibaren ABD’deki uygun premium kullanıcılara sunulacak ve belirli sayıda aylık kredi içerecek, ayrıca daha fazla kredi satın alma seçeneği de sunulacak. Spotify ayrıca Perşembe günü, kullanıcıların dinledikleri podcast’ler hakkında Spotify’a sorular sormasına ve yanıt almasına olanak tanıyan yeni bir özellik yayınlayacağını duyurdu.

Spotify’ın eş CEO’su Gustav Söderström, yatırımcı sunumunda şunları söyledi:

“Deneyimin sadece bir katalogdan seçilmediği, her bir kullanıcımız tarafından gerçek zamanlı olarak, zevklerine, bağlamlarına ve niyetlerine göre şekillendirildiği bir Nesil Çağına giriyoruz… Bugün, hem kamuya açık hem de özel içerik için (veya başka bir deyişle) üretken çağ için bir medya oynatıcı yok. Spotify’ın bunu başaracağına inanıyoruz.”

Ayrıca Spotify, podcast içerik üreticilerinin Spotify’daki en ilgili hayranlarından doğrudan düzenli gelir elde etmelerini sağlayan bir yol olarak içerik üretici sponsorluklarını da tanıttı. Şirket ayrıca, podcast ses dosyaları oluşturmak ve kullanıcının takvimine, gelen kutusuna ve notlarına bağlanmak için kullanılabilen bağımsız bir masaüstü uygulaması olan Studio by Spotify Labs‘ı da tanıttı.

Bu özelliklere ek olarak Spotify, biletler satışa çıkmadan önce Spotify Premium sahibi sadık hayranları için iki konser biletini ayıracağını ve premium abonelerin şarkıların yapay zeka tarafından oluşturulmuş cover ve remixlerini yapmasına izin vereceğini duyurdu.

Okumaya devam et

Haberler

Spotify, Apple Podcasts için HLS video desteği sunacak

Spotify’ın Megaphone ve Spotify for Creators hizmetleri, Apple Podcasts’te yayınlanan podcast’ler için video desteğini sunacak.

Yayınlanma tarihi

=>

Spotify’ın Megaphone ve Spotify for Creators hizmetleri, Apple Podcasts’te yayınlanan podcast’ler için video desteğini sunacak. Apple bu yılın başlarında HLS video desteğini duyurduğunda, bu iki şirket HLS video desteğini açıklamayan tek büyük podcast barındırma platformuydu. Henüz bir fiyatlandırma açıklanmadı. Ancak bu, Spotify’da videoların işleyişini değiştirmiyor: Şirket, videoların Spotify uygulamasında oynatılabilmesi için hâlâ doğrudan yüklenmesini şart koşuyor.

Şirket ayrıca Spotify Video Distribution (podcast barındırma hizmetinizin sizin adınıza videoları doğrudan Spotify’a yüklemesini sağlayan hizmet) için canlı ortaklarını da duyurdu. Libsyn, Podigee, Audioboom, Audiomeans ve Podspace bu özelliği kullanıma sundu. Spotify Video Distribution, Ocak ayında duyurulmuştu; o zaman Acast ve Omny Studio, lansman ortakları olarak öne çıkarılmıştı, ancak henüz yayında değiller. Spotify, SSS bölümünde artık, fikrinizi değiştirirseniz programınızı tekrar sadece ses içeren bir RSS beslemesine geçirebileceğinizi açıkça belirtiyor; ancak şirket, tüm video yüklemelerinizi kaybedeceğinizi uyarıyor.

Okumaya devam et

Haberler

Spotify, yapay zeka tarafından üretilen kişiselleştirilmiş ses içeriklerinin merkezi olmayı hedefliyor

Spotify, OpenAI’nin Codex’i, Anthropic’in Claude Code’u veya OpenClaw gibi bir araç kullanılarak ve yine Spotify’ın beta aşamasındaki yeni CLI aracını kullanarak podcast oluşturulabileceğini ve daha sonra dinlemek üzere Spotify’a aktarılabileceğini duyurdu.

Yayınlanma tarihi

=>

Son birkaç yıldır, Google’ın NotebookLM, Hero ve son zamanlarda Adobe Acrobat gibi uygulamaları, kullanıcılara belgeler, günlük programlar ve makaleler gibi mevcut materyallere dayalı podcast’ler oluşturma olanağı sağladı. Şimdi Spotify da bu podcast’lere uygulaması içinden erişmenize izin veriyor, ancak bunu yapmak için bazı programlama araçlarına ihtiyacınız olacak.

Şirket, OpenAI’nin Codex’i, Anthropic’in Claude Code’u veya OpenClaw gibi bir araç kullanıyorsanız, Spotify’ın beta aşamasındaki yeni CLI aracını kullanarak podcast oluşturabileceğinizi ve daha sonra dinlemek üzere Spotify’a aktarabileceğinizi belirtti.

Şirket bir blog yazısında, “İnsanlar şimdiden asistanlarını kullanarak günlerini yönlendiren kişisel ses kayıtları oluşturmaya başladılar: sınav öncesi ders notlarının özetlerinden takvimlerindeki etkinliklerin bilgilendirmelerine kadar. Ve zaten her şeyi dinledikleri Spotify’da bunları da dinlemenin bir yolunu istiyorlar” dedi .

Podcast’ler, kolay erişim için kullanıcının Spotify kütüphanesinde görünecek ancak diğer Spotify kullanıcıları tarafından erişilemeyecek.

Yeni özellikten yararlanmak için kullanıcılar aracın GitHub sayfasına gidip oradaki talimatları takip edebilirler. Ardından, bir tarayıcı aracılığıyla Spotify hesaplarına giriş yapmaları istenecektir.

Bundan sonra, “Bana Dünya Kupası’nın tarihine derinlemesine inen, önemli oyuncular, nerede düzenlendiği ve bu yılki maçlar hakkında bilmem gerekenler hakkında detaylar içeren bir ses kaydı oluşturun” gibi bir istek yazabilir ve ajansdan bir podcast oluşturmasını ve Spotify’a kaydetmesini isteyebilirler. Kullanıcılar ayrıca podcast’lerinin Spotify listesine bir bağlantı da alacaklardır.

Kaynak: Ivan Mehta / TechCrunch

Okumaya devam et

En son