Bizimle iletişime geçin

Haberler

ByteDance’in yeni yapay zeka modeli, hareketsiz görüntüleri sesle canlandırıyor

TikTok’un ana şirketi Bytedance’daki araştırmacılar, “dinleyici” ve “konuşmacı” rollerini manuel olarak atamak zorunda kalmadan iki kişi arasındaki konuşmalar için gerçekçi diyalog videoları oluşturabilen INFP adlı bir yapay zeka çerçevesi geliştirdiler.

Yayınlanma tarihi

on

TikTok’un ana şirketi ByteDance, statik portre fotoğraflarının konuşuyor gibi görünmesini ve ses girdisine tepki vermesini sağlayabilen INFP adlı bir yapay zeka sistemi geliştirdi.

INFP’yi (“İnteraktif, Doğal, Flash ve Kişi jenerik” anlamına geliyor) diğerlerinden ayıran şey, kimsenin konuşma ve dinleme rollerini manuel olarak atamasına gerek kalmadan iki kişi arasında gerçekçi konuşma videoları oluşturma yeteneğidir. Sistem, konuşma aktıkça bu rolleri otomatik olarak belirliyor.

Sistem iki ana adımda çalışıyor. ByteDance’in “Hareket Tabanlı Kafa Taklidi” adını verdiği ilk adımda yapay zeka, insanların iletişim kurma biçimlerinin tüm küçük ayrıntılarını (yüz ifadeleri ve konuşmalar sırasında başlarını hareket ettirme biçimleri gibi) algılamayı öğreniyor. Bu hareketleri videolardan alıyor ve daha sonra kullanabileceği verilere dönüştürüyor. Bu hareket verileri daha sonra hareketsiz bir fotoğrafı orijinal kişinin hareketleriyle eşleşecek şekilde canlandırabilir.

İkinci aşama olan “ses rehberli hareket üretimi ”nde sistem, sesleri doğal görünümlü hareketlerle nasıl eşleştireceğini buluyor. Ekip, bir konuşmanın her iki tarafından gelen sesi analiz ederek hem konuşma hem de dinleme için kalıplar oluşturan ve “hareket yönlendirici” olarak adlandırdıkları bir sistem geliştirdi. Daha sonra, difüzyon transformatörü adı verilen özel bir yapay zeka bileşeni bu kalıpları alıyor ve yavaş yavaş sese uyan pürüzsüz, gerçekçi hareketlere dönüştürüyor.

İlk adımda, konuşma videolarından hareket kalıpları çıkarılır; ikinci adımda, bu hareketler ses girişi ile kontrol edilir. | Resim: Bytedance

Yapay zekaya gerçek konuşmaların nasıl işlediğini öğretmek

Sistemlerini düzgün bir şekilde eğitmek için ekibin yeni bir şey inşa etmesi gerekiyordu: DyConv adını verdikleri gerçek dünya konuşmalarından oluşan bir koleksiyon. İnternet üzerindeki videolardan 200 saatin üzerinde birbiriyle konuşan insan görüntüsü topladılar.

ViCo ve RealTalk gibi başka konuşma veritabanları olsa da, ekip DyConv’un özel bir şey sunduğunu söylüyor; daha geniş bir yelpazede insan duygularını ve ifadelerini yakalıyor ve video kalitesi önemli ölçüde daha iyi.

Siyah ve mavi ses dalga formları konuşma partnerlerinin konuşma kısımlarını temsil ederken, görüntü dizileri de karşılık gelen oluşturulmuş hareket modellerini göstermektedir. | Resim: Bytedance

ByteDance, sisteminin birkaç temel alanda mevcut araçlardan daha iyi performans gösterdiğini söylüyor. INFP özellikle dudak hareketlerini konuşmayla eşleştirmede, kişinin benzersiz yüz özelliklerini korumada ve çok çeşitli doğal görünümlü hareketler oluşturmada başarılı. Ekip ayrıca, sadece bir konuşmayı dinleyen birinin videolarını oluşturmak için de iyi çalıştığını keşfetti.

INFP için sırada ne var

Şu anda INFP yalnızca sesle çalışıyor, ancak ekip yeteneklerini genişletmek için birçok yol görüyor. Sistemin görüntü ve metinlerle nasıl çalışacağını araştırıyorlar, bu da her türlü yeni olasılığın önünü açacaktır. Bir sonraki hedefleri, insanların sadece kafalarının ve yüz ifadelerinin değil, tüm vücutlarının gerçekçi animasyonlarını oluşturmak.

Araştırmacılar bu tür bir teknolojinin sahte videolar oluşturmak ve yanlış bilgi yaymak için kötüye kullanılabileceğini biliyorlar. Bu nedenle temel teknolojiyi araştırma kurumlarıyla sınırlı tutmayı planlıyorlar – tıpkı Microsoft’un geçen yaz gelişmiş ses klonlama sistemiyle yaptığı gibi.

Bu çalışma, ByteDance’ın bu yılın başlarında duyurduğu daha büyük yapay zeka stratejisinin sadece bir parçası. Portföyünde TikTok ve CapCut gibi popüler uygulamalar bulunan şirket, bu yapay zeka yeniliklerini kullanmak için büyük bir platforma sahip.

Kaynak: The Decoder

Okumaya devam et
Yorum yapmak için tıklayın

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haberler

Spotify yapay zeka destekli kişiselleştirilmiş podcast’leri tanıttı

Spotify, kullanıcıların ilgi alanlarına ve dinleme alışkanlıklarına göre yapay zeka desteğiyle doğrudan Spotify içinde podcast oluşturmalarına olanak tanıyan kişisel podcast özelliğini duyurdu. Yeni özellik kapsamında Spotify, “Günlük şehir güncellemelerimi paylaş ve sevdiğim sanatçıların yerel konserleri hakkında bilgi ver” gibi istemlere dayanarak sesli içerik oluşturacak.

Yayınlanma tarihi

=>

Spotify, platformuna daha fazla yapay zeka özelliği eklerken, yakında kullanıcıların kendi podcast’lerini oluşturmalarına olanak tanıyacağını duyurdu.

Spotify, Perşembe günü düzenlediği yatırımcı gününde, kullanıcıların ilgi alanlarına ve dinleme alışkanlıklarına göre doğrudan Spotify içinde podcast oluşturmalarına olanak tanıyan kişisel podcast özelliğini duyurdu. Bu özellik, kullanıcıların Spotify’a bir istek yazması ve Spotify’ın da bu isteğe göre ses dosyaları oluşturması prensibine dayanan mevcut “İstekli Çalma Listeleri” bölümüne benzer bir mekanizma izliyecek. 

Spotify şu örneği verdi:

“Günlük bir özet, merak ettiğiniz bir konu hakkında derinlemesine bir inceleme veya aklınızdaki her şeyin haftalık bir özetini oluşturabilirsiniz. ‘Günlük şehir güncellemelerimi paylaş ve sevdiğim sanatçıların yerel konserlerinden bahset’ veya ‘Ekonomiyi beş dakikada anlamama yardımcı ol’ gibi isteklerde bulunun ve Spotify, size özel bir sesli özet oluştururken, daha fazlasını keşfedebileceğiniz ilgili bölümlere, programlara ve içerik oluşturuculara da bağlantı verecektir.” 

Kullanıcılar daha sonra bu podcast’leri günlük veya haftalık olarak tekrar edecek şekilde planlayabilir, bir ses seçebilir ve ek metin, PDF veya bağlantılar aracılığıyla daha fazla bağlam ekleyebilirler. Bölümler yalnızca her bireyin kendi kütüphanesi aracılığıyla erişilebilir durumda. 

Kişisel podcast’ler, önümüzdeki aydan itibaren ABD’deki uygun premium kullanıcılara sunulacak ve belirli sayıda aylık kredi içerecek, ayrıca daha fazla kredi satın alma seçeneği de sunulacak. Spotify ayrıca Perşembe günü, kullanıcıların dinledikleri podcast’ler hakkında Spotify’a sorular sormasına ve yanıt almasına olanak tanıyan yeni bir özellik yayınlayacağını duyurdu.

Spotify’ın eş CEO’su Gustav Söderström, yatırımcı sunumunda şunları söyledi:

“Deneyimin sadece bir katalogdan seçilmediği, her bir kullanıcımız tarafından gerçek zamanlı olarak, zevklerine, bağlamlarına ve niyetlerine göre şekillendirildiği bir Nesil Çağına giriyoruz… Bugün, hem kamuya açık hem de özel içerik için (veya başka bir deyişle) üretken çağ için bir medya oynatıcı yok. Spotify’ın bunu başaracağına inanıyoruz.”

Ayrıca Spotify, podcast içerik üreticilerinin Spotify’daki en ilgili hayranlarından doğrudan düzenli gelir elde etmelerini sağlayan bir yol olarak içerik üretici sponsorluklarını da tanıttı. Şirket ayrıca, podcast ses dosyaları oluşturmak ve kullanıcının takvimine, gelen kutusuna ve notlarına bağlanmak için kullanılabilen bağımsız bir masaüstü uygulaması olan Studio by Spotify Labs‘ı da tanıttı.

Bu özelliklere ek olarak Spotify, biletler satışa çıkmadan önce Spotify Premium sahibi sadık hayranları için iki konser biletini ayıracağını ve premium abonelerin şarkıların yapay zeka tarafından oluşturulmuş cover ve remixlerini yapmasına izin vereceğini duyurdu.

Okumaya devam et

Haberler

Spotify, Apple Podcasts için HLS video desteği sunacak

Spotify’ın Megaphone ve Spotify for Creators hizmetleri, Apple Podcasts’te yayınlanan podcast’ler için video desteğini sunacak.

Yayınlanma tarihi

=>

Spotify’ın Megaphone ve Spotify for Creators hizmetleri, Apple Podcasts’te yayınlanan podcast’ler için video desteğini sunacak. Apple bu yılın başlarında HLS video desteğini duyurduğunda, bu iki şirket HLS video desteğini açıklamayan tek büyük podcast barındırma platformuydu. Henüz bir fiyatlandırma açıklanmadı. Ancak bu, Spotify’da videoların işleyişini değiştirmiyor: Şirket, videoların Spotify uygulamasında oynatılabilmesi için hâlâ doğrudan yüklenmesini şart koşuyor.

Şirket ayrıca Spotify Video Distribution (podcast barındırma hizmetinizin sizin adınıza videoları doğrudan Spotify’a yüklemesini sağlayan hizmet) için canlı ortaklarını da duyurdu. Libsyn, Podigee, Audioboom, Audiomeans ve Podspace bu özelliği kullanıma sundu. Spotify Video Distribution, Ocak ayında duyurulmuştu; o zaman Acast ve Omny Studio, lansman ortakları olarak öne çıkarılmıştı, ancak henüz yayında değiller. Spotify, SSS bölümünde artık, fikrinizi değiştirirseniz programınızı tekrar sadece ses içeren bir RSS beslemesine geçirebileceğinizi açıkça belirtiyor; ancak şirket, tüm video yüklemelerinizi kaybedeceğinizi uyarıyor.

Okumaya devam et

Haberler

Spotify, yapay zeka tarafından üretilen kişiselleştirilmiş ses içeriklerinin merkezi olmayı hedefliyor

Spotify, OpenAI’nin Codex’i, Anthropic’in Claude Code’u veya OpenClaw gibi bir araç kullanılarak ve yine Spotify’ın beta aşamasındaki yeni CLI aracını kullanarak podcast oluşturulabileceğini ve daha sonra dinlemek üzere Spotify’a aktarılabileceğini duyurdu.

Yayınlanma tarihi

=>

Son birkaç yıldır, Google’ın NotebookLM, Hero ve son zamanlarda Adobe Acrobat gibi uygulamaları, kullanıcılara belgeler, günlük programlar ve makaleler gibi mevcut materyallere dayalı podcast’ler oluşturma olanağı sağladı. Şimdi Spotify da bu podcast’lere uygulaması içinden erişmenize izin veriyor, ancak bunu yapmak için bazı programlama araçlarına ihtiyacınız olacak.

Şirket, OpenAI’nin Codex’i, Anthropic’in Claude Code’u veya OpenClaw gibi bir araç kullanıyorsanız, Spotify’ın beta aşamasındaki yeni CLI aracını kullanarak podcast oluşturabileceğinizi ve daha sonra dinlemek üzere Spotify’a aktarabileceğinizi belirtti.

Şirket bir blog yazısında, “İnsanlar şimdiden asistanlarını kullanarak günlerini yönlendiren kişisel ses kayıtları oluşturmaya başladılar: sınav öncesi ders notlarının özetlerinden takvimlerindeki etkinliklerin bilgilendirmelerine kadar. Ve zaten her şeyi dinledikleri Spotify’da bunları da dinlemenin bir yolunu istiyorlar” dedi .

Podcast’ler, kolay erişim için kullanıcının Spotify kütüphanesinde görünecek ancak diğer Spotify kullanıcıları tarafından erişilemeyecek.

Yeni özellikten yararlanmak için kullanıcılar aracın GitHub sayfasına gidip oradaki talimatları takip edebilirler. Ardından, bir tarayıcı aracılığıyla Spotify hesaplarına giriş yapmaları istenecektir.

Bundan sonra, “Bana Dünya Kupası’nın tarihine derinlemesine inen, önemli oyuncular, nerede düzenlendiği ve bu yılki maçlar hakkında bilmem gerekenler hakkında detaylar içeren bir ses kaydı oluşturun” gibi bir istek yazabilir ve ajansdan bir podcast oluşturmasını ve Spotify’a kaydetmesini isteyebilirler. Kullanıcılar ayrıca podcast’lerinin Spotify listesine bir bağlantı da alacaklardır.

Kaynak: Ivan Mehta / TechCrunch

Okumaya devam et

En son