Haberler

ByteDance’in yeni yapay zeka modeli, hareketsiz görüntüleri sesle canlandırıyor

TikTok’un ana şirketi Bytedance’daki araştırmacılar, “dinleyici” ve “konuşmacı” rollerini manuel olarak atamak zorunda kalmadan iki kişi arasındaki konuşmalar için gerçekçi diyalog videoları oluşturabilen INFP adlı bir yapay zeka çerçevesi geliştirdiler.

Yayınlanma tarihi

2 yıl önce

6 Ocak 2025

Yazar :

Podcast Turkey

TikTok’un ana şirketi ByteDance, statik portre fotoğraflarının konuşuyor gibi görünmesini ve ses girdisine tepki vermesini sağlayabilen INFP adlı bir yapay zeka sistemi geliştirdi.

INFP’yi (“İnteraktif, Doğal, Flash ve Kişi jenerik” anlamına geliyor) diğerlerinden ayıran şey, kimsenin konuşma ve dinleme rollerini manuel olarak atamasına gerek kalmadan iki kişi arasında gerçekçi konuşma videoları oluşturma yeteneğidir. Sistem, konuşma aktıkça bu rolleri otomatik olarak belirliyor.

Sistem iki ana adımda çalışıyor. ByteDance’in “Hareket Tabanlı Kafa Taklidi” adını verdiği ilk adımda yapay zeka, insanların iletişim kurma biçimlerinin tüm küçük ayrıntılarını (yüz ifadeleri ve konuşmalar sırasında başlarını hareket ettirme biçimleri gibi) algılamayı öğreniyor. Bu hareketleri videolardan alıyor ve daha sonra kullanabileceği verilere dönüştürüyor. Bu hareket verileri daha sonra hareketsiz bir fotoğrafı orijinal kişinin hareketleriyle eşleşecek şekilde canlandırabilir.

İkinci aşama olan “ses rehberli hareket üretimi ”nde sistem, sesleri doğal görünümlü hareketlerle nasıl eşleştireceğini buluyor. Ekip, bir konuşmanın her iki tarafından gelen sesi analiz ederek hem konuşma hem de dinleme için kalıplar oluşturan ve “hareket yönlendirici” olarak adlandırdıkları bir sistem geliştirdi. Daha sonra, difüzyon transformatörü adı verilen özel bir yapay zeka bileşeni bu kalıpları alıyor ve yavaş yavaş sese uyan pürüzsüz, gerçekçi hareketlere dönüştürüyor.

İlk adımda, konuşma videolarından hareket kalıpları çıkarılır; ikinci adımda, bu hareketler ses girişi ile kontrol edilir. | Resim: Bytedance

Yapay zekaya gerçek konuşmaların nasıl işlediğini öğretmek

Sistemlerini düzgün bir şekilde eğitmek için ekibin yeni bir şey inşa etmesi gerekiyordu: DyConv adını verdikleri gerçek dünya konuşmalarından oluşan bir koleksiyon. İnternet üzerindeki videolardan 200 saatin üzerinde birbiriyle konuşan insan görüntüsü topladılar.

ViCo ve RealTalk gibi başka konuşma veritabanları olsa da, ekip DyConv’un özel bir şey sunduğunu söylüyor; daha geniş bir yelpazede insan duygularını ve ifadelerini yakalıyor ve video kalitesi önemli ölçüde daha iyi.

Siyah ve mavi ses dalga formları konuşma partnerlerinin konuşma kısımlarını temsil ederken, görüntü dizileri de karşılık gelen oluşturulmuş hareket modellerini göstermektedir. | Resim: Bytedance

ByteDance, sisteminin birkaç temel alanda mevcut araçlardan daha iyi performans gösterdiğini söylüyor. INFP özellikle dudak hareketlerini konuşmayla eşleştirmede, kişinin benzersiz yüz özelliklerini korumada ve çok çeşitli doğal görünümlü hareketler oluşturmada başarılı. Ekip ayrıca, sadece bir konuşmayı dinleyen birinin videolarını oluşturmak için de iyi çalıştığını keşfetti.

INFP için sırada ne var

Şu anda INFP yalnızca sesle çalışıyor, ancak ekip yeteneklerini genişletmek için birçok yol görüyor. Sistemin görüntü ve metinlerle nasıl çalışacağını araştırıyorlar, bu da her türlü yeni olasılığın önünü açacaktır. Bir sonraki hedefleri, insanların sadece kafalarının ve yüz ifadelerinin değil, tüm vücutlarının gerçekçi animasyonlarını oluşturmak.

Araştırmacılar bu tür bir teknolojinin sahte videolar oluşturmak ve yanlış bilgi yaymak için kötüye kullanılabileceğini biliyorlar. Bu nedenle temel teknolojiyi araştırma kurumlarıyla sınırlı tutmayı planlıyorlar – tıpkı Microsoft’un geçen yaz gelişmiş ses klonlama sistemiyle yaptığı gibi.

Bu çalışma, ByteDance’ın bu yılın başlarında duyurduğu daha büyük yapay zeka stratejisinin sadece bir parçası. Portföyünde TikTok ve CapCut gibi popüler uygulamalar bulunan şirket, bu yapay zeka yeniliklerini kullanmak için büyük bir platforma sahip.

Kaynak: The Decoder

Benzer konular:Featured

Bir sonraki

Google’ın günlük dinleme deneyi keşfet akışınızı yapay zeka podcast’lerine dönüştürüyor

Kaçırmayın

Muhasebe yeteneklerini çekmek için podcasting’i kullanma

Okumaya devam et

Yorum yapmak için tıklayın

Haberler

‘Markalar podcast’lerin kültürel hakimiyetinin farkında’

Markaların, podcast’lerin kültürel hakimiyetinin farkında olduğunu söyleyen küresel podcast yayıncısı Mel Robbins, yapay zeka, reklam bütçeleri ve dinleyici kitlesinin sahipliği konuları hakkında görüşlerini paylaştı.

Yayınlanma tarihi

3 hafta önce

10 Temmuz 2026

Podcast Turkey

Mel Robbins, dünyanın en çok dinlenen podcast yayıncılarından biri ve “Bırakın Yapsınlar” teorisinin yaratıcısıdır. Bu basit fikir, başkaları üzerindeki kontrolü bırakmayı içerir ve bu fikir, listelerde zirveye çıkan kendi adını taşıyan podcast’ine, New York Times’ın en çok satanlar listesinde bir numaraya yükselen kitabına ve sosyal medyada kendi başına bir yaşam kazanan bir ifadeye yol açmıştır.

Robbins, geçen ay ilk kez Cannes Lions Yaratıcılık Festivali’ne katıldı; bu, kurduğu imparatorluğun dışına attığı nadir adımlardan biriydi. “İşimi yürütmeye o kadar odaklanmış durumdayım ki, büyük etkinliklere katılmak için kendimi nadiren ondan ayırıyorum.”

Ancak reklam satış ortağı SiriusXM ile birlikte katılmaya davet edilmesiyle, 2026 festivali programına uyan ilk fırsat oldu.

Digiday, Robbins ile yapay zekanın medya ekosistemi üzerindeki etkisini, podcast yayıncılığının pazarlamacılar tarafından neden yanlış sınıflandırıldığını ve yeni trendlerin peşinden koşmadan nasıl zirvede kalmayı planladığını konuşmak üzere bir araya geldi.

İşte söyledikleri.

Robbins gibi bir isim için Cannes’ın önemi

Cannes’a katılmadan önce Robbins, bunun sadece büyük bir etkinlikten ibaret olduğunu düşünüyordu. Ve işini büyütmeye bu kadar odaklanmış biri için, Fransız Rivierası’nda gösterişli bir hafta gibi görünen bir şey için zaman ayırmanın değerini görmek, hatta bunu haklı çıkarmak zor olabilir.

“Şimdi anlıyorum ki, bu etkinlikte birçok pazarlama müdürü, marka müdürü ve medya müdürü bir araya geliyor, anlaşmalar burada yapılıyor. 2027 bütçeleri burada kesinleşiyor ve kampanyalar burada planlanıyor. Dolayısıyla burası gerçekten bağlantı kurabileceğiniz ve insanlarla tanışabileceğiniz bir yer.”

Değer, planlanmamış karşılaşmalarda gizlidir. Tıpkı Cannes UTA etkinliğinden sonra oteline döndüğü gece gibi.

Robbins, “Lobiye girdiğimde, daha önce Ulta Beauty’de CMO olarak görev yapmış ve iş ilişkilerim olan SharkNinja’nın marka ve deneyimden sorumlu başkanı Michelle [Crossan-Matos] ile karşılaştım. Sonra asansörde Adobe’nin CMO’suyla karşılaştım; üç yıl önce büyük bir etkinlik için kurumsal bir konuşma yapmam için beni işe almışlardı. Bu kadar üst düzey insanın arasında kendinizi nerede bulabilir, bu tür tesadüfi karşılaşmalar yaşayabilir ve aynı zamanda iş toplantıları düzenleyebilirsiniz ki?” dedi.

Podcast’i 194 ülkede haftalık 11 milyon dinleyiciye ulaşan ve “The Let Them Theory” adlı kitabı ilk yılında 10 milyon kopya satan Robbins’in bu kadar iddialı olması garip gelebilir.

Bu etkileşimlerde hâlâ gerçek bir değer bulurdu. Belirttiği gibi, podcast’i sıradan insanların hayatlarında bir etki yaratmaya odaklanmış durumda. Ancak bunun da kendi zorlukları var. Podcast’te sürekli ünlü konuklar yok, son dakika haberleri veya popüler kültür konuları ele alınmıyor.

Robbins, “Biz, bu tür programların her zaman aldığı medya ve tanıtım desteğinden faydalanamıyoruz. Ben Los Angeles, New York veya büyük medya şehirlerinde yaşamıyorum. Podcast’imiz Boston’da üretiliyor. Kendinizi çok sayıda insanın ve olayın olduğu bir etkinliğin içine koyarsanız, ortaya çıkan basın ilgisi inanılmaz. Altın Küre Ödülleri’ndeki ve Time Yılın Kadınları ödül törenindeki görünümümün, podcast indirmelerine ve ertesi hafta kitap satışlarına doğrudan etkisini gördük” dedi.

Yapay zekanın olası sonuçlarını şimdiden nasıl değerlendirdiğini anlatıyor.

Robbins, yapay zekanın, yıllarca çalışmayı öğrendiği medya ortamının temelini yeniden şekillendirdiğinin farkında. Ve bu sürecin hızı dikkat gerektiriyor.

“Yapay zekadaki değişim hızını ve yapay zekanın şu anda basında nasıl yankı uyandırdığını anlamak herkes için çok önemli; yaşananlar büyüleyici” diyen Robbins, şunları söyledi:

“Nice’te uçaktan indim ve Today Show’dan arkadaşım Huda ile karşılaştım. Uzun uzun sohbet ettik. İkimizin karşılaşmasını gösteren bir Instagram gönderisi paylaştı ve ben de ona cevap verdim. Parade dergisi bununla ilgili bir makale yazdı. Bu, bana göre, içinde bulunduğunuz ekosistemi düşünmeniz ve kendinize, suyun çalkalandığı büyük olayların neler olduğunu sormanız gerektiğinin bir göstergesi; çünkü eğer bunlara dahil olursanız, bunlardan kaynaklanan basın ilgisinden faydalanırsınız.”

Onun vurgulamak istediği nokta, bu döngünün bu kadar hızlı ilerlemesini sağlayan şeyin yapay zeka olduğuydı; günümüzde sıradan bir karşılaşma neredeyse anında basında yer alan bir olaya dönüşüyor. Bu nedenle, faaliyetlerin Croisette boyunca yoğunlaştığı Cannes’da görünmek artık çok daha büyük getiriler sağlıyor.

Pazarlama yöneticilerinin gözünde podcast’lerin algısı nasıl değişti?

Robbins, podcast’lerin medya bütçelerindeki yerini ve bu konumun son zamanlarda nasıl değiştiğini oldukça açık bir şekilde ortaya koyuyor. Yıllarca bu formatın sesli içeriğin bir uzantısı gibi ele alındığını ve sektörün ancak şimdi sunduğu gerçek potansiyeli anlamaya başladığını savunuyor.

Robbins, “Dünyanın en büyük şovlarından birine sahibim ve küresel çapta yarattığımız etki çok iyi biliniyor ve çok saygı görüyor. Özellikle markaların bu formatın kültürel hakimiyetini ve etkisini fark etmesinden dolayı heyecanlıyım” dedi.

Yıllarca, paranın yanlış kasada olduğunu savundu.

Robbins, “Pazarlama müdürlerinin, marka yöneticilerinin ve medya yöneticilerinin %90’ına podcast harcamaları için ayırdıkları bütçeyi sorsanız, bizi radyo ve sesli içerikle aynı kategoriye koyarlardı. Gerçek şu ki, YouTube podcast’lerinde video içeriğiyle de yer aldık. Akıllıca davranırsanız, öncelikle ses formatında yayın yapabilirsiniz, ancak kendinizi etkili bir şekilde pazarlamak için videoya da ihtiyacınız var” dedi.

Ancak değişen şey, podcast’in bir kategori olarak kendisiyle ilgili değil, daha çok neyle daha çok örtüştüğüyle ilgili.

Robbins, “İnsanların zihninde bir açma kapama düğmesi gibi bir şey oldu; Netflix, Spotify, Apple’ın video içerik sunması, hatta Hulu’nun bile dahil olmasıyla birlikte, birçok oyuncu video içeriklerine yöneldi. İnsanlar artık birçok farklı yayın hizmetini televizyon olarak düşünüyor, ses olarak değil; işte bu değişti. Podcast’ler her zaman son derece baskın olmuştur. Bence dünya artık bu mecranın ve markaların sunduğu fırsatların farkına varıyor” dedi.

Sahip olduğu tek şey izleyicileriyken, kontrolü elinde tutmak…

Platformlardan geniş bir erişim elde etse de, Robbins’in platformlardan sadece alan kiraladığının farkında olduğu bir gerçek.

Robbins, “Aslında sahip olduğunuz tek şey bülten listeniz, kontrol edebildiğiniz tek şey bu. Bir içerik üreticisi olarak işinizi düşündüğünüzde, yaptığım her şeyin sahibi benim. Dolayısıyla platformlarla ilgili bir sorun yaşanırsa, çok fazla ilgi çekici teknoloji var, farklı teknolojiler kullanarak kendiniz yeniden başlatabilirsiniz” dedi.

Bu sahiplik, altyapının kendisiyle ilgili olmaktan ziyade, onun benzersiz satış noktasını (nedenini) net bir şekilde ortaya koymakla ilgili.

“Ne yaptığınız, neden yaptığınız, kimin ve ne için yaptığınız konusunda net olursanız, platformlar gelip geçecek, teknoloji gelişmeye devam edecek ve bu içsel rehberlik sistemini, bir sonraki adımda ne yapacağınıza dair kararlar almanıza yardımcı olmak için kullanabilirsiniz.”

Ticari modelini de şekillendiren bu felsefe olmuştur.

Robbins, “Bir numaralı hedefim: Yaptığım şeyin ücretsiz olmasını istiyorum, bu yüzden reklamları ve markaları destekleyen içerikleri seviyorum. Bu, küresel ölçekte tek bir kişiye hizmet eden bir şey yaratmama ve bunu dünya çapındaki insanlara ücretsiz olarak sunmama olanak tanıyor. Bu, kazanan bir formül” dedi.

Parçalanmış bir dikkat ortamında alçakgönüllü kalmak

Robbins, kariyerinin zirvesindeyken bile, kendi performans ölçütlerinden bilinçli olarak uzak durarak rehavete kapılmaktan kaçınıyor.

Robbins, “Her hafta yönetici yapımcımız Tracy’ye dönüp ‘İşler hâlâ iyi gidiyor mu?’ diye sorduğumda, ‘Evet, işler hâlâ iyi gidiyor’ diyor ve gerçekten şaşırıyorum” dedi.

Bu şaşkınlık, podcast yayıncılığı alanının ne kadar rekabetçi olduğunu bilmekten kaynaklanıyor.

Robbins, “Ne kadar çok çalıştığımı biliyorum, ama aynı zamanda ne kadar çok harika gösteri olduğunu da biliyorum. İnsanların şu anda ne kadar bunalmış hissettiklerini biliyorum. Birinin dikkatini çekmenin ve kazanmanın ne kadar zor olduğunu biliyorum ve bunu hafife almıyorum. Aslında 2025’te bizi başarılı kılan şeyin 2026’da aynı sonuçları yaratmayacağına inanıyorum” dedi.

Bu aynı zamanda ona sık sık sorulan “Bundan sonra ne olacak?” sorusuna direnmesinin de nedeni.

“Ben ‘Bırakın Onlar’ teorisi gibi olağanüstü bir şey yaratmışken, neden ikinci bir şey yaratıp insanların dikkatini dağıtayım ki?”

Bu nedenle Robbins, kendisinin ve ekibinin nerede olduklarını ve dikkati daha da dağıtmadan nasıl daha da ileriye gidebileceklerini değerlendirmek istiyor.

“Önümüzdeki altı ay ila bir yıl içinde şirketimizdeki her bir pozisyonu incelemeyi hedefliyorum” diyen Robbins, şunları söyledi:

“Operasyonlarımızın, üretim döngümüzün her bir parçasını inceleyip kendimize şu soruyu sormak istiyorum: Bunu nasıl kolaylaştırabiliriz? İnsanlara nasıl daha fazla zaman kazandırabiliriz? Market kuyruğunda önümde duran o tek kişiye hizmet etmek için nasıl daha fazla insan yaratıcılığı ve zekâsı katabiliriz? Bunu başarabilirsek, bu inanılmaz bir şey olur.”

Kaynak: Mel Robbins / Digiday

Okumaya devam et

Haberler

Spotify, podcast dinleme deneyimini yeniden tanımlıyor

Spotify, podcast “dinleme” kavramına yeni bir tanım getirerek, zamana dayalı bir ölçüt belirledi. Spotify, podcast “dinleme” kavramına yeni bir tanım getirerek, zamana dayalı bir ölçüt belirledi.

Yayınlanma tarihi

2 ay önce

13 Haziran 2026

Podcast Turkey

Spotify, podcast “dinleme” kavramına yeni bir tanım getirerek, zamana dayalı bir ölçüt belirledi. Bu değişiklik, Spotify’ın bakış açısına göre toplam dinleme sayılarını düşürürken, potansiyel reklamverenlere tüketim konusunda daha doğru raporlar sunacak.

Bundan böyle, Spotify’ın podcast dinleme tanımı en az 30 saniye olacak. Bu standart, hem sesli hem de görüntülü içeriklerin dinlenmeleri için geçerli olacak.

Buradaki amaç, podcast oynatmanın yanlışlıkla başlatılması veya kullanıcının hızlıca ileri sarması gibi kazaları önleyerek netlik sağlamak. Amaç, podcast yayıncıları ve ağlar için temel bir başarı ölçütü oluşturmak.

Şimdi podcast yayıncıları için zorluk, dinleyicilerin ilgisini canlı tutmak ve her tıklamanın atfedilebilir bir oynatma haline gelmesi için bölüm başlangıçlarını optimize etmek olacak. Bu, zaten podcast yayıncılarının oynatma metriklerini ifşa ettiği için şikayetlerine maruz kalan Spotify için zorlu bir halkla ilişkiler durumu.

Okumaya devam et

Haberler

4 Temmuz, Bağımsız Podcast Yayıncıları Günü ilan edildi

4 Temmuz, Bağımsız Podcast Yayıncıları Günü olarak ilan edildi. Bu günde bağımsız podcast yayıncılığının en iyi örneklerini ve neden sektörümüzün temeli olmaya devam ettiğini gösteren vaka çalışmaları ve içerik oluşturucu hikayeleri sergilenecek. Orbit ve Mercury tarafından organize edilen etkinliğe, web sitesi üzerinden destek verebilirsiniz.

Yayınlanma tarihi

2 ay önce

6 Haziran 2026

Podcast Turkey

Mercury ve Orbit, 4 Temmuz’u bağımsız podcast yaratıcıları için yeni bir yıllık kutlama günü haline getiriyor.

İki şirket, büyük yayın ağlarının dışında dinleyici kitlesi oluşturan podcast’leri ve kişileri tanımak amacıyla düzenlenen küresel bir etkinlik olan Bağımsız Podcast Yayıncıları Günü’nü bu tarih olarak ilan etti.

IndependentPodcastersDay.com adlı yeni bir web sitesi, bağımsız podcast yayıncılarının sektördeki rolünü vurgulayan içerik oluşturucu öyküleri ve örnek olay incelemelerine yer verecek.

Mercury ve Orbit 4 Temmuz’u, Bağımsız Podcast Yayıncıları Günü olarak ilan etti ve tüm bağımsız podcast yayıncılarını bu günü desteklemeye çağırdı.

Yapılan açıklamada şunlar kaydedildi:

4 Temmuz, Mercury ve Orbit’ten, sizin gücünüzle, kendi tarzlarında podcast yapanların ve podcast’lerin küresel bir kutlamasıdır.

IndependentPodcastersDay.com, bağımsız podcast yayıncılığının sunduğu en iyi örnekleri ve sektörümüzün temeli olmaya devam etmesinin nedenlerini sergileyen vaka çalışmaları ve içerik üretici öykülerine yer verecek.

Bugünden itibaren Mercury, herkesi (içerik oluşturucuları, ajansları, yöneticileri ve takipçi ağlarını) web sitesi aracılığıyla Bağımsız Podcast Yayıncıları Günü’ne bağlılıklarını bildirmeye davet ediyor. Bu, bağımsız içeriği sevdiğinizi ve desteklediğinizi ilan etme şansınız. Katılımcı listesi yakında yayınlanacak.

Mercury ve Orbit CEO’su Liam Heffernan, “Bağımsız Podcast Yayıncıları Günü, Mercury ve Orbit’in temsil ettiği her şeyi yansıtıyor. Bağımsız içerik üreticilerini desteklemek, temsil etmek ve güçlendirmek için varız, bu yüzden #IndiePodDay’i başlatmamız mantıklı. Bağımsız yayıncıları yeterince kutlayamıyoruz, bu yüzden takvimde başka bir gün istemeyenlere ‘hatırlamayalım!’ diyoruz! Ve tüm çalışkan, çığır açan içerik üreticilerine, arkanızdayız!” dedi.

Bağımsız Podcast Yayıncıları Günü, her yıl bir önceki yıla dayanarak gelişen, organik ve kullanıcı tarafından oluşturulan yıllık bir etkinlik olarak tasarlanmıştır; bu etkinlikte küresel içerik üretici ekosistemini bir kutlama ve takdir günü için harekete geçiriyoruz. Bu, rekabet etmek veya karşılaştırmakla ilgili değil, bağımsız podcast yayıncılığının benzersiz zorluklarını tanımlayan iyi, kötü ve kaotik durumları paylaşmakla ilgilidir.

Öyleyse hep birlikte bir araya gelelim, çünkü 4 Temmuz artık sonsuza dek Bağımsızlar Günü olarak bilinecek!

Kaynak: PodNews

Okumaya devam et