Haberler
ByteDance’in yeni yapay zeka modeli, hareketsiz görüntüleri sesle canlandırıyor
TikTok’un ana şirketi Bytedance’daki araştırmacılar, “dinleyici” ve “konuşmacı” rollerini manuel olarak atamak zorunda kalmadan iki kişi arasındaki konuşmalar için gerçekçi diyalog videoları oluşturabilen INFP adlı bir yapay zeka çerçevesi geliştirdiler.
Yayınlanma tarihi
4 ay önceon
Yazar :
Podcast TurkeyTikTok’un ana şirketi ByteDance, statik portre fotoğraflarının konuşuyor gibi görünmesini ve ses girdisine tepki vermesini sağlayabilen INFP adlı bir yapay zeka sistemi geliştirdi.
INFP’yi (“İnteraktif, Doğal, Flash ve Kişi jenerik” anlamına geliyor) diğerlerinden ayıran şey, kimsenin konuşma ve dinleme rollerini manuel olarak atamasına gerek kalmadan iki kişi arasında gerçekçi konuşma videoları oluşturma yeteneğidir. Sistem, konuşma aktıkça bu rolleri otomatik olarak belirliyor.
Sistem iki ana adımda çalışıyor. ByteDance’in “Hareket Tabanlı Kafa Taklidi” adını verdiği ilk adımda yapay zeka, insanların iletişim kurma biçimlerinin tüm küçük ayrıntılarını (yüz ifadeleri ve konuşmalar sırasında başlarını hareket ettirme biçimleri gibi) algılamayı öğreniyor. Bu hareketleri videolardan alıyor ve daha sonra kullanabileceği verilere dönüştürüyor. Bu hareket verileri daha sonra hareketsiz bir fotoğrafı orijinal kişinin hareketleriyle eşleşecek şekilde canlandırabilir.
İkinci aşama olan “ses rehberli hareket üretimi ”nde sistem, sesleri doğal görünümlü hareketlerle nasıl eşleştireceğini buluyor. Ekip, bir konuşmanın her iki tarafından gelen sesi analiz ederek hem konuşma hem de dinleme için kalıplar oluşturan ve “hareket yönlendirici” olarak adlandırdıkları bir sistem geliştirdi. Daha sonra, difüzyon transformatörü adı verilen özel bir yapay zeka bileşeni bu kalıpları alıyor ve yavaş yavaş sese uyan pürüzsüz, gerçekçi hareketlere dönüştürüyor.
İlk adımda, konuşma videolarından hareket kalıpları çıkarılır; ikinci adımda, bu hareketler ses girişi ile kontrol edilir. | Resim: Bytedance
Yapay zekaya gerçek konuşmaların nasıl işlediğini öğretmek
Sistemlerini düzgün bir şekilde eğitmek için ekibin yeni bir şey inşa etmesi gerekiyordu: DyConv adını verdikleri gerçek dünya konuşmalarından oluşan bir koleksiyon. İnternet üzerindeki videolardan 200 saatin üzerinde birbiriyle konuşan insan görüntüsü topladılar.
ViCo ve RealTalk gibi başka konuşma veritabanları olsa da, ekip DyConv’un özel bir şey sunduğunu söylüyor; daha geniş bir yelpazede insan duygularını ve ifadelerini yakalıyor ve video kalitesi önemli ölçüde daha iyi.
Siyah ve mavi ses dalga formları konuşma partnerlerinin konuşma kısımlarını temsil ederken, görüntü dizileri de karşılık gelen oluşturulmuş hareket modellerini göstermektedir. | Resim: Bytedance
ByteDance, sisteminin birkaç temel alanda mevcut araçlardan daha iyi performans gösterdiğini söylüyor. INFP özellikle dudak hareketlerini konuşmayla eşleştirmede, kişinin benzersiz yüz özelliklerini korumada ve çok çeşitli doğal görünümlü hareketler oluşturmada başarılı. Ekip ayrıca, sadece bir konuşmayı dinleyen birinin videolarını oluşturmak için de iyi çalıştığını keşfetti.
INFP için sırada ne var
Şu anda INFP yalnızca sesle çalışıyor, ancak ekip yeteneklerini genişletmek için birçok yol görüyor. Sistemin görüntü ve metinlerle nasıl çalışacağını araştırıyorlar, bu da her türlü yeni olasılığın önünü açacaktır. Bir sonraki hedefleri, insanların sadece kafalarının ve yüz ifadelerinin değil, tüm vücutlarının gerçekçi animasyonlarını oluşturmak.
Araştırmacılar bu tür bir teknolojinin sahte videolar oluşturmak ve yanlış bilgi yaymak için kötüye kullanılabileceğini biliyorlar. Bu nedenle temel teknolojiyi araştırma kurumlarıyla sınırlı tutmayı planlıyorlar – tıpkı Microsoft’un geçen yaz gelişmiş ses klonlama sistemiyle yaptığı gibi.
Bu çalışma, ByteDance’ın bu yılın başlarında duyurduğu daha büyük yapay zeka stratejisinin sadece bir parçası. Portföyünde TikTok ve CapCut gibi popüler uygulamalar bulunan şirket, bu yapay zeka yeniliklerini kullanmak için büyük bir platforma sahip.
Kaynak: The Decoder
Beğenebilirsin
YouTube, yapay zeka tarafından konumlandırılmış “yoğun anlar” ile mikro reklam yerleştirmeye başlıyor
Yapay zeka: İçerik ve reklamcılıkta isteğe bağlı değil
Podcast’inizi kaydederken yaka mikrofonu kullanmalı mısınız?
YouTube podcast sektörünü öldürecek mi?
Amazon’un Audible’ı yapay zeka destekli sesli kitaplar üretecek
Eğitimde podcast’in kullanımına özel konferans
Haberler
YouTube, yapay zeka tarafından konumlandırılmış “yoğun anlar” ile mikro reklam yerleştirmeye başlıyor
Yapay zeka, YouTube’un reklamverenlere yönelik son adımında hiper-hassas reklam yerleşimi ile buluşuyor. YouTube, videolarda en yüksek etkileşime sahip olan ya da duygusal olarak etkili olan anlar olan “Zirve Noktaları” adı verilen bir şeyin yapay zeka değerlendirmesine dayanan yeni bir reklam yerleştirme şemasını duyurdu.
Yayınlanma tarihi
6 saat önce=>
17 Mayıs 2025Yapay zeka, YouTube’un reklamverenlere yönelik son adımında hiper-hassas reklam yerleşimi ile buluşuyor. YouTube, videolarda en yüksek etkileşime sahip olan ya da duygusal olarak etkili olan anlar olan “Zirve Noktaları” adı verilen bir şeyin yapay zeka değerlendirmesine dayanan yeni bir reklam yerleştirme şemasını duyurdu.
Tahmin edilebileceği gibi, yapay zeka bu anların belirlenmesinde rol oynuyor. Buradaki fikir, kullanıcının içeriğe en çok odaklandığı anda dikkatini çekmek. Buradaki değeri görüyoruz, ancak kesinti üzerine teorik bir Pissed Point ile nasıl dengeleneceğini merak ediyoruz. TechCrunch’ın teorize ettiği gibi: “Ancak izleyiciler bu kesintileri sinir bozucu bulabilir, özellikle de bir videonun duygusal akışına kendilerini kaptırdıklarında ve izlemeye devam etmek için reklamın bir an önce bitmesini istediklerinde.”
Google, Gemini yapay zekasında Peak Points’i şöyle açıklıyor:
“Zirve Noktaları”, YouTube’da Google’ın Gemini yapay zekasından yararlanarak videolarda izleyici etkileşiminin yüksek olduğu anları belirleyip reklam yerleşimi için hedefleyen yeni bir reklamcılık özelliğidir:
Nasıl çalışıyor?
- Gemini AI analizi: YouTube, videoları analiz etmek için Google’ın Gemini yapay zekasını kullanarak izleyici etkileşiminin en yüksek olduğu “en yoğun” anları belirler.
- Stratejik reklam yerleşimi: Reklamlar daha sonra bu en yoğun anların hemen ardından yerleştirilerek reklam görüntülenebilirliğini ve etkinliğini en üst düzeye çıkarmayı amaçlıyor.
- Duygusal ve Bağlamsal İpuçları: Gemini, en uygun reklam yerleşimini belirlemek için yüz ifadeleri, ses tonu ve videodaki bağlamsal öğeler gibi çeşitli ipuçlarını analiz eder.
Kaynak: RainNews
Araştırma
Yapay zeka: İçerik ve reklamcılıkta isteğe bağlı değil
Yapay zeka destekli ses stüdyosu Wondercraft, içerik oluşturucuların, pazarlamacıların, eğitimcilerin ve ekiplerin yapay zekayı nasıl kullandıklarını anlamayı amaçlayan bir rapor olan AI in Content Creation 2025’i yayınladı.
Yayınlanma tarihi
7 saat önce=>
17 Mayıs 2025Yapay zeka destekli ses stüdyosu Wondercraft, içerik oluşturucuların, pazarlamacıların, eğitimcilerin ve ekiplerin yapay zekayı nasıl kullandıklarını anlamayı amaçlayan bir rapor olan AI in Content Creation 2025’i yayınladı. Bilgiler VEED, Luma ve ElevanLabs’ın desteğiyle gerçekleştirilen 2025 anketine dayanıyor. Dünya Ekonomik Forumu, McKinsey, Gartner, Deloitte, LinkedIn ve Pew Araştırma Merkezi’nin araştırmaları da dahil olmak üzere bir dizi başka rapora da atıfta bulunuluyor.
İsteğe Bağlı Değil
Buradaki temel önerme, yapay zekanın içerik oluşturmada bir tercih değil, temel bir unsur haline geldiği. Anahtar bulgu: Katılımcıların %80’inden fazlası yaratıcı sürecin bazı yönlerinde yapay zeka kullanıyor. Zamandan tasarruf etmek, yapay zeka kullanımı için önde gelen motivasyon. ABD’de benimsenme oranı biraz daha yüksek olmakla birlikte bu eğilim küresel.
“Pek çok içerik üreticisi için yapay zeka yalnızca işlerini daha hızlı halletmelerini sağlayan bir araç değil. Fikirleri keşfetme, içerikleri farklı formatlara uyarlama ve daha kişiselleştirilmiş, ölçeklenebilir deneyimler oluşturma yöntemlerinin bir parçası. Bu da yapay zekanın yalnızca bir üretkenlik aracı olmaktan çıkıp yaratıcı bir yardımcı pilot haline geldiği görüşünü destekliyor.”
Bu raporda ses, YZ yaratıcılığının yalnızca yüzde dokuzunu oluştururken, video %52 ile başı çekiyor. Ancak sesten videoya projelerin yükselişi, yapay zekayı giderek daha fazla ses alanına taşıyor. YZ, çoklu medya türlerindeki yaratıcılıkta “bağlayıcı doku” olarak tanımlanıyor.
Reklamcılıkta Yapay Zeka
Wondercraft anketi, reklam yaratıcılarının ve ajans ekiplerinin içerik üretmek, test etmek ve hızlı bir şekilde uyarlamak için yapay zekaya güvendiğini ortaya koyuyor; katılımcıların %85’i bu bulguyu doğruladı. üç ana kullanım belgelenmiştir:
- Reklamlar için senaryolu seslendirmeler
- Yerelleştirilmiş sosyal medya içeriği
- Daha uzun web seminerleri ve röportajlardan elde edilen kısa biçimli videolar.
Bu ekipler, kampanya başına üç ila beş yapay zeka aracı kullanan “çok modlu” uzmanlar olarak tanımlanıyor.
Daha geniş bir bağlamda McKinsey, kuruluşların %78’inin en az bir iş fonksiyonunda yapay zeka kullandığını tespit etti.
Yapay Zeka Kullanım Dağılımı
Wondercraft, anket katılımcılarına göre yapay zekanın uygulandığı medya türlerinin bir dökümünü sunuyor. Aşağıda gösterildiği gibi, medya türleri arasında oldukça eşit bir dağılım var:
Kapsamlı rapora BURADAN ulaşabilirsiniz…
Kaynak: RainNews
Haberler
Podcast’inizi kaydederken yaka mikrofonu kullanmalı mısınız?
Podcast kayıtlarında yaka mikrofonu kullanmalı mı? Yaka mikrofonlarının artısı ve eksisi neler? Hangi durumlarda yaka mikrofonu kullanılabilir? Tüm bu soruların yanıtını Rachel Corbett yazıyor…
Yayınlanma tarihi
7 saat önce=>
17 Mayıs 2025Podcast için en iyi mikrofon hangisidir?
Yaka mikrofonu (lav mikrofonu olarak da bilinir) ile daha geleneksel bir podcast mikrofonu arasında kararsızsanız, bu, hangisinin size en iyi sesi vereceğine (ve bunun neden önemli olduğuna) karar vermenize yardımcı olacaktır.
Yaka mikrofonları ile podcast mikrofonları arasındaki fark nedir?
Yaka mikrofonları kıyafetlerinize takılır ve sesi uzaktan alabilmek ve kayıt sırasında daha fazla hareket edebilmenizi sağlamak için tasarlanmıştır.
Bu, video için harikadır ancak podcasting için ideal değildir.
Buna karşılık, podcast mikrofonları ağzınızın hemen önüne yerleştirilecek şekilde tasarlanmıştır, bu nedenle yalnızca sizin sesinizi alırlar, etrafınızdaki odanın sesini değil.
Bu, podcasting için harikadır ancak bazen video için ideal olmayabilir (eğer bir mikrofonun arkasında kalmak istemiyorsanız).
Yaka mikrofonları podcast’ler için neden pek uygun değil?
Bir video izlerken, odanın sesini duyup duymadığınızı fark etmezsiniz çünkü baktığınız şeyle (bir odadaki biriyle) eşleşir.
Ancak bir podcast’te görsel olmadığı için mikrofonunuzdan ne kadar uzakta olursanız dinleyicinizden de o kadar uzakta duyarsınız (ve bu iyi bir şey değildir).
Ayrıca, sesinizde çok fazla oda gürültüsü kaydettiyseniz, sesinizdeki doğal tonları ortadan kaldırmadan bunu ortadan kaldırmanız zor olabilir.
Kayıt yaparken amacınız o anda mümkün olan en iyi sesi yakalamak olmalıdır ve yaka mikrofonunun size en iyi kalitede ses vermesi pek olası değildir.
İyi bir podcast mikrofonunu ne oluşturur?
İyi bir podcast mikrofonu, doğrudan konuşabildiğiniz ve dinleyicilerinizin programınızı dinlerken onlara yakın duyulabildiğiniz bir mikrofondur.
Ayrıca mikrofonunuzu elinizde olmayacak bir stand üzerinde tutmanız en iyisidir (çünkü elleriniz kayda çok fazla gürültü katabilir).
Videoda kullandığım mikrofonu kullanamaz mıyım?
Yapabilirsiniz, ancak podcast dinleyiciniz için deneyim o kadar iyi olmayacaktır (işte eski video veya önce ses argümanı geliyor).
Yaka mikrofonu video için yeterli olsa bile, yalnızca ses dinleyen hayranlarınızın kötü bir dinleme deneyimi yaşamaması için içeriğinizin podcast versiyonunda yine de yüksek kaliteli sese öncelik vermelisiniz.
Podcastiniz için harika ses kaydı yaparsanız ve bunu video olarak da kullanırsanız, video izleyicileriniz yine harika bir deneyim yaşarlar, ancak bunun tersi o kadar iyi çalışmaz.
Yaka mikrofonlarının zor olmasının diğer nedenleri
Yaka mikrofonları kıyafetlerinize tutturulduğundan, gömleğiniz, saçınız veya mücevherleriniz gibi şeylere sürtünebilir.
Bu, daha sonra temizlenmesi zor olabilecek bir sürü rahatsız edici gürültüye neden olabilir.
İdeal olarak, mümkün olduğunca gürültüden uzak bir ses kaydı yapmak istersiniz.
Kaynak: Racher Corbett
YouTube, yapay zeka tarafından konumlandırılmış “yoğun anlar” ile mikro reklam yerleştirmeye başlıyor
Yapay zeka: İçerik ve reklamcılıkta isteğe bağlı değil
Podcast’inizi kaydederken yaka mikrofonu kullanmalı mısınız?
En son
- Haberler3 yıl önce
Podcast’ten para kazanmanın 12 yolu
- Haberler2 yıl önce
Spotify’dan ‘Şişedeki Çalma Listesi’
- Etkinlik2 yıl önce
‘Podcast Dinliyorum’ etkinliğinin ikincisi 25 Ekim’de
- Araştırma3 yıl önce
Mart ayına Anchor, Buzzsprout ve Spreaker damgası
- Araştırma9 ay önce
Popüler podcast yayıncıları sektördeki en büyük zorlukları yorumluyor
- Haberler3 yıl önce
Video podcast nedir?
- Haberler3 yıl önce
Podcast’leri nasıl daha hızlı dinleyebilirsiniz?
- Haberler3 yıl önce
Daniel Ek Spotify’ın büyük vizyonunu anlattı