Haberler

ByteDance’in yeni yapay zeka modeli, hareketsiz görüntüleri sesle canlandırıyor

TikTok’un ana şirketi Bytedance’daki araştırmacılar, “dinleyici” ve “konuşmacı” rollerini manuel olarak atamak zorunda kalmadan iki kişi arasındaki konuşmalar için gerçekçi diyalog videoları oluşturabilen INFP adlı bir yapay zeka çerçevesi geliştirdiler.

Yayınlanma tarihi

6 ay önce

6 Ocak 2025

Yazar :

Podcast Turkey

TikTok’un ana şirketi ByteDance, statik portre fotoğraflarının konuşuyor gibi görünmesini ve ses girdisine tepki vermesini sağlayabilen INFP adlı bir yapay zeka sistemi geliştirdi.

INFP’yi (“İnteraktif, Doğal, Flash ve Kişi jenerik” anlamına geliyor) diğerlerinden ayıran şey, kimsenin konuşma ve dinleme rollerini manuel olarak atamasına gerek kalmadan iki kişi arasında gerçekçi konuşma videoları oluşturma yeteneğidir. Sistem, konuşma aktıkça bu rolleri otomatik olarak belirliyor.

Sistem iki ana adımda çalışıyor. ByteDance’in “Hareket Tabanlı Kafa Taklidi” adını verdiği ilk adımda yapay zeka, insanların iletişim kurma biçimlerinin tüm küçük ayrıntılarını (yüz ifadeleri ve konuşmalar sırasında başlarını hareket ettirme biçimleri gibi) algılamayı öğreniyor. Bu hareketleri videolardan alıyor ve daha sonra kullanabileceği verilere dönüştürüyor. Bu hareket verileri daha sonra hareketsiz bir fotoğrafı orijinal kişinin hareketleriyle eşleşecek şekilde canlandırabilir.

İkinci aşama olan “ses rehberli hareket üretimi ”nde sistem, sesleri doğal görünümlü hareketlerle nasıl eşleştireceğini buluyor. Ekip, bir konuşmanın her iki tarafından gelen sesi analiz ederek hem konuşma hem de dinleme için kalıplar oluşturan ve “hareket yönlendirici” olarak adlandırdıkları bir sistem geliştirdi. Daha sonra, difüzyon transformatörü adı verilen özel bir yapay zeka bileşeni bu kalıpları alıyor ve yavaş yavaş sese uyan pürüzsüz, gerçekçi hareketlere dönüştürüyor.

İlk adımda, konuşma videolarından hareket kalıpları çıkarılır; ikinci adımda, bu hareketler ses girişi ile kontrol edilir. | Resim: Bytedance

Yapay zekaya gerçek konuşmaların nasıl işlediğini öğretmek

Sistemlerini düzgün bir şekilde eğitmek için ekibin yeni bir şey inşa etmesi gerekiyordu: DyConv adını verdikleri gerçek dünya konuşmalarından oluşan bir koleksiyon. İnternet üzerindeki videolardan 200 saatin üzerinde birbiriyle konuşan insan görüntüsü topladılar.

ViCo ve RealTalk gibi başka konuşma veritabanları olsa da, ekip DyConv’un özel bir şey sunduğunu söylüyor; daha geniş bir yelpazede insan duygularını ve ifadelerini yakalıyor ve video kalitesi önemli ölçüde daha iyi.

Siyah ve mavi ses dalga formları konuşma partnerlerinin konuşma kısımlarını temsil ederken, görüntü dizileri de karşılık gelen oluşturulmuş hareket modellerini göstermektedir. | Resim: Bytedance

ByteDance, sisteminin birkaç temel alanda mevcut araçlardan daha iyi performans gösterdiğini söylüyor. INFP özellikle dudak hareketlerini konuşmayla eşleştirmede, kişinin benzersiz yüz özelliklerini korumada ve çok çeşitli doğal görünümlü hareketler oluşturmada başarılı. Ekip ayrıca, sadece bir konuşmayı dinleyen birinin videolarını oluşturmak için de iyi çalıştığını keşfetti.

INFP için sırada ne var

Şu anda INFP yalnızca sesle çalışıyor, ancak ekip yeteneklerini genişletmek için birçok yol görüyor. Sistemin görüntü ve metinlerle nasıl çalışacağını araştırıyorlar, bu da her türlü yeni olasılığın önünü açacaktır. Bir sonraki hedefleri, insanların sadece kafalarının ve yüz ifadelerinin değil, tüm vücutlarının gerçekçi animasyonlarını oluşturmak.

Araştırmacılar bu tür bir teknolojinin sahte videolar oluşturmak ve yanlış bilgi yaymak için kötüye kullanılabileceğini biliyorlar. Bu nedenle temel teknolojiyi araştırma kurumlarıyla sınırlı tutmayı planlıyorlar – tıpkı Microsoft’un geçen yaz gelişmiş ses klonlama sistemiyle yaptığı gibi.

Bu çalışma, ByteDance’ın bu yılın başlarında duyurduğu daha büyük yapay zeka stratejisinin sadece bir parçası. Portföyünde TikTok ve CapCut gibi popüler uygulamalar bulunan şirket, bu yapay zeka yeniliklerini kullanmak için büyük bir platforma sahip.

Kaynak: The Decoder

Benzer konular:Featured

Bir sonraki

Google’ın günlük dinleme deneyi keşfet akışınızı yapay zeka podcast’lerine dönüştürüyor

Kaçırmayın

Muhasebe yeteneklerini çekmek için podcasting’i kullanma

Okumaya devam et

Yorum yapmak için tıklayın

Haberler

SEO çöküşü: Podcast yayıncılarının şu anda yapması gerekenler

Podcast yayıncıları için arama motoru optimizasyonu (yani Google’da en üstte görünme) konusunda işler değişiyor. Steve Goldstein, Cevap Motoru Optimizasyonu (AEO – Answer Engine Optimization) ve Google’da en üstte görünmeye devam etmenin yolları hakkında yazdı.

Yayınlanma tarihi

3 gün önce

10 Temmuz 2025

Podcast Turkey

Arama sadece gelişmiyor. Tamamen ortadan kaldırılıyor. Trafiğiniz yeniden yönlendiriliyor ve bu şu anda gerçekleşiyor.

Podcast yayıncısıysanız, keşfedilebilirliğiniz tehlike altında.

Bu kozmetik bir değişiklik değil. Bu, Google’ın büyük sıfırlaması.

Google’a bir sorgu yazıp 10 mavi bağlantıdan oluşan temiz bir liste aldığınız tanıdık deneyimi biliyorsunuz, değil mi? Bu, hızla ortadan kalkıyor.

Bunun yerine, kullanıcıları içeriğinize yönlendirmeden soruları yanıtlayan AI tarafından oluşturulan yanıtlar, yüzen özetler, sesli sonuçlar ve sıfır tıklama arayüzleri alıyoruz. Artık garantili bağlantılar yok. Artık ücretsiz tıklamalar yok. Artık otomatik keşif yok.

Podcast bölüm sayfalarınız eskisi kadar ilgi görmüyor veya blog yayınlarınız eskisi kadar trafik çekmiyorsa, bu sadece sizinle ilgili bir sorun değil. Bu düşüş, geleneksel SEO’nun temellerini sarsan yapısal bir değişimden kaynaklanıyor. Keşfedilmeye çalışan podcast yayıncıları için bu değişim her şeyi değiştiriyor.

Gerçekte Neler Oluyor?

Arama, bildiğimiz haliyle değişiyor. Google’da üst sıralarda yer almak, anahtar kelime sonuçlarında görünmek ve web sitenize tıklamaları yönlendirmek gibi geleneksel yöntemler, yapay zeka tarafından oluşturulan özetler ve ses tabanlı cevaplarla yerini değiştiriyor. Birçoğunda orijinal kaynağa küçük bağlantılar var ya da hiç bağlantı yok.

Buna Cevap Motoru Optimizasyonu (AEO – Answer Engine Optimization) deniyor ve içeriğin ortaya çıkışını ve tüketimini değiştiriyor.

İşte çarpıcı bir istatistik: SimilarWeb’e göre, ABD’deki Google aramalarının %69’u artık tıklama yapılmadan sona eriyor. Bu, bir yılda 13 puanlık bir artış anlamına geliyor.

Teknoloji analisti Shelly Palmer, kısa süre önce SEO’dan AEO’ya geçiş hakkında bir yazı kaleme aldı. Arama motorları konusunda en akıllı seslerden biri olan Neil Patel de bu konuda uyarıda bulunuyor. Buradan çıkarılacak en önemli sonuç, artık arama motorları için optimizasyon yapmadığımızdır. Cevap motorları için optimizasyon yapıyoruz.

AEO Podcast Yayıncıları İçin Ne Anlama Geliyor?

Çoğu insan, bir web sitesine girip oynat düğmesine basarak podcast’leri keşfetmez. Yeni programları arkadaşları, sosyal medya, algoritmalar ve giderek artan bir şekilde, bağlantılar sunmak yerine soruları yanıtlayan yapay zeka araçları aracılığıyla bulurlar.

Bu, programınızın görünürlüğünün akıllı SEO hilelerinden çok, içeriğinizin ne kadar yanıtlanabilir olduğuna bağlı olduğu anlamına gelir.

Program notlarınız sonradan eklenmişse veya daha da kötüsü, transkriptleri atlıyorsanız, sadece erişilebilirlik fırsatlarını kaçırmakla kalmıyorsunuz. Bir sonraki keşif dalgasından da mahrum kalıyorsunuz.

İyi haber şu: AI, netlik, yapı ve niyeti tercih eder. Ve podcast yayıncıları, çoğu kişiden daha fazla, harika bir hikaye anlatmayı bilir.

Şimdi önemli olan, AI’nın bu hikayeyi anlayıp yükseltebilmesi için onu biçimlendirmektir.

İçeriğiniz yapılandırılmış, özetlenmiş ve AI tarafından okunabilirse, rakiplerinizin önündesiniz demektir. Değilse, uyum sağlama zamanı gelmiştir.

Transkriptiniz Artık En Değerli Varlığınız

Transkriptler, podcast’inizin yeni giriş kapısıdır.

İçeriğinizin AI destekli aramalarda görünmesini istiyorsanız, transkriptinizin aşağıdaki özelliklere sahip olması gerekir:

Mevcut olması (evet, birçok podcast hala bunu atlıyor)
Net ve kolay taranabilir olması
AI’nın anlayabileceği şekilde biçimlendirilmiş olması

AI araçları (henüz) bölümünüzü dinleyip anlamını tam olarak kavrayamaz. Ancak transkripti okuyabilirler. Konuşmacıların açıkça belirtildiği, mantıklı bölümlere ayrılmış ve önemli noktaların vurgulandığı bir transkript:

AI tarafından indekslenebilir
Alıntı yapmaya değer
Yeni yollarla keşfedilebilir

Akıllı Pod Yayıncılarının Hemen Yapması Gereken 5 Şey

İşte cevap motorları çağında nasıl görünür kalacağınız.

Programınızı Amacınıza Uygun Şekilde Yapılandırın
Bölüm planlama ve uygulamada, güçlü bir soru veya cesur bir görüşle başlayın. Önemli noktayı gizlemeyin. AI araçları, alıntılanması kolay, net ve cevaplanabilir içeriğe öncelik verir.
Net Bir Transkript Yayınlayın
Okunması kolay hale getirin. Konuşmacı etiketleri kullanın ve okunabilir parçalara ayırın. Transkriptinizi bir blog yazısı gibi ele alın.
Madde İşaretli Özetler ve SSS’ler Ekleyin
TL;DR (too long; didn’t read – çok uzun; okumadım) bölümü veya önemli noktalar bölümü ekleyin. Bu, AI’nın bölümünüzün değerini anında kavramasına yardımcı olur. Bonus: insanlar da bunları sever.
Bölümleri Kullanın ve Videonuzu Segmentlere Ayırın
Video podcast’ler yayınlıyorsanız, YouTube ikinci ön kapınızdır. Net başlıklara sahip bölümler ekleyin ve önemli anları TikTok, Reels veya YouTube Shorts için yeniden düzenleyin.
RSS, Meta Verileri ve Başlıklarınızı Optimize Edin
AI ve arama motorları yapılandırılmış, net meta verilere güvenir. Etiketler artık eskisi kadar önemli değil, ancak bölüm başlıkları ve açıklamaları her zamankinden daha fazla önem taşıyor. Bunları açıklayıcı ve spesifik hale getirin. Genel başlıklardan kaçının. Bunlar ezilip geçilecektir.

Artık en üst sıralarda yer almak için mücadele etmiyorsunuz. Cevap olmak için mücadele ediyorsunuz.

SEO’nun çöküşü sadece başka bir teknoloji döngüsü değildir. Dijital keşfedilebilirliğin kurallarının yeniden yazılmasıdır.

Hedef kitle dinliyor ve izliyor. Makineler okuyor. Her ikisinin de sizi nerede bulacağını bildiğinden emin olalım.

Kaynak: Steven Goldstein / Amplifi Media

Okumaya devam et

Haberler

Saspod, içerik üreticileri ve kayıt stüdyoları için küresel bir ortaklık programı başlattı

İngiltere merkezli önde gelen podcast üretim ve barındırma hizmeti Saspod, dünya çapındaki içerik oluşturucular, serbest çalışanlar ve kayıt stüdyolarının izleyici yönlendirmeleri yoluyla sürekli gelir elde etmelerini amaçlayan yeni ortaklık programını duyurdu.

Yayınlanma tarihi

3 gün önce

10 Temmuz 2025

Podcast Turkey

İngiltere merkezli önde gelen podcast üretim ve barındırma hizmeti Saspod, dünya çapındaki içerik oluşturucular, serbest çalışanlar ve kayıt stüdyolarının izleyici yönlendirmeleri yoluyla sürekli gelir elde etmelerini amaçlayan yeni ortaklık programını duyurdu.

Birçok içerik oluşturucu ve kayıt stüdyosunun, podcasting’i keşfetmek isteyen ancak genellikle nereden başlayacaklarını bilmeyen müşterileri ve izleyicileri var. Saspod’un Ortaklık Programı, basit ve kazançlı bir yol sunuyor:

Tekrarlayan Komisyon Yapısı: Yönlendirilen müşteri tarafından verilen her sipariş için %15 tekrarlayan komisyon
Yüksek Ortalama Yönlendirme Değeri: Her müşteriyi sadece bir kez kaydettirin, ardından programın ömrü boyunca aylık kazanç elde edin
Özel Ortaklık Panosu: Yönlendirmelerinizin ne kadar harcadığını ve ne kadar kazandığınızı tam olarak görün
Özel Yönlendirme Bağlantısı: Özel pano ve izleme bağlantısı, yönlendirme ve kazançlarda şeffaflık sağlar

Saspod CEO’su Bogdan Bratis (https://saspod.com/founder-bogdan-bratis), “Programımız, gelirlerini çeşitlendirmek isteyen içerik üreticiler, serbest çalışanlar ve kayıt stüdyoları için kazançlı bir fırsat yaratıyor. Bu çok basit: izleyicilerinizin ve müşterilerinizin zaten istediği hizmetleri önererek ek gelir elde edebilirsiniz” dedi.

Programa katılım ücretsiz ve şu anda açık. Başvurmak için, ortaklık sayfasına (http://saspod.com/affiliates-program) gidebilir veya daha fazla bilgi için affiliates@saspod.com adresine e-posta gönderebilirsiniz.

Kaynak: PodNews

Okumaya devam et

Araştırma

PodGPT: Yapay zeka modeli, bilim podcast’lerinden öğrenerek soruları daha iyi yanıtlayabiliyor

Üretken yapay zekanın (AI), özellikle de büyük dil modellerinin (LLM’ler) yükselişi, veri analizi, yorumlama ve içerik üretiminde dönüştürücü bir değişime işaret ediyor. Kapsamlı metinsel veri kümeleri üzerinde eğitilen bu modeller, OpenAI’nin GPT-4’ü gibi modellerin dikkate değer bir yetenek gösterdiği bilim ve tıp gibi alanlar için derin etkileri olan, bağlamsal olarak doğru ve dilsel olarak zengin çıktılar üretme yeteneğini gösterdi.

Yayınlanma tarihi

5 gün önce

8 Temmuz 2025

Podcast Turkey

Ancak, bilim, teknoloji, mühendislik, matematik ve tıp (STEMM) alanlarında LLM’lerin tam potansiyeli, özellikle ses içeriği gibi geleneksel olmayan veri türlerinin entegrasyonu konusunda hala yeterince araştırılmış durumda değil.

Boston Üniversitesi’nden araştırmacılar, bilim ve tıp podcast’lerinden öğrenerek bilimsel soruları daha akıllıca anlama ve yanıtlama becerisini geliştiren PodGPT adlı yeni bir bilgisayar programı geliştirdiklerini yeni bir çalışmada duyurdu. Bu çalışma npj Biomedical Innovations dergisinde yayınlandı.

Boston Üniversitesi Chobanian & Avedisian Tıp Fakültesi tıp ve bilgisayar bilimi doçenti ve makalenin baş yazarı Vijaya B. Kolachalama, “Konuşma içeriğini entegre ederek, modelimizin konuşma dilini daha iyi anlamasını ve uygulamasını STEMM disiplinleri içindeki daha özel bağlamlara genişletmeyi amaçlıyoruz” diye açıkladı.

Kolachalama, “Bu, sadece yazılı materyaller yerine uzman röportajları ve konuşmaları gibi gerçek konuşmaları kullandığı için özeldir ve insanların gerçek hayatta bilim hakkında nasıl konuştuğunu daha iyi anlamasına yardımcı oluyor” dedi.

Kolachalama ve meslektaşları, halka açık bilim ve tıp podcast’lerinden 3.700 saatten fazla kayıt topladı ve gelişmiş yazılımlar kullanarak konuşmaları metne dönüştürdü. Ardından, bu bilgilerden öğrenmesi için bir bilgisayar modeli eğitti.

Bunun ardından, modelin performansını görmek için biyoloji, matematik ve tıp gibi konularda farklı dillerde sorular da dahil olmak üzere çeşitli testler yaptılar. Sonuçlar, STEMM sesli podcast verilerinin dahil edilmesinin, modelin doğru ve kapsamlı bilgileri anlama ve üretme yeteneğini geliştirdiğini gösterdi.

Araştırmacılara göre, bu çalışma podcast gibi ses tabanlı içeriklerin yapay zeka araçlarını eğitmek için kullanılabileceğini gösteriyor. Kolachalama, Boston Üniversitesi Bilgisayar ve Veri Bilimleri Fakültesi’nin kurucu üyesi ve Boston Üniversitesi Hariri Bilgisayar Enstitüsü’nün bir üyesi.

Kolachalama, “Bu, dersler veya röportajlar gibi her türlü ses kaydını kullanarak daha akıllı ve insan benzeri teknolojiler geliştirmek için kapı açıyor. Ayrıca, bilimi birçok dilde daha erişilebilir hale getirerek, dünyanın dört bir yanındaki insanların öğrenmesine ve bilgilenmesine yardımcı olma konusunda da umut vaat ediyor” dedi.

Araştırmacılar, bu teknolojinin bilimsel ve tıbbi bilgilere erişimi kolaylaştıracağına inanmakla kalmıyor, aynı zamanda alanlarında uzman kişilerin konuşmalarını dinlemenin, insanların sağlık ve eğitim konusunda daha bilinçli kararlar almasına yardımcı olacağına da inanıyor.

Kolachalama, “Bu, Alzheimer hastalığı, kardiyovasküler hastalıklar, bulaşıcı hastalıklar, kanser ve ruh sağlığı gibi birçok sağlık durumunun anlaşılması ve teşhis edilmesinde yardımcı olabilir. Ayrıca halk sağlığı ve gezegen sağlığı gibi alanlarda öğrenmeyi de destekleyebilir” dedi.