OpenAI, gerçekçi, duygusal konuşmalar üretebilen yeni nesil bir “Ses Motoru” tanıttı
OpenAI, daha güvenilir konuşmadan metne dönüştürme ve arka plan gürültüsü ve aksanlar gibi zorlu ses koşullarının daha iyi işlenmesini sağlayan gpt-4o-transcribe ve gpt-4o-mini-transcribe adlı geliştirilmiş ses modellerini yayınladı.
OpenAI, API’sine, şirketin önceki sürümlerini geliştirdiğini iddia ettiği yeni transkripsiyon ve ses üreten yapay zeka modelleri getiriyor.
OpenAI için bu modeller, kullanıcılar adına görevleri bağımsız olarak yerine getirebilen otomatik sistemler oluşturmak anlamına gelen daha geniş “ajan” vizyonuna uyuyor. “Temsilci” tanımı tartışmalı olabilir, ancak OpenAI Ürün Başkanı Olivier Godement bir yorumu, bir işletmenin müşterileriyle konuşabilen bir sohbet robotu olarak tanımladı.
Godement, “Önümüzdeki aylarda giderek daha fazla temsilcinin ortaya çıktığını göreceğiz. Genel tema, müşterilerin ve geliştiricilerin faydalı, kullanılabilir ve doğru aracılardan yararlanmasına yardımcı olmak” dedi.
OpenAI, yeni metinden konuşmaya modeli “gpt-4o-mini-tts ‘nin sadece daha nüanslı ve gerçekçi bir konuşma sunmakla kalmayıp aynı zamanda önceki nesil konuşma sentezleme modellerine göre daha ’yönlendirilebilir” olduğunu iddia ediyor. Geliştiriciler gpt-4o-mini-tts’e doğal dilde bir şeyleri nasıl söyleyeceği konusunda talimat verebiliyor; örneğin, “çılgın bir bilim adamı gibi konuş” veya “bir farkındalık öğretmeni gibi sakin bir ses kullan”.
İşte “gerçek suç tarzı”, yıpranmış bir ses:
OpenAI ürün ekibinin bir üyesi olan Jeff Harris, TechCrunch’a verdiği demeçte, amacın geliştiricilerin hem ses “deneyimini” hem de “bağlamı” uyarlamasına izin vermek olduğunu söyledi.
Harris, “Farklı bağlamlarda, sadece düz, monoton bir ses istemezsiniz. Bir müşteri destek deneyimindeyseniz ve sesin bir hata yaptığı için özür dilemesini istiyorsanız, aslında sesin içinde bu duyguyu barındırmasını sağlayabilirsiniz… Buradaki en büyük inancımız, geliştiricilerin ve kullanıcıların yalnızca ne konuşulduğunu değil, nasıl konuşulduğunu da gerçekten kontrol etmek istedikleridir” dedi.
OpenAI’nin yeni konuşmadan metne modelleri olan “gpt-4o-transcribe” ve “gpt-4o-mini-transcribe” ise şirketin uzun süredir kullandığı Whisper transkripsiyon modelinin yerini alıyor. OpenAI, “çeşitli, yüksek kaliteli ses veri kümeleri” üzerinde eğitilen yeni modellerin kaotik ortamlarda bile aksanlı ve çeşitli konuşmaları daha iyi yakalayabildiğini iddia ediyor.
Harris ayrıca halüsinasyon görme olasılıklarının da daha düşük olduğunu sözlerine ekledi. Whisper, ırkçı yorumlardan hayali tıbbi tedavilere kadar her şeyi transkriptlere ekleyerek, konuşmalarda kelimeleri ve hatta tüm pasajları uydurma eğilimindeydi.
Harris, “Bu modeller bu konuda Whisper’a kıyasla çok daha gelişmiş durumda. Modellerin doğru olduğundan emin olmak, güvenilir bir ses deneyimi elde etmek için tamamen önemlidir ve [bu bağlamda] doğru olması, modellerin kelimeleri tam olarak duydukları [ve] duymadıkları ayrıntıları doldurmadıkları anlamına gelir” diye konuştu.
Bununla birlikte, kat ettiğiniz mesafe yazıya dökülen dile bağlı olarak değişebilir.
OpenAI’nin dahili kıyaslamalarına göre, iki transkripsiyon modelinden daha doğru olan gpt-4o-transcribe, Tamil, Telugu, Malayalam ve Kannada gibi Indic ve Dravidian dilleri için %30’a yaklaşan (%120 üzerinden) bir “kelime hata oranına” sahip. Bu, modelden alınan her 10 kelimeden üçünün bu dillerde insan transkripsiyonundan farklı olacağı anlamına gelir.
OpenAI, geleneği bozarak yeni transkripsiyon modellerini açık bir şekilde kullanıma sunmayı planlamıyor. Şirket geçmişte Whisper’ın yeni sürümlerini MIT lisansı altında ticari kullanım için yayınlamıştı.
GPT-4o-transcribe ve gpt-4o-mini-transcribe’ın “Whisper’dan çok daha büyük” olduğunu ve bu nedenle açık bir sürüm için iyi adaylar olmadığını söyleyen Harris, “Whisper gibi dizüstü bilgisayarınızda yerel olarak çalıştırabileceğiniz türden bir model değiller. Bir şeyleri açık kaynak olarak yayınlıyorsak, bunu düşünceli bir şekilde yaptığımızdan ve bu özel ihtiyaç için gerçekten geliştirilmiş bir modele sahip olduğumuzdan emin olmak istiyoruz. Ve son kullanıcı cihazlarının açık kaynak modelleri için en ilginç durumlardan biri olduğunu düşünüyoruz” dedi.
Klaxon AI ile dakikalar içinde podcast reklamları oluşturun
Podcast reklamcıları ve içerik üreticileri için güçlü bir yeni araç ortaya çıktı. “Kendin Yap” (Self-servis) konseptiyle sesli reklam oluşturma hizmeti sunan Klaxon AI kullanıma sunuldu. Bu platform, podcast yayıncıları, ağlar ve sponsorların sadece birkaç dakika içinde yayına hazır reklamlar oluşturmasını sağlıyor.
Podcast reklamcıları ve içerik üreticileri için güçlü bir yeni araç ortaya çıktı. “Kendin Yap” (Self-servis) konseptiyle sesli reklam oluşturma hizmeti sunan Klaxon AI kullanıma sunuldu. Bu platform, podcast yayıncıları, ağlar ve sponsorların sadece birkaç dakika içinde yayına hazır reklamlar oluşturmasını sağlıyor.
Senaryolu diyaloglar ve son derece doğal AI seslendirmelerinden telifsiz arka plan müziğine kadar, Klaxon.ai profesyonel reklam üretimini hızlı, uygun maliyetli ve ölçeklenebilir hale getiriyor. Bu platform, dinamik reklamlar üreten sponsorlar veya mid-roll promosyonlar, fragmanlar veya duyurular üreten podcast yayıncıları için ideal.
Klaxon AI’nın kurucu ortağı ve CEO’su Arup Biswas, “Klaxon’u podcast profesyonellerine hız, kontrol ve yaratıcı özgürlük sağlamak için geliştirdik. İster bağımsız bir içerik üreticisi ister programatik reklamlar yayınlayan bir marka olun, artık anında yüksek kaliteli sesli reklamlar oluşturabilirsiniz” dedi.
Klaxon AI şunlar için çözüm sunuyor:
Dinamik reklam ekleme: Yeni yaratıcı içerikler, hızlı geri dönüş
Programatik kampanyalar: Birden fazla reklam varyantının hızlı oluşturulması
Yaratıcılar: Promosyon okumaları, program fragmanları, kayıt masrafı olmadan duyurular
Podcast reklamverenleri için geliştirilmiş özellikler:
Script Builder: Yerleşik AI araçlarını kullanarak reklam metninizi kolayca yazın veya oluşturun.
AI Ses Seçimi: Farklı tonlar, aksanlar ve dillerde geniş bir yelpazede doğal sesli AI sesleri arasından seçim yapın.
Arka Plan Müziği: Markanızın tonuna veya kampanya stilinize uygun telifsiz müzikler ekleyin.
Anında Önizleme ve Dışa Aktarma: Reklamınızı dinleyin ve yayınlanmaya hazır ses dosyalarını saniyeler içinde dışa aktarın.
Sezgisel bir arayüz ve sıfır öğrenme eğrisi ile Klaxon AI, kayıt stüdyosu, seslendirme sanatçısı veya ses mühendisi gerektirmeden herkese yüksek kaliteli ses üretimi sunuyor.
Bu lansman, sesin bir rönesans yaşadığı bir dönemde gerçekleşiyor. Yalnızca podcast reklamcılığının 2025 yılına kadar küresel olarak 3 milyar sterlini aşması öngörülüyor. Klaxon AI, bu güçlü mecraya erişimi demokratikleştirerek rekabet koşullarını eşitlemeyi vaat ediyor.
Daha fazla bilgi için www.klaxon.ai adresini ziyaret edin.
Yeni Podcast Bilgi Kütüphanesi küresel podcasting topluluğunu bir araya getiriyor
Dünyanın dört bir yanındaki hevesli ve deneyimli podcast yayıncıları artık parmaklarının ucunda güçlü bir yeni kaynağa sahip. Podcast Bilgi Kütüphanesi, her seviyedeki podcast yaratıcıları için kapsamlı bir çevrimiçi araç olarak kullanıma sunuldu.
Dünyanın dört bir yanındaki hevesli ve deneyimli podcast yayıncıları artık parmaklarının ucunda güçlü bir yeni kaynağa sahip. Podcast Bilgi Kütüphanesi, her seviyedeki podcast yaratıcıları için kapsamlı bir çevrimiçi araç olarak kullanıma sunuldu.
Alman medya geliştirme kuruluşu DW Akademie, İsveçli MethodKit ve dünya çapındaki podcast uzmanları arasındaki işbirliği ile geliştirilen bu ücretsiz kaynak, popüler MethodKit for Podcasts’i temel alıyor. Bu orijinal araç (Türkçe’nin de yer aldığı 40’tan fazla dilde mevcut olan bir kart destesi sunuyor) podcast geliştirme, üretim ve dağıtım için bir yol haritası görevi görüyor.
Şimdi, Bilgi Kütüphanesi bu temeli daha da ileriye taşıyor. Girişler ve ilham kaynakları, düzenleme ve ses tasarımı, platformlar ve tanıtım gibi podcasting’in her yönüyle ilgili uzman tavsiyeleri, gerçek dünya deneyimleri ve kaynakları bir araya getiriyor.
Bu kapsamlı kaynağın arkasında benzersiz bir işbirliğine dayalı geliştirme süreci yatıyor. Bilgi Kütüphanesi, PodcasTraining atölye çalışmaları ve dünya çapındaki etkinliklerdeki etkileşimlerden doğmuş ve yüzlerce podcast yayıncısının sorularından, zorluklarından ve fikirlerinden yararlanmıştır. Bu gerçek dünya içgörüler, kütüphanenin hem içeriğini hem de formatını şekillendirmeye yardımcı oldu ve podcast yayınlarına yeni başlayan veya bunları büyüten kişilerin ihtiyaçlarına doğrudan yanıt oluşturmasını sağladı.
Bu topluluk odaklı yaklaşım, projenin temel felsefesini yansıtıyor. PodcasTraining programının başkanı Barbara Gruber şöyle açıkladı:
“Bu ortamla birlikte büyüyüp gelişebilecek bir şey istiyorduk. Podcast dünyası hızla değişiyor ve bu araç da bunu yansıtıyor. Herkesi bu kaynağı keşfetmeye, ondan öğrenmeye ve ona katkıda bulunmaya davet ediyoruz.”
Ortaya çıkan kütüphane, podcast yaratıcıları için kapsamlı bir araç seti sunuyor. Her bölümde aşağıdakiler yer alıyor:
Dünya çapındaki podcast profesyonellerinden alınan ipuçları, araçlar ve içgörüler
Podcast yayıncılarının sıkça sorduğu sorular ve yaptığı yaygın hatalar
Daha fazla okuma, dinleme ve izleme için öneriler
Eğitmenler ve öğrencilerden gelen tavsiyeler dahil olmak üzere, küresel podcast topluluğundan sesler
Kütüphaneyi güncel ve alakalı tutmak için geri bildirim ve katkıları teşvik eden bir tasarım
Bilgi Kütüphanesi’nin ötesinde, PodcasTraining girişimi küresel podcast topluluğu için ek kaynaklar sunuyor.
PodcasTraining, DW Akademie tarafından desteklenen, atölye çalışmaları, topluluk oluşturma ve Podcast’ler için MethodKit gibi işbirliğine dayalı araçlar aracılığıyla podcast ekosistemlerini güçlendirmeyi amaçlayan küresel bir girişim. PodcasTraining ekibi, Bilgi Kütüphanesine ek olarak, dünyanın dört bir yanındaki uzmanlardan pratik ipuçları ve tavsiyeler içeren PodCircle adlı aylık bir bülten hazırlıyor. PodCircle ayrıca, insanların öne çıkan podcast yayıncılarıyla sohbetlere katılabileceği ve topluluktaki diğer kişilerle bağlantı kurabileceği aylık çevrimiçi Buluşmalara da ev sahipliği yapıyor. dw.com/podcast-training adresinden daha fazla bilgi edinebilir ve bültene kaydolabilirsiniz.
DW Akademie Hakkında
DW Akademie, özgür ve bağımsız medyayı güçlendirmek için 60’tan fazla ülkedeki ortaklarıyla birlikte çalışan, Almanya’nın önde gelen uluslararası medya geliştirme kuruluşudur.
Danimarka, insanların kendi özelliklerini telif hakkıyla korumayı planlıyor
Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. Bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.
Danimarka hükümeti, vatandaşlarına kendi bedenleri, yüz özellikleri ve sesleri üzerinde hak sahibi olmalarını sağlamak için telif hakkı yasasını değiştirmeye hazırlanıyor. The Guardian’ın haberine göre, bu dönüm noktası niteliğindeki yasa, deepfake’lerin oluşturulması ve yayılmasına karşı korumayı güçlendirmek için tasarlandı.
Danimarka Kültür Bakanlığı, mevcut yasayı değiştirmek için bir öneri sunması gerekse de, kurum şimdiden tüm partilerin desteğini almayı başardı.
Danimarka Kültür Bakanı Jakob Engel-Schmidt, The Guardian gazetesine verdiği demeçte, “Tasarıda, herkesin kendi bedeni, kendi sesi ve kendi yüz özellikleri üzerinde hak sahibi olduğu konusunda hemfikiriz ve bu konuda net bir mesaj veriyoruz. Ancak mevcut yasa, insanları yapay zeka ile üretilen içeriklere karşı bu şekilde korumuyor” dedi.
ABD’de, birkaç eyalet, seçimler sırasında kötüye kullanım ve rıza dışı cinsel içerikle ilgili derin sahtecilik yasalarını kabul etti. Kongre, eyaletlerin yapay zekayı 10 yıl boyunca düzenleme yetkisini elinden alacak yeni bir bütçe uzlaşma tasarısını değerlendirirken, bu yasaların çoğu şu anda risk altında.