Bizimle iletişime geçin

Haberler

OpenAI bir yıl önce duyurduğu ses klonlama aracı ‘Voice Engine’i hala yayınlamadı

OpenAI, geçen yıl Mart ayında sadece 15 saniyelik bir konuşma ile bir kişinin sesini klonlayabileceğini iddia ettiği Voice Engine adlı yapay zeka hizmetinin “küçük ölçekli bir önizlemesini” duyurdu. Yaklaşık bir yıl sonra, araç önizleme aşamasında kalmaya devam ediyor ve OpenAI ne zaman piyasaya sürülebileceğine ya da hiç piyasaya sürülüp sürülmeyeceğine dair hiçbir belirti vermedi.

Yayınlanma tarihi

on

OpenAI, geçen yıl Mart ayında sadece 15 saniyelik bir konuşma ile bir kişinin sesini klonlayabileceğini iddia ettiği Voice Engine adlı yapay zeka hizmetinin “küçük ölçekli bir önizlemesini” duyurdu. Yaklaşık bir yıl sonra, araç önizleme aşamasında kalmaya devam ediyor ve OpenAI ne zaman piyasaya sürülebileceğine ya da hiç piyasaya sürülüp sürülmeyeceğine dair hiçbir belirti vermedi.

Şirketin hizmeti yaygınlaştırma konusundaki isteksizliği, kötüye kullanım korkusuna işaret ediyor olabilir, ancak aynı zamanda düzenleyici incelemeyi davet etmekten kaçınma çabasını da yansıtabilir. OpenAI geçmişte güvenlik pahasına “parlak ürünlere” öncelik vermekle ve rakip firmaları pazara sürmek için acele etmekle suçlanmıştı.

Bir OpenAI sözcüsü yaptığı açıklamada, şirketin Voice Engine’i sınırlı sayıda “güvenilir ortak” ile test etmeye devam ettiğini söyledi.

Sözcü, “[Ortaklarımızın] teknolojiyi nasıl kullandıklarını öğreniyoruz, böylece modelin kullanışlılığını ve güvenliğini geliştirebiliriz” dedi. “Konuşma terapisinden dil öğrenimine, müşteri desteğine, video oyunu karakterlerine ve yapay zeka avatarlarına kadar farklı kullanım şekillerini görmek bizi heyecanlandırdı.”

Geri itildi

OpenAI’nin metinden konuşmaya API’sinde ve ChatGPT’nin Ses Modunda bulunan seslere güç veren Voice Engine, orijinal konuşmacıya çok benzeyen doğal sesli konuşma üretir. Araç, yazılı karakterleri konuşmaya dönüştürüyor ve yalnızca içerikle ilgili belirli korkuluklarla sınırlı. Ancak en başından beri gecikmelere ve değişen sürüm pencerelerine maruz kaldı.

OpenAI’nin Haziran 2024 tarihli bir blog yazısında açıkladığı gibi, Ses Motoru modeli, farklı sesleri, aksanları ve konuşma tarzlarını dikkate alarak, bir konuşmacının belirli bir metin transkripti için çıkaracağı en olası sesleri tahmin etmeyi öğreniyor. Bundan sonra, model yalnızca metnin sözlü versiyonlarını değil, aynı zamanda farklı konuşmacı türlerinin metni yüksek sesle nasıl okuyacağını yansıtan “sözlü ifadeler” de üretebilir.

TechCrunch tarafından görülen taslak bir blog yazısına göre OpenAI başlangıçta Özel Sesler olarak adlandırılan Ses Motorunu 7 Mart 2024’te API’sine getirmeyi amaçlıyordu. Plan, “sosyal fayda” sağlayan veya teknolojinin “yenilikçi ve sorumlu” kullanımlarını gösteren uygulamalar geliştiren geliştiricilere öncelik verilerek, daha geniş bir çıkıştan önce 100’e kadar “güvenilir geliştirici” grubuna erişim sağlamaktı. OpenAI bu teknolojiyi markalaştırmış ve fiyatlandırmıştı bile: “standart” sesler için milyon karakter başına 15 dolar ve “HD kalitesinde” sesler için milyon karakter başına 30 dolar.

Ardından, on birinci saatte şirket duyuruyu erteledi. OpenAI, Voice Engine’i birkaç hafta sonra herhangi bir kayıt seçeneği olmadan tanıttı. OpenAI, araca erişimin şirketin 2023’ün sonlarında birlikte çalışmaya başladığı yaklaşık 10 geliştiriciden oluşan bir kohortla sınırlı kalacağını söyledi.

OpenAI, Voice Engine’in Mart 2024 sonundaki duyuru blog yazısında “Sentetik seslerin sorumlu bir şekilde konuşlandırılması ve toplumun bu yeni yeteneklere nasıl uyum sağlayabileceği konusunda bir diyalog başlatmayı umuyoruz” diye yazdı. “Bu konuşmalara ve küçük ölçekli testlerin sonuçlarına dayanarak, bu teknolojinin geniş ölçekte kullanılıp kullanılmayacağı ve nasıl kullanılacağı konusunda daha bilinçli bir karar vereceğiz.”

Uzun süredir üzerinde çalışılıyor

OpenAI’ye göre Voice Engine 2022’den beri üzerinde çalışılan bir araç. Şirket, aracın potansiyelini ve risklerini göstermek için 2023 yazında “en üst düzeydeki küresel politika yapıcılara” demo yaptığını iddia ediyor.

Bugün aralarında engelli insanların daha doğal iletişim kurmasını sağlayan cihazlar geliştiren Livox’un da bulunduğu çok sayıda iş ortağı Voice Engine’e erişebiliyor. Livox’un CEO’su Carlos Pereira TechCrunch’a verdiği demeçte, aracın çevrimiçi olması gerekliliği nedeniyle (Livox’un müşterilerinin çoğunun interneti yok) Voice Engine’i bir ürün haline getiremediklerini, ancak teknolojiyi “gerçekten etkileyici” bulduğunu söyledi.

Pereira TechCrunch’a e-posta yoluyla yaptığı açıklamada, “Sesin kalitesi ve seslerin farklı dillerde konuşması imkanı benzersiz – özellikle de müşterilerimiz olan engelli insanlar için” dedi. “Gerçekten de gördüğüm en etkileyici ve kullanımı kolay ses oluşturma [aracı] […] OpenAI’nin yakında çevrimdışı bir sürüm geliştirmesini umuyoruz.”

Pereira, OpenAI’den olası bir Voice Engine lansmanı konusunda rehberlik almadığını ve şirketin hizmet için ücret almaya başlamayı planladığına dair herhangi bir işaret görmediğini söylüyor. Livox şimdiye kadar kullanımı için ödeme yapmak zorunda kalmadı.

Yukarıda bahsedilen Haziran 2024 tarihli gönderide OpenAI, Voice Engine’i geciktirirken göz önünde bulundurduğu hususlardan birinin geçen yılki ABD seçim döngüsü sırasında kötüye kullanım potansiyeli olduğunu ima etti. Paydaşlarla yapılan görüşmeler sonucunda Voice Engine, üretilen sesin kaynağını izlemek için filigran da dahil olmak üzere çeşitli hafifletici güvenlik önlemlerine sahiptir.

OpenAI’ye göre, geliştiriciler Voice Engine’i kullanmadan önce orijinal konuşmacıdan “açık onay” almalı ve izleyicilerine seslerin yapay zeka tarafından üretildiğine dair “açık açıklamalar” yapmalıdır. Ancak şirket bu politikaları nasıl uygulayacağını açıklamadı. OpenAI’nin kaynaklarına sahip bir şirket için bile bunu geniş ölçekte yapmak son derece zor olabilir.

OpenAI blog yazılarında ayrıca hoparlörleri doğrulamak için bir “ses kimlik doğrulama deneyimi” ve tanınmış kişilere çok benzeyen seslerin oluşturulmasını engelleyen bir “gidilmeyecekler” listesi oluşturmayı umduğunu ima etti. Her ikisi de teknolojik açıdan iddialı projeler ve bunları yanlış yapmak, sık sık güvenlik girişimlerini bir kenara bırakmakla suçlanan bir şirkete kötü yansıyacaktır.

Etkili filtreleme ve kimlik doğrulama, sorumlu ses klonlama teknolojisi sürümleri için hızla temel gereksinimler haline geliyor. Bir kaynağa göre yapay zeka ses klonlama, 2024’ün en hızlı büyüyen üçüncü dolandırıcılığı oldu. Gizlilik ve telif hakkı yasaları ayak uydurmakta zorlanırken, dolandırıcılık ve banka güvenlik kontrollerinin atlanmasına yol açtı. Kötü niyetli aktörler, ünlülerin ve politikacıların kışkırtıcı deepfake’lerini yaratmak için ses klonlamayı kullandı ve bu deepfake’ler sosyal medyada orman yangını gibi yayıldı.

OpenAI Voice Engine’i önümüzdeki hafta yayınlayabilir ya da hiç yayınlamayabilir. Şirket defalarca bu hizmetin kapsamını küçük tutmayı düşündüğünü söyledi. Ancak net olan bir şey var: Optik nedenlerden, güvenlik nedenlerinden ya da her ikisinden dolayı, Voice Engine’in sınırlı önizlemesi OpenAI’nin tarihindeki en uzun önizlemelerden biri haline geldi.

Kaynak: TechCrunch

Okumaya devam et
Yorum yapmak için tıklayın

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Araştırma

PodGPT: Yapay zeka modeli, bilim podcast’lerinden öğrenerek soruları daha iyi yanıtlayabiliyor

Üretken yapay zekanın (AI), özellikle de büyük dil modellerinin (LLM’ler) yükselişi, veri analizi, yorumlama ve içerik üretiminde dönüştürücü bir değişime işaret ediyor. Kapsamlı metinsel veri kümeleri üzerinde eğitilen bu modeller, OpenAI’nin GPT-4’ü gibi modellerin dikkate değer bir yetenek gösterdiği bilim ve tıp gibi alanlar için derin etkileri olan, bağlamsal olarak doğru ve dilsel olarak zengin çıktılar üretme yeteneğini gösterdi.

Yayınlanma tarihi

=>

Üretken yapay zekanın (AI), özellikle de büyük dil modellerinin (LLM’ler) yükselişi, veri analizi, yorumlama ve içerik üretiminde dönüştürücü bir değişime işaret ediyor. Kapsamlı metinsel veri kümeleri üzerinde eğitilen bu modeller, OpenAI’nin GPT-4’ü gibi modellerin dikkate değer bir yetenek gösterdiği bilim ve tıp gibi alanlar için derin etkileri olan, bağlamsal olarak doğru ve dilsel olarak zengin çıktılar üretme yeteneğini gösterdi.

Ancak, bilim, teknoloji, mühendislik, matematik ve tıp (STEMM) alanlarında LLM’lerin tam potansiyeli, özellikle ses içeriği gibi geleneksel olmayan veri türlerinin entegrasyonu konusunda hala yeterince araştırılmış durumda değil.

Boston Üniversitesi’nden araştırmacılar, bilim ve tıp podcast’lerinden öğrenerek bilimsel soruları daha akıllıca anlama ve yanıtlama becerisini geliştiren PodGPT adlı yeni bir bilgisayar programı geliştirdiklerini yeni bir çalışmada duyurdu. Bu çalışma npj Biomedical Innovations dergisinde yayınlandı.

Boston Üniversitesi Chobanian & Avedisian Tıp Fakültesi tıp ve bilgisayar bilimi doçenti ve makalenin baş yazarı Vijaya B. Kolachalama, “Konuşma içeriğini entegre ederek, modelimizin konuşma dilini daha iyi anlamasını ve uygulamasını STEMM disiplinleri içindeki daha özel bağlamlara genişletmeyi amaçlıyoruz” diye açıkladı.

Kolachalama, “Bu, sadece yazılı materyaller yerine uzman röportajları ve konuşmaları gibi gerçek konuşmaları kullandığı için özeldir ve insanların gerçek hayatta bilim hakkında nasıl konuştuğunu daha iyi anlamasına yardımcı oluyor” dedi.

Kolachalama ve meslektaşları, halka açık bilim ve tıp podcast’lerinden 3.700 saatten fazla kayıt topladı ve gelişmiş yazılımlar kullanarak konuşmaları metne dönüştürdü. Ardından, bu bilgilerden öğrenmesi için bir bilgisayar modeli eğitti.

Bunun ardından, modelin performansını görmek için biyoloji, matematik ve tıp gibi konularda farklı dillerde sorular da dahil olmak üzere çeşitli testler yaptılar. Sonuçlar, STEMM sesli podcast verilerinin dahil edilmesinin, modelin doğru ve kapsamlı bilgileri anlama ve üretme yeteneğini geliştirdiğini gösterdi.

Araştırmacılara göre, bu çalışma podcast gibi ses tabanlı içeriklerin yapay zeka araçlarını eğitmek için kullanılabileceğini gösteriyor. Kolachalama, Boston Üniversitesi Bilgisayar ve Veri Bilimleri Fakültesi’nin kurucu üyesi ve Boston Üniversitesi Hariri Bilgisayar Enstitüsü’nün bir üyesi.

Kolachalama, “Bu, dersler veya röportajlar gibi her türlü ses kaydını kullanarak daha akıllı ve insan benzeri teknolojiler geliştirmek için kapı açıyor. Ayrıca, bilimi birçok dilde daha erişilebilir hale getirerek, dünyanın dört bir yanındaki insanların öğrenmesine ve bilgilenmesine yardımcı olma konusunda da umut vaat ediyor” dedi.

Araştırmacılar, bu teknolojinin bilimsel ve tıbbi bilgilere erişimi kolaylaştıracağına inanmakla kalmıyor, aynı zamanda alanlarında uzman kişilerin konuşmalarını dinlemenin, insanların sağlık ve eğitim konusunda daha bilinçli kararlar almasına yardımcı olacağına da inanıyor.

Kolachalama, “Bu, Alzheimer hastalığı, kardiyovasküler hastalıklar, bulaşıcı hastalıklar, kanser ve ruh sağlığı gibi birçok sağlık durumunun anlaşılması ve teşhis edilmesinde yardımcı olabilir. Ayrıca halk sağlığı ve gezegen sağlığı gibi alanlarda öğrenmeyi de destekleyebilir” dedi.

Kaynak: Phys.org

Okumaya devam et

Haberler

Klaxon AI ile dakikalar içinde podcast reklamları oluşturun

Podcast reklamcıları ve içerik üreticileri için güçlü bir yeni araç ortaya çıktı. “Kendin Yap” (Self-servis) konseptiyle sesli reklam oluşturma hizmeti sunan Klaxon AI kullanıma sunuldu. Bu platform, podcast yayıncıları, ağlar ve sponsorların sadece birkaç dakika içinde yayına hazır reklamlar oluşturmasını sağlıyor.

Yayınlanma tarihi

=>

Podcast reklamcıları ve içerik üreticileri için güçlü bir yeni araç ortaya çıktı. “Kendin Yap” (Self-servis) konseptiyle sesli reklam oluşturma hizmeti sunan Klaxon AI kullanıma sunuldu. Bu platform, podcast yayıncıları, ağlar ve sponsorların sadece birkaç dakika içinde yayına hazır reklamlar oluşturmasını sağlıyor.

Senaryolu diyaloglar ve son derece doğal AI seslendirmelerinden telifsiz arka plan müziğine kadar, Klaxon.ai profesyonel reklam üretimini hızlı, uygun maliyetli ve ölçeklenebilir hale getiriyor. Bu platform, dinamik reklamlar üreten sponsorlar veya mid-roll promosyonlar, fragmanlar veya duyurular üreten podcast yayıncıları için ideal.

Klaxon AI’nın kurucu ortağı ve CEO’su Arup Biswas, “Klaxon’u podcast profesyonellerine hız, kontrol ve yaratıcı özgürlük sağlamak için geliştirdik. İster bağımsız bir içerik üreticisi ister programatik reklamlar yayınlayan bir marka olun, artık anında yüksek kaliteli sesli reklamlar oluşturabilirsiniz” dedi.

Klaxon AI şunlar için çözüm sunuyor:

  • Dinamik reklam ekleme: Yeni yaratıcı içerikler, hızlı geri dönüş
  • Programatik kampanyalar: Birden fazla reklam varyantının hızlı oluşturulması
  • Yaratıcılar: Promosyon okumaları, program fragmanları, kayıt masrafı olmadan duyurular

Podcast reklamverenleri için geliştirilmiş özellikler:

  • Script Builder: Yerleşik AI araçlarını kullanarak reklam metninizi kolayca yazın veya oluşturun.
  • AI Ses Seçimi: Farklı tonlar, aksanlar ve dillerde geniş bir yelpazede doğal sesli AI sesleri arasından seçim yapın.
  • Arka Plan Müziği: Markanızın tonuna veya kampanya stilinize uygun telifsiz müzikler ekleyin.
  • Anında Önizleme ve Dışa Aktarma: Reklamınızı dinleyin ve yayınlanmaya hazır ses dosyalarını saniyeler içinde dışa aktarın.

Sezgisel bir arayüz ve sıfır öğrenme eğrisi ile Klaxon AI, kayıt stüdyosu, seslendirme sanatçısı veya ses mühendisi gerektirmeden herkese yüksek kaliteli ses üretimi sunuyor.

Bu lansman, sesin bir rönesans yaşadığı bir dönemde gerçekleşiyor. Yalnızca podcast reklamcılığının 2025 yılına kadar küresel olarak 3 milyar sterlini aşması öngörülüyor. Klaxon AI, bu güçlü mecraya erişimi demokratikleştirerek rekabet koşullarını eşitlemeyi vaat ediyor.

Daha fazla bilgi için www.klaxon.ai adresini ziyaret edin.

Kaynak: PodNews

Okumaya devam et

Haberler

Yeni Podcast Bilgi Kütüphanesi küresel podcasting topluluğunu bir araya getiriyor

Dünyanın dört bir yanındaki hevesli ve deneyimli podcast yayıncıları artık parmaklarının ucunda güçlü bir yeni kaynağa sahip. Podcast Bilgi Kütüphanesi, her seviyedeki podcast yaratıcıları için kapsamlı bir çevrimiçi araç olarak kullanıma sunuldu.

Yayınlanma tarihi

=>

Dünyanın dört bir yanındaki hevesli ve deneyimli podcast yayıncıları artık parmaklarının ucunda güçlü bir yeni kaynağa sahip. Podcast Bilgi Kütüphanesi, her seviyedeki podcast yaratıcıları için kapsamlı bir çevrimiçi araç olarak kullanıma sunuldu.

Alman medya geliştirme kuruluşu DW Akademie, İsveçli MethodKit ve dünya çapındaki podcast uzmanları arasındaki işbirliği ile geliştirilen bu ücretsiz kaynak, popüler MethodKit for Podcasts’i temel alıyor. Bu orijinal araç (Türkçe’nin de yer aldığı 40’tan fazla dilde mevcut olan bir kart destesi sunuyor) podcast geliştirme, üretim ve dağıtım için bir yol haritası görevi görüyor.

Şimdi, Bilgi Kütüphanesi bu temeli daha da ileriye taşıyor. Girişler ve ilham kaynakları, düzenleme ve ses tasarımı, platformlar ve tanıtım gibi podcasting’in her yönüyle ilgili uzman tavsiyeleri, gerçek dünya deneyimleri ve kaynakları bir araya getiriyor.

Bu kapsamlı kaynağın arkasında benzersiz bir işbirliğine dayalı geliştirme süreci yatıyor. Bilgi Kütüphanesi, PodcasTraining atölye çalışmaları ve dünya çapındaki etkinliklerdeki etkileşimlerden doğmuş ve yüzlerce podcast yayıncısının sorularından, zorluklarından ve fikirlerinden yararlanmıştır. Bu gerçek dünya içgörüler, kütüphanenin hem içeriğini hem de formatını şekillendirmeye yardımcı oldu ve podcast yayınlarına yeni başlayan veya bunları büyüten kişilerin ihtiyaçlarına doğrudan yanıt oluşturmasını sağladı.

Bu topluluk odaklı yaklaşım, projenin temel felsefesini yansıtıyor. PodcasTraining programının başkanı Barbara Gruber şöyle açıkladı:

“Bu ortamla birlikte büyüyüp gelişebilecek bir şey istiyorduk. Podcast dünyası hızla değişiyor ve bu araç da bunu yansıtıyor. Herkesi bu kaynağı keşfetmeye, ondan öğrenmeye ve ona katkıda bulunmaya davet ediyoruz.”

Ortaya çıkan kütüphane, podcast yaratıcıları için kapsamlı bir araç seti sunuyor. Her bölümde aşağıdakiler yer alıyor:

  • Dünya çapındaki podcast profesyonellerinden alınan ipuçları, araçlar ve içgörüler
  • Podcast yayıncılarının sıkça sorduğu sorular ve yaptığı yaygın hatalar
  • Daha fazla okuma, dinleme ve izleme için öneriler
  • Eğitmenler ve öğrencilerden gelen tavsiyeler dahil olmak üzere, küresel podcast topluluğundan sesler
  • Kütüphaneyi güncel ve alakalı tutmak için geri bildirim ve katkıları teşvik eden bir tasarım

Bilgi Kütüphanesi’nin ötesinde, PodcasTraining girişimi küresel podcast topluluğu için ek kaynaklar sunuyor.

Podcast Bilgi Kütüphanesini web sitesinde inceleyebilirsiniz.

PodcasTraining Hakkında

PodcasTraining, DW Akademie tarafından desteklenen, atölye çalışmaları, topluluk oluşturma ve Podcast’ler için MethodKit gibi işbirliğine dayalı araçlar aracılığıyla podcast ekosistemlerini güçlendirmeyi amaçlayan küresel bir girişim. PodcasTraining ekibi, Bilgi Kütüphanesine ek olarak, dünyanın dört bir yanındaki uzmanlardan pratik ipuçları ve tavsiyeler içeren PodCircle adlı aylık bir bülten hazırlıyor. PodCircle ayrıca, insanların öne çıkan podcast yayıncılarıyla sohbetlere katılabileceği ve topluluktaki diğer kişilerle bağlantı kurabileceği aylık çevrimiçi Buluşmalara da ev sahipliği yapıyor. dw.com/podcast-training adresinden daha fazla bilgi edinebilir ve bültene kaydolabilirsiniz.

DW Akademie Hakkında

DW Akademie, özgür ve bağımsız medyayı güçlendirmek için 60’tan fazla ülkedeki ortaklarıyla birlikte çalışan, Almanya’nın önde gelen uluslararası medya geliştirme kuruluşudur.

Kaynak: PodNews

Okumaya devam et

En son