Bizimle iletişime geçin

Haberler

OpenAI bir yıl önce duyurduğu ses klonlama aracı ‘Voice Engine’i hala yayınlamadı

OpenAI, geçen yıl Mart ayında sadece 15 saniyelik bir konuşma ile bir kişinin sesini klonlayabileceğini iddia ettiği Voice Engine adlı yapay zeka hizmetinin “küçük ölçekli bir önizlemesini” duyurdu. Yaklaşık bir yıl sonra, araç önizleme aşamasında kalmaya devam ediyor ve OpenAI ne zaman piyasaya sürülebileceğine ya da hiç piyasaya sürülüp sürülmeyeceğine dair hiçbir belirti vermedi.

Yayınlanma tarihi

on

OpenAI, geçen yıl Mart ayında sadece 15 saniyelik bir konuşma ile bir kişinin sesini klonlayabileceğini iddia ettiği Voice Engine adlı yapay zeka hizmetinin “küçük ölçekli bir önizlemesini” duyurdu. Yaklaşık bir yıl sonra, araç önizleme aşamasında kalmaya devam ediyor ve OpenAI ne zaman piyasaya sürülebileceğine ya da hiç piyasaya sürülüp sürülmeyeceğine dair hiçbir belirti vermedi.

Şirketin hizmeti yaygınlaştırma konusundaki isteksizliği, kötüye kullanım korkusuna işaret ediyor olabilir, ancak aynı zamanda düzenleyici incelemeyi davet etmekten kaçınma çabasını da yansıtabilir. OpenAI geçmişte güvenlik pahasına “parlak ürünlere” öncelik vermekle ve rakip firmaları pazara sürmek için acele etmekle suçlanmıştı.

Bir OpenAI sözcüsü yaptığı açıklamada, şirketin Voice Engine’i sınırlı sayıda “güvenilir ortak” ile test etmeye devam ettiğini söyledi.

Sözcü, “[Ortaklarımızın] teknolojiyi nasıl kullandıklarını öğreniyoruz, böylece modelin kullanışlılığını ve güvenliğini geliştirebiliriz” dedi. “Konuşma terapisinden dil öğrenimine, müşteri desteğine, video oyunu karakterlerine ve yapay zeka avatarlarına kadar farklı kullanım şekillerini görmek bizi heyecanlandırdı.”

Geri itildi

OpenAI’nin metinden konuşmaya API’sinde ve ChatGPT’nin Ses Modunda bulunan seslere güç veren Voice Engine, orijinal konuşmacıya çok benzeyen doğal sesli konuşma üretir. Araç, yazılı karakterleri konuşmaya dönüştürüyor ve yalnızca içerikle ilgili belirli korkuluklarla sınırlı. Ancak en başından beri gecikmelere ve değişen sürüm pencerelerine maruz kaldı.

OpenAI’nin Haziran 2024 tarihli bir blog yazısında açıkladığı gibi, Ses Motoru modeli, farklı sesleri, aksanları ve konuşma tarzlarını dikkate alarak, bir konuşmacının belirli bir metin transkripti için çıkaracağı en olası sesleri tahmin etmeyi öğreniyor. Bundan sonra, model yalnızca metnin sözlü versiyonlarını değil, aynı zamanda farklı konuşmacı türlerinin metni yüksek sesle nasıl okuyacağını yansıtan “sözlü ifadeler” de üretebilir.

TechCrunch tarafından görülen taslak bir blog yazısına göre OpenAI başlangıçta Özel Sesler olarak adlandırılan Ses Motorunu 7 Mart 2024’te API’sine getirmeyi amaçlıyordu. Plan, “sosyal fayda” sağlayan veya teknolojinin “yenilikçi ve sorumlu” kullanımlarını gösteren uygulamalar geliştiren geliştiricilere öncelik verilerek, daha geniş bir çıkıştan önce 100’e kadar “güvenilir geliştirici” grubuna erişim sağlamaktı. OpenAI bu teknolojiyi markalaştırmış ve fiyatlandırmıştı bile: “standart” sesler için milyon karakter başına 15 dolar ve “HD kalitesinde” sesler için milyon karakter başına 30 dolar.

Ardından, on birinci saatte şirket duyuruyu erteledi. OpenAI, Voice Engine’i birkaç hafta sonra herhangi bir kayıt seçeneği olmadan tanıttı. OpenAI, araca erişimin şirketin 2023’ün sonlarında birlikte çalışmaya başladığı yaklaşık 10 geliştiriciden oluşan bir kohortla sınırlı kalacağını söyledi.

OpenAI, Voice Engine’in Mart 2024 sonundaki duyuru blog yazısında “Sentetik seslerin sorumlu bir şekilde konuşlandırılması ve toplumun bu yeni yeteneklere nasıl uyum sağlayabileceği konusunda bir diyalog başlatmayı umuyoruz” diye yazdı. “Bu konuşmalara ve küçük ölçekli testlerin sonuçlarına dayanarak, bu teknolojinin geniş ölçekte kullanılıp kullanılmayacağı ve nasıl kullanılacağı konusunda daha bilinçli bir karar vereceğiz.”

Uzun süredir üzerinde çalışılıyor

OpenAI’ye göre Voice Engine 2022’den beri üzerinde çalışılan bir araç. Şirket, aracın potansiyelini ve risklerini göstermek için 2023 yazında “en üst düzeydeki küresel politika yapıcılara” demo yaptığını iddia ediyor.

Bugün aralarında engelli insanların daha doğal iletişim kurmasını sağlayan cihazlar geliştiren Livox’un da bulunduğu çok sayıda iş ortağı Voice Engine’e erişebiliyor. Livox’un CEO’su Carlos Pereira TechCrunch’a verdiği demeçte, aracın çevrimiçi olması gerekliliği nedeniyle (Livox’un müşterilerinin çoğunun interneti yok) Voice Engine’i bir ürün haline getiremediklerini, ancak teknolojiyi “gerçekten etkileyici” bulduğunu söyledi.

Pereira TechCrunch’a e-posta yoluyla yaptığı açıklamada, “Sesin kalitesi ve seslerin farklı dillerde konuşması imkanı benzersiz – özellikle de müşterilerimiz olan engelli insanlar için” dedi. “Gerçekten de gördüğüm en etkileyici ve kullanımı kolay ses oluşturma [aracı] […] OpenAI’nin yakında çevrimdışı bir sürüm geliştirmesini umuyoruz.”

Pereira, OpenAI’den olası bir Voice Engine lansmanı konusunda rehberlik almadığını ve şirketin hizmet için ücret almaya başlamayı planladığına dair herhangi bir işaret görmediğini söylüyor. Livox şimdiye kadar kullanımı için ödeme yapmak zorunda kalmadı.

Yukarıda bahsedilen Haziran 2024 tarihli gönderide OpenAI, Voice Engine’i geciktirirken göz önünde bulundurduğu hususlardan birinin geçen yılki ABD seçim döngüsü sırasında kötüye kullanım potansiyeli olduğunu ima etti. Paydaşlarla yapılan görüşmeler sonucunda Voice Engine, üretilen sesin kaynağını izlemek için filigran da dahil olmak üzere çeşitli hafifletici güvenlik önlemlerine sahiptir.

OpenAI’ye göre, geliştiriciler Voice Engine’i kullanmadan önce orijinal konuşmacıdan “açık onay” almalı ve izleyicilerine seslerin yapay zeka tarafından üretildiğine dair “açık açıklamalar” yapmalıdır. Ancak şirket bu politikaları nasıl uygulayacağını açıklamadı. OpenAI’nin kaynaklarına sahip bir şirket için bile bunu geniş ölçekte yapmak son derece zor olabilir.

OpenAI blog yazılarında ayrıca hoparlörleri doğrulamak için bir “ses kimlik doğrulama deneyimi” ve tanınmış kişilere çok benzeyen seslerin oluşturulmasını engelleyen bir “gidilmeyecekler” listesi oluşturmayı umduğunu ima etti. Her ikisi de teknolojik açıdan iddialı projeler ve bunları yanlış yapmak, sık sık güvenlik girişimlerini bir kenara bırakmakla suçlanan bir şirkete kötü yansıyacaktır.

Etkili filtreleme ve kimlik doğrulama, sorumlu ses klonlama teknolojisi sürümleri için hızla temel gereksinimler haline geliyor. Bir kaynağa göre yapay zeka ses klonlama, 2024’ün en hızlı büyüyen üçüncü dolandırıcılığı oldu. Gizlilik ve telif hakkı yasaları ayak uydurmakta zorlanırken, dolandırıcılık ve banka güvenlik kontrollerinin atlanmasına yol açtı. Kötü niyetli aktörler, ünlülerin ve politikacıların kışkırtıcı deepfake’lerini yaratmak için ses klonlamayı kullandı ve bu deepfake’ler sosyal medyada orman yangını gibi yayıldı.

OpenAI Voice Engine’i önümüzdeki hafta yayınlayabilir ya da hiç yayınlamayabilir. Şirket defalarca bu hizmetin kapsamını küçük tutmayı düşündüğünü söyledi. Ancak net olan bir şey var: Optik nedenlerden, güvenlik nedenlerinden ya da her ikisinden dolayı, Voice Engine’in sınırlı önizlemesi OpenAI’nin tarihindeki en uzun önizlemelerden biri haline geldi.

Kaynak: TechCrunch

Okumaya devam et
Yorum yapmak için tıklayın

Yanıt Ver

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Haberler

Mistral, ilk açık kaynaklı yapay zeka ses modeli Voxtral’ı piyasaya sürdü

AI sistemleri daha yetenekli hale geldikçe, konuşma makinelerle iletişim kurduğumuz varsayılan yöntem haline geliyor. Fransız AI girişimi Mistral, ilk açık modeliyle ses yarışına girerek, kapalı kurumsal sistemlerin hakimiyetine açık ağırlıklı alternatiflerle meydan okumayı hedefliyor. Mistral, işletmelere yönelik ilk ses modeli ailesi olan Voxtral’ın piyasaya sürüldüğünü duyurdu.

Yayınlanma tarihi

=>

AI sistemleri daha yetenekli hale geldikçe, konuşma makinelerle iletişim kurduğumuz varsayılan yöntem haline geliyor. Fransız AI girişimi Mistral, ilk açık modeliyle ses yarışına girerek, kapalı kurumsal sistemlerin hakimiyetine açık ağırlıklı alternatiflerle meydan okumayı hedefliyor. Mistral, işletmelere yönelik ilk ses modeli ailesi olan Voxtral’ın piyasaya sürüldüğünü duyurdu.

Şirket, Voxtral’ı “üretimde gerçekten kullanılabilir konuşma zekası” sunabilen ilk açık model olarak tanıtıyor.

Diğer bir deyişle, geliştiriciler artık transkripsiyonlarda hata yapan ve söylenenleri gerçekten anlamayan ucuz, açık bir sistem ile iyi çalışan ancak kapalı olan ve geliştiricilere daha yüksek maliyet ve dağıtım üzerinde daha az kontrol sağlayan bir sistem arasında seçim yapmak zorunda kalmayacak.

İşletmeler için bu, Voxtral’ın benzer çözümlerin “yarı fiyatından daha ucuz” olduğunu iddia ettiği uygun fiyatlı bir alternatif sunduğu anlamına geliyor.

Mistral, Voxtral’ın 30 dakikaya kadar ses kaydını transkribe edebildiğini söylüyor. LLM omurgası Mistral Small 3.1 sayesinde, 40 dakikaya kadar ses içeriğini anlayabiliyor ve kullanıcıların ses içeriği hakkında sorular sormasına, özetler oluşturmasına veya sesli komutları API’leri çağırma veya işlevleri çalıştırma gibi gerçek zamanlı eylemlere dönüştürmesine olanak tanıyor. Voxtral ayrıca çok dillidir ve İngilizce, İspanyolca, Fransızca, Portekizce, Hintçe, Almanca, Hollandaca ve İtalyanca gibi dilleri transkribe etme ve anlama yeteneğine sahiptir.

Şirket, “konuşma anlama modelleri”nin iki varyantını sunmaktadır. İlki, Voxtral Small, üretim ölçeğinde dağıtımlar için 24 milyar parametreye sahiptir ve ElevenLabs Scribe, GPT-4o-mini ve Gemini 2.5 Flash ile rekabet edebilir.

İkincisi olan Voxtral Mini, yerel ve uç dağıtımlar için 3 milyar parametreye sahiptir. Ayrıca, transkripsiyon amaçlı kullanım senaryoları için optimize edilmiş ve OpenAI Whisper’dan yarı fiyatına daha iyi performans vaat eden, ultra ucuz, basitleştirilmiş, hızlı bir API sürümü olan Voxtral Mini Transcribe adlı 3 milyar parametreli model de bulunmaktadır.

Kullanıcılar, Hugging Face’den API’yi indirerek veya Mistral’ın sohbet robotu Le Chat’te modelleri test ederek Voxtral’ı ücretsiz olarak deneyebilirler. Şirketin açıklamasına göre, API’yi uygulamalara entegre etmek dakikada 0,001 dolardan başlıyor.

Bu lansman, Mistral’ın güvenilirliği artırmak için sorunları adım adım çözen ilk akıl yürütme modeli ailesi Magistral’ı duyurmasından bir ay sonra gerçekleşti.

Avrupa’nın önde gelen AI şirketlerinden biri olan Mistral, açık kaynaklı AI modellerini desteklemesiyle tanınıyor. Bu ayın başlarında TechCrunch, şirketin Abu Dabi’nin MGX fonu gibi yatırımcılardan 1 milyar dolara kadar sermaye artırımı için görüşmelerde olduğunu bildirdi.

Kaynak: TechCrunch

Okumaya devam et

Haberler

SEO çöküşü: Podcast yayıncılarının şu anda yapması gerekenler

Podcast yayıncıları için arama motoru optimizasyonu (yani Google’da en üstte görünme) konusunda işler değişiyor. Steve Goldstein, Cevap Motoru Optimizasyonu (AEO – Answer Engine Optimization) ve Google’da en üstte görünmeye devam etmenin yolları hakkında yazdı.

Yayınlanma tarihi

=>

Arama sadece gelişmiyor. Tamamen ortadan kaldırılıyor. Trafiğiniz yeniden yönlendiriliyor ve bu şu anda gerçekleşiyor.

Podcast yayıncısıysanız, keşfedilebilirliğiniz tehlike altında.

Bu kozmetik bir değişiklik değil. Bu, Google’ın büyük sıfırlaması.

Google’a bir sorgu yazıp 10 mavi bağlantıdan oluşan temiz bir liste aldığınız tanıdık deneyimi biliyorsunuz, değil mi? Bu, hızla ortadan kalkıyor.

Bunun yerine, kullanıcıları içeriğinize yönlendirmeden soruları yanıtlayan AI tarafından oluşturulan yanıtlar, yüzen özetler, sesli sonuçlar ve sıfır tıklama arayüzleri alıyoruz. Artık garantili bağlantılar yok. Artık ücretsiz tıklamalar yok. Artık otomatik keşif yok.

Podcast bölüm sayfalarınız eskisi kadar ilgi görmüyor veya blog yayınlarınız eskisi kadar trafik çekmiyorsa, bu sadece sizinle ilgili bir sorun değil. Bu düşüş, geleneksel SEO’nun temellerini sarsan yapısal bir değişimden kaynaklanıyor. Keşfedilmeye çalışan podcast yayıncıları için bu değişim her şeyi değiştiriyor.

Gerçekte Neler Oluyor?

Arama, bildiğimiz haliyle değişiyor. Google’da üst sıralarda yer almak, anahtar kelime sonuçlarında görünmek ve web sitenize tıklamaları yönlendirmek gibi geleneksel yöntemler, yapay zeka tarafından oluşturulan özetler ve ses tabanlı cevaplarla yerini değiştiriyor. Birçoğunda orijinal kaynağa küçük bağlantılar var ya da hiç bağlantı yok.

Buna Cevap Motoru Optimizasyonu (AEO – Answer Engine Optimization) deniyor ve içeriğin ortaya çıkışını ve tüketimini değiştiriyor.

İşte çarpıcı bir istatistik: SimilarWeb’e göre, ABD’deki Google aramalarının %69’u artık tıklama yapılmadan sona eriyor. Bu, bir yılda 13 puanlık bir artış anlamına geliyor.

Teknoloji analisti Shelly Palmer, kısa süre önce SEO’dan AEO’ya geçiş hakkında bir yazı kaleme aldı. Arama motorları konusunda en akıllı seslerden biri olan Neil Patel de bu konuda uyarıda bulunuyor. Buradan çıkarılacak en önemli sonuç, artık arama motorları için optimizasyon yapmadığımızdır. Cevap motorları için optimizasyon yapıyoruz.

AEO Podcast Yayıncıları İçin Ne Anlama Geliyor?

Çoğu insan, bir web sitesine girip oynat düğmesine basarak podcast’leri keşfetmez. Yeni programları arkadaşları, sosyal medya, algoritmalar ve giderek artan bir şekilde, bağlantılar sunmak yerine soruları yanıtlayan yapay zeka araçları aracılığıyla bulurlar.

Bu, programınızın görünürlüğünün akıllı SEO hilelerinden çok, içeriğinizin ne kadar yanıtlanabilir olduğuna bağlı olduğu anlamına gelir.

Program notlarınız sonradan eklenmişse veya daha da kötüsü, transkriptleri atlıyorsanız, sadece erişilebilirlik fırsatlarını kaçırmakla kalmıyorsunuz. Bir sonraki keşif dalgasından da mahrum kalıyorsunuz.

İyi haber şu: AI, netlik, yapı ve niyeti tercih eder. Ve podcast yayıncıları, çoğu kişiden daha fazla, harika bir hikaye anlatmayı bilir.

Şimdi önemli olan, AI’nın bu hikayeyi anlayıp yükseltebilmesi için onu biçimlendirmektir.

İçeriğiniz yapılandırılmış, özetlenmiş ve AI tarafından okunabilirse, rakiplerinizin önündesiniz demektir. Değilse, uyum sağlama zamanı gelmiştir.

Transkriptiniz Artık En Değerli Varlığınız

Transkriptler, podcast’inizin yeni giriş kapısıdır.

İçeriğinizin AI destekli aramalarda görünmesini istiyorsanız, transkriptinizin aşağıdaki özelliklere sahip olması gerekir:

  • Mevcut olması (evet, birçok podcast hala bunu atlıyor)
  • Net ve kolay taranabilir olması
  • AI’nın anlayabileceği şekilde biçimlendirilmiş olması

AI araçları (henüz) bölümünüzü dinleyip anlamını tam olarak kavrayamaz. Ancak transkripti okuyabilirler. Konuşmacıların açıkça belirtildiği, mantıklı bölümlere ayrılmış ve önemli noktaların vurgulandığı bir transkript:

  • AI tarafından indekslenebilir
  • Alıntı yapmaya değer
  • Yeni yollarla keşfedilebilir

Akıllı Pod Yayıncılarının Hemen Yapması Gereken 5 Şey

İşte cevap motorları çağında nasıl görünür kalacağınız.

  1. Programınızı Amacınıza Uygun Şekilde Yapılandırın
    Bölüm planlama ve uygulamada, güçlü bir soru veya cesur bir görüşle başlayın. Önemli noktayı gizlemeyin. AI araçları, alıntılanması kolay, net ve cevaplanabilir içeriğe öncelik verir.
  2. Net Bir Transkript Yayınlayın
    Okunması kolay hale getirin. Konuşmacı etiketleri kullanın ve okunabilir parçalara ayırın. Transkriptinizi bir blog yazısı gibi ele alın.
  3. Madde İşaretli Özetler ve SSS’ler Ekleyin
    TL;DR (too long; didn’t read – çok uzun; okumadım) bölümü veya önemli noktalar bölümü ekleyin. Bu, AI’nın bölümünüzün değerini anında kavramasına yardımcı olur. Bonus: insanlar da bunları sever.
  4. Bölümleri Kullanın ve Videonuzu Segmentlere Ayırın
    Video podcast’ler yayınlıyorsanız, YouTube ikinci ön kapınızdır. Net başlıklara sahip bölümler ekleyin ve önemli anları TikTok, Reels veya YouTube Shorts için yeniden düzenleyin.
  5. RSS, Meta Verileri ve Başlıklarınızı Optimize Edin
    AI ve arama motorları yapılandırılmış, net meta verilere güvenir. Etiketler artık eskisi kadar önemli değil, ancak bölüm başlıkları ve açıklamaları her zamankinden daha fazla önem taşıyor. Bunları açıklayıcı ve spesifik hale getirin. Genel başlıklardan kaçının. Bunlar ezilip geçilecektir.

Artık en üst sıralarda yer almak için mücadele etmiyorsunuz. Cevap olmak için mücadele ediyorsunuz.

SEO’nun çöküşü sadece başka bir teknoloji döngüsü değildir. Dijital keşfedilebilirliğin kurallarının yeniden yazılmasıdır.

Hedef kitle dinliyor ve izliyor. Makineler okuyor. Her ikisinin de sizi nerede bulacağını bildiğinden emin olalım.

Kaynak: Steven Goldstein / Amplifi Media

Okumaya devam et

Haberler

Saspod, içerik üreticileri ve kayıt stüdyoları için küresel bir ortaklık programı başlattı

İngiltere merkezli önde gelen podcast üretim ve barındırma hizmeti Saspod, dünya çapındaki içerik oluşturucular, serbest çalışanlar ve kayıt stüdyolarının izleyici yönlendirmeleri yoluyla sürekli gelir elde etmelerini amaçlayan yeni ortaklık programını duyurdu.

Yayınlanma tarihi

=>

İngiltere merkezli önde gelen podcast üretim ve barındırma hizmeti Saspod, dünya çapındaki içerik oluşturucular, serbest çalışanlar ve kayıt stüdyolarının izleyici yönlendirmeleri yoluyla sürekli gelir elde etmelerini amaçlayan yeni ortaklık programını duyurdu.

Birçok içerik oluşturucu ve kayıt stüdyosunun, podcasting’i keşfetmek isteyen ancak genellikle nereden başlayacaklarını bilmeyen müşterileri ve izleyicileri var. Saspod’un Ortaklık Programı, basit ve kazançlı bir yol sunuyor:

  • Tekrarlayan Komisyon Yapısı: Yönlendirilen müşteri tarafından verilen her sipariş için %15 tekrarlayan komisyon
  • Yüksek Ortalama Yönlendirme Değeri: Her müşteriyi sadece bir kez kaydettirin, ardından programın ömrü boyunca aylık kazanç elde edin
  • Özel Ortaklık Panosu: Yönlendirmelerinizin ne kadar harcadığını ve ne kadar kazandığınızı tam olarak görün
  • Özel Yönlendirme Bağlantısı: Özel pano ve izleme bağlantısı, yönlendirme ve kazançlarda şeffaflık sağlar

Saspod CEO’su Bogdan Bratis (https://saspod.com/founder-bogdan-bratis), “Programımız, gelirlerini çeşitlendirmek isteyen içerik üreticiler, serbest çalışanlar ve kayıt stüdyoları için kazançlı bir fırsat yaratıyor. Bu çok basit: izleyicilerinizin ve müşterilerinizin zaten istediği hizmetleri önererek ek gelir elde edebilirsiniz” dedi.

Programa katılım ücretsiz ve şu anda açık. Başvurmak için, ortaklık sayfasına (http://saspod.com/affiliates-program) gidebilir veya daha fazla bilgi için affiliates@saspod.com adresine e-posta gönderebilirsiniz.

Kaynak: PodNews

Okumaya devam et

En son