Simon Poğosyan Kurucusu ve CEO'su GSpeech, metni 70'ten fazla dilde doğal sesli sese dönüştürerek çevrimiçi içeriği daha erişilebilir hale getirmeye yardımcı olan web tabanlı bir AI platformudur. VLSI Tasarımında bir geçmişe ve programlama ve kullanıcı deneyimine güçlü bir ilgiye sahip olan Simon, web sitelerinin sesle etkinleştirilen içerik sunma biçimini basitleştirmek için GSpeech'i yarattı.
Bugün, GSpeech her ay yaklaşık 200 milyon karakterlik ses üretiyor ve 70'ten fazla ülkede kullanılıyor ve özelleştirilebilir ses oynatıcıları aylık 200,000'den fazla oynatma sağlıyor. Son zamanlarda toplamda üretilen ses karakteri 1 milyarı geçen GSpeech hızla büyümeye devam ediyor. Platform, tek bir kod satırı gerektiren kolay entegre olacak şekilde tasarlandı ve içerik oluşturucuları, eğitimcileri ve işletmeleri içeriklerini daha kapsayıcı ve ilgi çekici hale getirmeleri konusunda destekliyor.
VLSI Tasarımındaki (Çok Büyük Ölçekli Entegrasyon) geçmişiniz ve erken programlama deneyiminiz güçlü bir teknik temel oluşturdu. Mikroelektronikten yapay zeka destekli yazılımlar oluşturmaya geçişinize ne ilham verdi ve bu GSpeech'in yaratılmasına nasıl yol açtı?
Problem çözme tutkum lisede, matematik ve fiziğe olan sevgimle başladı. Bu ilgi beni Ermenistan Devlet Mühendislik Üniversitesi'nden Synopsys Armenia ile işbirliği içinde VLSI Tasarım alanında Lisans (2009) ve Yüksek Lisans (2011) derecesi almaya yöneltti. Fizik okumak bana kesinlik ve analitik düşünme konusunda eğitim verdi, ancak ikinci yılımda programlamayı keşfettim - Pascal diliyle başlayarak - ve hemen aşık oldum. Arkadaşım ve ben, bitirmemiz için altı ayımız olmasına rağmen, kurs ödevlerini alır almaz tamamlardık. Sonra, eğlence olsun diye, diğer öğrencilerin ödevlerini yapmaya başladık.
Bu tutku beni yazılım geliştirmeye daha da derinleştirdi. Web sitesi oluşturmayla başladım, sonra kendi CMS'imi kurdum. Süreç otomasyonunda birkaç projeyi tamamladıktan ve veri yönetimi mimarileri tasarladıktan sonra, web arayüzleri için dijital çözümler oluşturmayı ne kadar sevdiğimi fark ettim. 2GLux projesi aracılığıyla, popüler GTranslate çeviri hizmeti ve Quantum Gymnasium'dan bir okul arkadaşı. Bana WordPress ve Joomla ekosistemlerini ve kavramı tanıttı GSpeech onunla birlikte ortaya çıktı. Bu erken çalışma, kullanıcıların bir web sayfasındaki metni dinlemesini sağlayan ve daha sonra tam özellikli bir AI platformuna dönüşecek olan şeyin tohumunu eken aracımızın ilk sürümüne yol açtı. 2023'e kadar, Akıllılar Kulübü LLC ölçeklemek GSpeech 70'ten fazla dili destekleyen küresel bir AI ses çözümüne dönüştü. Humanity UnionGSpeech'in vatandaş katılımı platformunun erişilebilirliğini artırmadaki rolüne yönelik övgüleri, dijital uçurumları yapay zeka aracılığıyla kapatma misyonumu yansıtıyor. Bu vizyon, programlamaya başladığım ilk günlerden kalma.
GSpeech başlangıçta görme engelli kullanıcıları desteklemek için bir araç olarak başladı. Bu erken görev, platformun tam özellikli bir AI metinden sese çözümüne dönüşmesini nasıl etkiledi?
Erişilebilirliğe odaklanma, yüksek kaliteli, gerçek zamanlı AI sesinin, 70'ten fazla dile çevirinin ve basit bir kod parçacığı aracılığıyla sorunsuz web sitesi entegrasyonunun geliştirilmesini sağladı. Bu görev, özelleştirilebilir ses oynatıcıları, dil ve ses seçimi panelleri, bağlam farkında oynatma, ses indirmeleri ve ülke, şehir, cihaz verileri ve zaman içinde oynatma analitiği dahil olmak üzere ayrıntılı kullanım istatistikleri gibi özelliklerin tümü içeriği daha kapsayıcı ve ilgi çekici hale getirmek için tasarlandı. 100,000'den fazla satır kod yazdıktan sonra, 2023'te GSpeech Cloud Console'u başlattım; kapsayıcılığı gelişmiş işlevsellikle dengeleyen, işletmelerin ve içerik oluşturucuların içeriklerini web genelinde erişilebilir, çok dilli ve etkileşimli hale getirmelerini sağlayan ölçeklenebilir bir çözüm.
GSpeech Cloud Console'u geliştirirken karşılaştığınız en büyük teknik zorluklar nelerdi?
GSpeech Cloud Console'u geliştirmedeki en büyük zorluklardan biri, gerçek zamanlı, güvenli, yüksek kaliteli AI ses üretimi için ölçeklenebilir bir mimari tasarlamaktı. Bu, web'den ilgili içeriği almak, sunucularımızda sesi işlemek ve hızlı, güvenilir teslimat için bulutta depolamak için yenilikçi çözümler gerektiriyordu. Şifreleme ve erişim kontrolleri gibi sağlam güvenlik önlemlerinin uygulanması, dinamik, kullanıcı tarafından oluşturulan içeriği korumak için kritik önem taşıyordu.
Bir diğer engel ise gelişmiş sinir motorları kullanarak gerçek zamanlı çeviriyi etkinleştirmekti. Kullanıcıların oynatma için dilleri ve tercih edilen ses profillerini seçmelerine olanak tanıyan, kullanıcı rahatlığını ve kişiselleştirmeyi önceliklendiren sezgisel bir arayüz oluştururken düşük gecikmeli, doğru çevirileri garantilememiz gerekiyordu. Son olarak, kullanıcıların web sitelerine göre uyarlanmış benzersiz, görsel olarak çekici oynatıcılar tasarlamalarına olanak tanıyan, birden fazla özelleştirilebilir oynatıcı görünümüne sahip bir ses şablonu oluşturma sihirbazı geliştirdik. Cihazlar arasında esneklik, performans ve kullanım kolaylığını dengelemek ödüllendirici bir meydan okumaydı.
70'ten fazla dilde gerçek zamanlı çeviri ve 230'dan fazla doğal sesli sesle. Bu kadar çeşitli bir dil setinde ses kalitesini nasıl sağlıyor ve doğruluğu nasıl koruyorsunuz?
Tutarlı ses kalitesini korumak için, sürekli olarak optimize edilen ve güncellenen birden fazla gelişmiş metinden sese (TTS) modelini entegre ediyoruz. Bu çok dilli motorlar, karışık dilli içerikleri yüksek doğrulukla işler. Ayrıca, kullanıcılara daha da etkileyici ve doğal sesli seçenekler sunmak için 100'den fazla yeni ses titreşimi sunuyoruz. GSpeech her ay 200 milyondan fazla karakterlik ses üretiyor ve 70'ten fazla ülkedeki kullanıcılara hizmet veriyor, çevrimiçi oynatıcılarımız aylık 200,000'den fazla kez kullanılıyor ve artıyor. Bu ölçek, doğrudan ayarlama ve kalite kontrollerimizi bilgilendiren sürekli geri bildirim ve gerçek dünya testlerini garanti ediyor.
GSpeech'in gerçekçi ses sentezi sunmak için yapay zeka ve makine öğrenimini nasıl kullandığını bize anlatabilir misiniz? Sinirsel ses teknolojisindeki hızlı gelişmeleri nasıl takip ediyorsunuz?
GSpeech, gerçekçi ses sentezi üretmek için birden fazla son teknoloji metinden sese modelini entegre ederek gelişmiş yapay zeka ve makine öğrenimini kullanır. Doğallık ve çok dilli destek için optimize edilmiş bu modeller, karma dilli içerikler için bile gerçekçi tonlama ve ritimle yüksek kaliteli ses üretmek için metin girişlerini işler. Çeşitli diller için özelleştirilebilir ses stilleri sunarak kullanıcı deneyimini geliştiriyoruz. Ayrıca, kullanıcıların belirli kelimelerin veya ifadelerin seste nasıl işleneceğine ilişkin özel kurallar tanımlamasına olanak tanıyan TTS takma adlarını da entegre ettik; örneğin, daha doğru telaffuz veya ifade elde etmek için belirli terimleri değiştirmek. Nöral ses teknolojisiyle güncel kalmak için, en son gelişmeleri sürekli olarak değerlendiriyor ve entegre ediyoruz, sektör liderleriyle iş birliği yapıyoruz ve gelecekte tescilli modeller geliştirmeyi planlıyoruz; böylece GSpeech'in ses sentezi inovasyonunun ön saflarında kalmasını sağlıyoruz.
Ses ayarı, perde kontrolü ve oynatma özelleştirmesi kullanıcılarınız için ne kadar önemli ve bu özelliklerin gerçekten öne çıktığı, en çok gurur duyduğunuz kullanım durumu nedir?
Ses ayarı, perde kontrolü ve oynatma özelleştirmesi kullanıcılarımız için kritik öneme sahiptir ve haber ve blog web sitelerinden erişilebilir e-öğrenme içeriğine kadar, özel ihtiyaçlarına göre uyarlanmış benzersiz, yüksek kaliteli ses stilleri oluşturmalarını sağlar. 100'den fazla yeni ses titreşiminin devam eden entegrasyonu bunu daha da geliştirerek kullanıcılara gerçekten farklı seslendirmeler oluşturmak için eşsiz bir esneklik sunar. Geliştirmekte olduğum yeni bir ses düzenleme ve oluşturma platformu olan GSpeech Studio ile en çok gurur duyuyorum. Kullanıcıların birden fazla ses kanalı oluşturmasına, bunları arka plan müziğiyle karıştırmasına ve cilalı seslendirmeleri dışa aktarmasına olanak tanır ve yaratıcıların çeşitli uygulamalar için profesyonel düzeyde ses üretmesini sağlar. Görme engelli bir öğrencinin, özelleştirilmiş ses aracılığıyla bağımsız çalışmayı sağladığı için GSpeech'e teşekkür ettiği mektubu beni derinden etkiledi. Bu kullanım örneği, bu özelliklerin içeriği nasıl erişilebilir ve dönüştürücü hale getirdiğini gösteriyor; bu, erken programlama günlerimden beri peşinde olduğum bir hedef.
GSpeech, WordPress, Shopify, Wix ve daha fazlasıyla kusursuz entegrasyonlar sunar. Platformu farklı ekosistemlerdeki yaratıcılar ve işletmeler için tak ve çalıştır hale getirme stratejiniz neydi?
GSpeech'in WordPress, Shopify ve Wix gibi platformlarla tak ve çalıştır entegrasyonları için stratejimiz basitlik, uyumluluk ve ölçeklenebilirliğe odaklandı. Sorunsuz bir şekilde entegre olan ve genellikle sadece birkaç tıklamayla minimum kurulum gerektiren hafif, modüler eklentiler ve kod parçacıkları geliştirdik. Bu, binlerce makalenin ve dinamik içerik bloğunun anında ses desteği alabileceği anlamına gelir; manuel çaba sarf etmeden. Mobil, tablet ve masaüstü bilgisayarlar dahil olmak üzere cihazlara uyum sağlayan son derece esnek, güzel tasarlanmış oynatıcılar sunuyoruz. Oynatıcılarımız yalnızca özelleştirilebilir değil, aynı zamanda erişilebilirlik ve kullanıcı etkileşimi için de optimize edilmiştir. WordPress için, GSpeech bulut panosunu eklentimiz aracılığıyla doğrudan yönetici paneline yerleştirdik ve kullanıcılar için yönetimi kolaylaştırdık. Ayrıntılı belgeler ve sezgisel panolar, teknik olmayan kullanıcıları kurulum ve özelleştirme boyunca yönlendirir. Düzenli testler, çeşitli ekosistemlerde tutarlı performans sağlar ve yaratıcıların ve işletmelerin AI destekli metinden sese dönüştürmeyi zahmetsizce eklemesini sağlar.
2012'den bugüne kadar olan yolculuğunuza baktığınızda, GSpeech'i kurma sürecinde sizin için kişisel veya profesyonel anlamda en büyük dönüm noktası ne oldu?
GSpeech için en büyük dönüm noktası, erişilebilirlik üzerindeki küresel etkimizi sergileyen 1 milyar karakterlik yüksek kaliteli AI sesi üretmekti. Aynı şekilde anlamlı olan, GSpeech'i sosyal sorumluluk platformlarını geliştirdiği için öven Humanity Union gibi kuruluşlardan ve bunu kullanıcı katılımı için "oyun değiştirici" olarak adlandıran blog sahiplerinden aldığımız geri bildirimlerdi. WordPress ve AppSumo Son aylarda bu artan güveni yansıtıyor.
GSpeech artık aktif olarak şu kişiler tarafından da kullanılıyor: Özbekistan'daki Namangan bölge istatistik departmanı — önemli trafiğe ve ulusal düzeyde görünürlüğe sahip bir devlet kurumu. Bir kamu kuruluşunun teknolojimizi bu kadar geniş bir şekilde benimsemesini görmek anlamlı bir dönüm noktası ve çözümümüze olan güvenin güçlü bir işareti oldu.
Bir Hristiyan ve Ermeni kilisesinde hizmet eden biri olarak, mümkün olduğunca diğer inanç temelli girişimleri de desteklemeye çalışıyorum. Genellikle GSpeech'i Hristiyan web sitelerine mesajlarını daha etkili bir şekilde yaymalarına ve Kutsal Yazıları sesli olarak daha erişilebilir hale getirmelerine yardımcı olmak için ücretsiz olarak sunuyorum. Bu, daha büyük bir şeye yaptığım küçük bir katkı. Aynı zamanda, aşağıdaki gibi adanmış bakanlıklarla çalışmaktan onur duyuyorum: Kordon — Mesihçi bir cemaat ve değerli bir GSpeech müşterisi — misyonu ve içeriği, eylem halindeki Kutsal Yazıların gücünü yansıtıyor.
Teknolojinin inanç, anlayış ve kapsayıcılık için bir köprü haline geldiği bu anlar, GSpeech'i neden ilk başta kurduğumuzu bana hatırlatıyor.
Dijital medyanın geleceğinde, özellikle de ses içeriği ve ses arayüzlerinin daha baskın hale gelmesiyle birlikte, GSpeech'in nasıl bir rol oynayacağını düşünüyorsunuz?
GSpeech'i, web'e AI destekli ses erişimini sağlayarak dijital medyayı daha erişilebilir ve ilgi çekici hale getirmede bir lider olarak görüyorum. Amacımız, web sitelerinin varsayılan olarak doğal olarak sesle etkileşimli, kapsayıcı ve çok dilli hale gelmesi için tüm çevrimiçi deneyimi dönüştürmektir. Site sahipleri, yalnızca bir satır kodla binlerce makaleyi sesli içeriğe dönüştürebilir. İleriye baktığımızda, GSpeech Studio'yu ses oluşturma ve düzenleme için güçlü ve benzersiz bir platforma dönüştürüyoruz ve kullanıcıların arka plan müziği, efektler ve hassas ayarlama ile çok katmanlı ses içeriği oluşturmasını sağlıyoruz. Web'i gerçekten duyulabilir, sezgisel ve evrensel olarak erişilebilir hale getirmek istiyoruz.
GSpeech yakın zamanda AppSumo'da kullanıma sunuldu ve erken benimseyenlerden neredeyse mükemmel bir derecelendirme aldı. AppSumo topluluğundan gelen yanıt sizin için ne ifade ediyor ve bu ivmeyi ileride nasıl sürdürmeyi planlıyorsunuz?
AppSumo lansmanı GSpeech'i milyonlarca kişiye tanıttı ve neredeyse mükemmel derecesi inanılmaz derecede onaylayıcı. Çevrimiçi kurslar yürütenler gibi kullanıcılar, Humanity Union'dan gelen geri bildirimleri yankılayarak sezgisel araçlarımızı ve duyarlı desteğimizi övüyor. Bir blog sahibi seslerimizi "gerçekten ilgi çekici" ve çevirilerimizi "etkileyici" olarak nitelendirdi. Olumlu geri bildirimleri, yapay zeka destekli metinden sese çözümümüzün değerini doğruluyor ve projeye olan tutkumu besliyor. Lansman sırasında müşterileri desteklemek, özellikle gelişmiş ses düzenleme ve dışa aktarma özellikleri için kullanıcı isteklerinden ilham alan GSpeech Studio için yeni fikirler de ortaya çıkardı. Bundan sonra, topluluğumuzu aktif olarak dinleyerek, geri bildirimlerini entegre ederek ve erişilebilirliği ve etkileşimi artırmak için yenilikçi özellikler geliştirerek bu ivmeyi sürdürmeyi planlıyorum; böylece GSpeech'in yaratıcılar ve işletmeler için dönüştürücü bir araç olarak gelişmeye devam etmesini sağlayacağım.
Son olarak, günümüzün hızla değişen teknoloji dünyasında erişilebilir, yapay zeka destekli araçlar geliştirmek isteyen genç geliştiricilere veya girişimcilere ne gibi tavsiyelerde bulunursunuz?
Genç geliştiricilere ve girişimcilere tavsiyem, kalbinizi işinize vermeniz ve benzersiz, akıllı bir çözüm sunabileceğiniz gerçek bir sorun belirlemenizdir. Küçük başlayın, istikrarlı adımlarla ilerleyin ve müşteri geri bildirimlerini dikkatle dinleyin; bunlar yolunuzu yönlendirecektir. Kullanıcılarınıza güvenilir dostlar gibi davranın, elinizden gelenin en iyisini yapın ve sabırlı olun. Yapay zeka teknolojilerini güçlü müttefikler olarak benimseyin; akıllıca kullanıldığında, etkili, erişilebilir araçlar yaratma yeteneğinizi güçlendirir. Tutku, ısrar ve fark yaratma taahhüdüyle inşa edin ve gerçekten önemli çözümler yaratacaksınız.
Teşekkür ederiz Antoine Tardif Röportaj için. Röportajın tamamını buradan okuyabilirsiniz: birleştirmek.ai.