Simon Poghosyan er grunnlegger og administrerende direktør for GSpeech, en nettbasert AI-plattform som bidrar til å gjøre nettinnhold mer tilgjengelig ved å konvertere tekst til naturlig lyd på over 70 språk. Med bakgrunn i VLSI-design og en sterk interesse for programmering og brukeropplevelse, skapte Simon GSpeech for å forenkle måten nettsteder kan tilby taleaktivert innhold på.
I dag genererer GSpeech rundt 200 millioner lydtegn hver måned og brukes i over 70 land, med tilpassbare lydavspillere som betjener over 200,000 1 avspillinger månedlig. Etter å nylig ha passert XNUMX milliard genererte lydtegn totalt, fortsetter GSpeech å vokse raskt. Plattformen er designet for å være enkel å integrere – krever bare én enkelt kodelinje – og støtter innholdsskapere, lærere og bedrifter i å gjøre innholdet sitt mer inkluderende og engasjerende.
Din bakgrunn innen VLSI-design (Very Large Scale Integration) og tidlige programmeringserfaring la et sterkt teknisk grunnlag. Hva inspirerte overgangen fra mikroelektronikk til å bygge AI-drevet programvare, og hvordan førte det til etableringen av GSpeech?
Min lidenskap for problemløsning startet på videregående, drevet av en kjærlighet til matematikk og fysikk. Denne interessen førte til at jeg tok en bachelorgrad (2009) og mastergrad (2011) i VLSI-design fra State Engineering University of Armenia, i samarbeid med Synopsys Armenia. Fysikkstudiene trente meg i presisjon og analytisk tenkning, men det var i løpet av mitt andre år at jeg oppdaget programmering – og begynte med språket Pascal – og umiddelbart forelsket meg i det. Vennen min og jeg fullførte skoleoppgaver så snart vi fikk dem, selv om vi hadde seks måneder på oss. Så, for moro skyld, begynte vi å gjøre oppgavene til andre studenter.
Denne lidenskapen ledet meg dypere inn i programvareutvikling. Jeg begynte med nettsideutvikling, og bygde deretter mitt eget CMS. Etter å ha fullført flere prosjekter innen prosessautomatisering og design av datahåndteringsarkitekturer, innså jeg hvor mye jeg elsket å bygge digitale løsninger for webgrensesnitt. Gjennom 2GLux-prosjektet samarbeidet jeg med Edvard Ananyan – skaperen av det populære GTranslate oversettelsestjeneste og en skolevenn fra Quantum Gymnasium. Han introduserte meg for WordPress- og Joomla-økosystemene, og konseptet for GSpeech oppsto hos ham. Det tidlige arbeidet førte til den første versjonen av verktøyet vårt, som lar brukere lytte til tekst på en nettside, og dermed sådde frøet til det som senere skulle bli en fullfunksjonell AI-plattform. Innen 2023 etablerte jeg Smarts Club LLC å skalere GSpeech inn i en global AI-lydløsning som støtter over 70 språk. Humanity Unions ros for GSpeechs rolle i å forbedre tilgjengeligheten til deres plattform for samfunnsengasjement gjenspeiler mitt oppdrag om å bygge bro over digitale skillelinjer gjennom AI – en visjon som er forankret i mine tidlige programmeringsdager.
GSpeech startet opprinnelig som et verktøy for å støtte synshemmede brukere. Hvordan påvirket dette tidlige oppdraget plattformens utvikling til en fullfunksjonell tekst-til-tale-løsning basert på kunstig intelligens?
Fokuset på tilgjengelighet drev utviklingen av sanntids AI-lyd av høy kvalitet, oversettelse til over 70 språk og sømløs nettstedsintegrasjon via en enkel kodebit. Dette oppdraget førte til funksjoner som tilpassbare lydspillere, paneler for språk- og stemmevalg, kontekstbevisst avspilling, lydnedlastinger og detaljert bruksstatistikk – inkludert land, by, enhetsdata og avspillingsanalyse over tid – alt designet for å gjøre innhold mer inkluderende og engasjerende. Etter å ha skrevet over 100,000 2023 linjer med kode, lanserte jeg GSpeech Cloud Console i XNUMX – en skalerbar løsning som balanserer inkludering med avansert funksjonalitet, og gir bedrifter og skapere muligheten til å gjøre innholdet sitt tilgjengelig, flerspråklig og interaktivt på tvers av nettet.
Hva var noen av de største tekniske utfordringene du møtte under utviklingen av GSpeech Cloud Console?
En av de største utfordringene med utviklingen av GSpeech Cloud Console var å designe en skalerbar arkitektur for sanntids, sikker og høykvalitets AI-lydgenerering. Dette krevde innovative løsninger for å hente relevant innhold fra nettet, behandle lyd på serverne våre og lagre det i skyen for rask og pålitelig levering. Implementering av robuste sikkerhetstiltak, som kryptering og tilgangskontroller, var avgjørende for å beskytte dynamisk, brukergenerert innhold.
En annen hindring var å muliggjøre sanntidsoversettelse ved hjelp av avanserte nevrale motorer. Vi måtte sørge for nøyaktige oversettelser med lav latens, samtidig som vi bygde et intuitivt grensesnitt som lot brukerne velge språk og foretrukne stemmeprofiler for avspilling, med prioritering av brukerkomfort og personalisering. Til slutt utviklet vi en veiviser for oppretting av lydmaler med flere tilpassbare avspillervisninger, slik at brukerne kunne designe unike, visuelt tiltalende avspillere skreddersydd for nettstedene deres. Å balansere fleksibilitet, ytelse og brukervennlighet på tvers av enheter var en givende utfordring.
Med sanntidsoversettelse på over 70 språk og over 230 naturlig klingende stemmer. Hvordan sikrer du stemmekvalitet og opprettholder nøyaktighet på tvers av et så mangfoldig språksett?
For å opprettholde jevn talekvalitet integrerer vi flere avanserte tekst-til-tale-modeller (TTS) som kontinuerlig optimaliseres og oppdateres. Disse flerspråklige motorene håndterer innhold på flere språk med høy nøyaktighet. Vi ruller også ut over 100 nye stemmevibrasjoner for å gi brukerne enda mer uttrykksfulle og naturlige alternativer. Hver måned genererer GSpeech over 200 millioner lydtegn, som betjener brukere i mer enn 70 land, og våre online-spillere brukes over 200,000 XNUMX ganger i måneden – og øker. Denne skalaen sikrer kontinuerlig tilbakemelding og testing i den virkelige verden, som direkte informerer vår justering og kvalitetskontroll.
Kan du forklare oss hvordan GSpeech utnytter kunstig intelligens og maskinlæring for å levere naturtro stemmesyntese? Hvordan holder du tritt med de raske fremskrittene innen nevral stemmeteknologi?
GSpeech bruker avansert AI og maskinlæring, og integrerer flere toppmoderne tekst-til-tale-modeller for å produsere naturtro stemmesyntese. Disse modellene, optimalisert for naturlighet og flerspråklig støtte, behandler tekstinndata for å generere lyd av høy kvalitet med realistisk intonasjon og rytme, selv for innhold på flere språk. Vi forbedrer brukeropplevelsen ved å tilby tilpassbare stemmestiler for ulike språk. Vi har også integrert TTS-aliaser, som lar brukere definere tilpassede regler for hvordan bestemte ord eller uttrykk gjengis i lyd – for eksempel å erstatte bestemte termer for å oppnå mer nøyaktig uttale eller frasering. For å holde oss oppdatert på nevral stemmeteknologi, evaluerer og integrerer vi kontinuerlig de nyeste fremskrittene, samarbeider med bransjeledere og planlegger å utvikle proprietære modeller i fremtiden, slik at GSpeech forblir i forkant av innovasjon innen stemmesyntese.
Hvor viktig er stemmejustering, tonehøydekontroll og tilpasning av avspilling for brukerne dine – og hvilket bruksområde er du mest stolt av der disse funksjonene virkelig skinner?
Stemmejustering, tonehøydekontroll og tilpasning av avspilling er avgjørende for brukerne våre, slik at de kan lage unike stemmestiler av høy kvalitet, skreddersydd til deres spesifikke behov, fra nyheter og bloggnettsteder til tilgjengelig e-læringsinnhold. Den pågående integreringen av over 100 nye stemmevibber forbedrer dette ytterligere, og gir brukerne enestående fleksibilitet til å lage virkelig særegne voiceovers. Jeg er mest stolt av GSpeech Studio, en ny plattform for lydredigering og generering jeg utvikler. Den lar brukere lage flere lydkanaler, blande dem med bakgrunnsmusikk og eksportere polerte voiceovers, noe som gir skapere muligheten til å produsere lyd i profesjonell kvalitet for ulike bruksområder. Et brev fra en synshemmet student, der han takket GSpeech for å muliggjøre selvstudium gjennom tilpasset lyd, berørte meg dypt. Dette brukstilfellet viser hvordan disse funksjonene gjør innhold tilgjengelig og transformerende, et mål jeg har forfulgt siden mine tidlige programmeringsdager.
GSpeech tilbyr sømløse integrasjoner med WordPress, Shopify, Wix og mer. Hva har vært strategien din for å gjøre plattformen plug-and-play for skapere og bedrifter på tvers av ulike økosystemer?
Strategien vår for GSpeechs plug-and-play-integrasjoner med plattformer som WordPress, Shopify og Wix fokuserte på enkelhet, kompatibilitet og skalerbarhet. Vi utviklet lette, modulære plugins og kodebiter som integreres sømløst og krever minimal oppsett – ofte bare noen få klikk. Dette betyr at tusenvis av artikler og dynamiske innholdsblokker umiddelbart kan få talestøtte – uten manuell innsats. Vi tilbyr svært fleksible, vakkert designede avspillere som tilpasser seg på tvers av enheter, inkludert mobil, nettbrett og datamaskiner. Avspillerne våre er ikke bare tilpassbare, men også optimaliserte for tilgjengelighet og brukerengasjement. For WordPress innebygde vi GSpeech-skydashbordet direkte i administrasjonspanelet via plugin-modulen vår, noe som effektiviserer administrasjonen for brukere. Detaljert dokumentasjon og intuitive dashbord veileder ikke-tekniske brukere gjennom installasjon og tilpasning. Regelmessig testing sikrer jevn ytelse på tvers av ulike økosystemer, noe som gir utviklere og bedrifter muligheten til å legge til AI-drevet tekst-til-tale uten problemer.
Når du ser tilbake på reisen fra 2012 til i dag, hva har vært den største milepælen for deg personlig eller profesjonelt i å bygge GSpeech?
Den største milepælen for GSpeech var å generere 1 milliard tegn med AI-lyd av høy kvalitet, som viser vår globale innvirkning på tilgjengelighet. Like meningsfulle har vært tilbakemeldingene vi har mottatt fra organisasjoner som Humanity Union, som roste GSpeech for å forbedre sin plattform for samfunnsansvar, og fra bloggeiere som kalte det en «game-changer» for brukerengasjement. Over 110 femstjerners anmeldelser på tvers av plattformer som WordPress og Appsumo de siste månedene gjenspeiler denne økende tilliten.
GSpeech brukes nå også aktivt av Namangan regionale statistikkavdeling i Usbekistan – en offentlig institusjon med betydelig trafikk og synlighet på nasjonalt nivå. Det at et offentlig organ tar i bruk teknologien vår så bredt har vært en betydningsfull milepæl og et sterkt tegn på tillit til løsningen vår.
Som kristen og en som tjener i den armenske kirken, prøver jeg også å støtte andre trosbaserte initiativer når det er mulig. Jeg tilbyr ofte GSpeech gratis til kristne nettsteder som en måte å bidra til å spre budskapet deres mer effektivt og gjøre Skriften mer tilgjengelig gjennom lyd. Det er mitt lille bidrag til noe større. Samtidig er jeg beæret over å jobbe med dedikerte tjenester som The Cord — en messiansk menighet og verdsatt GSpeech-klient — hvis oppdrag og innhold gjenspeiler Skriftens kraft i praksis.
Disse øyeblikkene – når teknologi blir en bro for tro, forståelse og inkludering – minner meg om hvorfor vi bygde GSpeech i utgangspunktet.
Hvilken rolle ser du for deg at GSpeech vil spille i fremtiden for digitale medier, spesielt ettersom lydinnhold og talegrensesnitt blir mer dominerende?
Jeg ser for meg GSpeech som en leder innen å gjøre digitale medier mer tilgjengelige og engasjerende ved å muliggjøre AI-drevet taletilgang til nettet. Målet vårt er å transformere hele nettopplevelsen, slik at nettsteder blir naturlig stemmeinteraktive, inkluderende og flerspråklige som standard. Med bare én kodelinje kan nettstedseiere gjøre tusenvis av artikler om til taleinnhold. Fremover utvikler vi GSpeech Studio til en kraftig og unik plattform for lydgenerering og -redigering, som lar brukere lage flerlags taleinnhold med bakgrunnsmusikk, effekter og presis justering. Vi ønsker å gjøre nettet virkelig hørbart, intuitivt og universelt tilgjengelig.
GSpeech ble nylig lansert på AppSumo og har allerede fått en nesten perfekt vurdering fra tidlige brukere. Hva har responsen fra AppSumo-fellesskapet betydd for deg, og hvordan planlegger du å bygge videre på dette momentumet fremover?
AppSumo-lanseringen introduserte GSpeech for millioner, og den nesten perfekte vurderingen er utrolig bekreftende. Brukere, som de som holder nettkurs, roser våre intuitive verktøy og responsive støtte, noe som gjenspeiler tilbakemeldinger fra Humanity Union. En bloggeier kalte stemmene våre «ekte engasjerende» og oversettelsene «imponerende». Deres positive tilbakemeldinger bekrefter verdien av vår AI-drevne tekst-til-tale-løsning og gir næring til min lidenskap for prosjektet. Å støtte klienter under lanseringen ga også nye ideer, spesielt for GSpeech Studio, som ble inspirert av brukerforespørsler om avansert lydredigering og eksportfunksjoner. Fremover planlegger jeg å bygge videre på dette momentumet ved å aktivt lytte til fellesskapet vårt, integrere tilbakemeldingene deres og utvikle innovative funksjoner for å forbedre tilgjengelighet og engasjement, slik at GSpeech fortsetter å utvikle seg som et transformerende verktøy for skapere og bedrifter.
Til slutt, hvilke råd vil du gi til unge utviklere eller gründere som ønsker å bygge tilgjengelige, AI-drevne verktøy i dagens raskt utviklende teknologilandskap?
Til unge utviklere og gründere er mitt råd å legge hjertet i arbeidet og identifisere et reelt problem der du kan tilby en unik og smart løsning. Start i det små, ta jevne skritt fremover og lytt nøye til tilbakemeldinger fra kunder – de vil lede deg på veien. Behandle brukerne dine som betrodde venner, gi alt og vær tålmodig. Omfavn AI-teknologier som mektige allierte. Når de brukes klokt, forsterker de evnen din til å skape effektive og tilgjengelige verktøy. Bygg med lidenskap, utholdenhet og en forpliktelse til å gjøre en forskjell, og du vil skape løsninger som virkelig betyr noe.
Takk til Antoine Tardif for intervjuet. Du kan lese hele intervjuet her: unite.ai.