Alex a învățat despre aromână la școală. După ce a auzit o prietenă de-ale mamei sale vorbind în aromână la telefon, a început să caute și mai multe despre această limbă, descoperind și altele în pericol de dispariție, din cauza lipsei măsurilor de conservare.

Elev în clasa a XII-a la Colegiul Național de Informatică Tudor Vianu din București și pasionat și de NLP (n.r. – „natural language processing”), adică procesarea limbajului natural prin metode computaționale, s-a întrebat ce ar putea face pentru a sprijini procesul de conservare a limbii aromâne.

Conform istoricilor, aromânii erau împrăștiați prin Balcani încă din Evul Mediu. În România, sunt denumiți popular și români macedoneni, macedo-români sau macedono-vlahi. Numărul membrilor comunității este dificil de stabilit, din cauza căsătoriilor mixte și a folosirii rare a acestei limbi.

Alex a început să lucreze la traducător în ianuarie 2024 și l-a terminat în septembrie, așa că am stat de vorbă cu el, ca să înțelegem cum a decurs procesul și cum a reușit un elev de 17 ani să construiască un astfel de produs.

Libertatea: Povestește-mi puțin despre cum te-ai hotărât să creezi traducătorul și ce te-a motivat să pornești proiectul?

Alex Jerpelea: A început prin faptul că eu deja știam de aromână de la școală, dar nu știam că e în pericol de dispariție, că sunt foarte puține resurse digitale. În același timp eram și pasionat de domeniul care se numește „Natural Language Processing”, pe scurt NLP. Practic, orice fel de procesare a limbajului natural, uman, prin metode computaționale.

Și apoi, am auzit, într-adevăr, conversația mamei la telefon și mi-a făcut dintr-odată „clic”, fiindcă fix atunci când studiam eu despre acest NLP, văzusem că există niște inițiative de-astea și în America pentru limba cherokee, care, iarăși, este într-o situație mult mai dificilă, dar acolo se și iau alte măsuri de conservare.

Screenshot de pe AroTranslate

N-avea cum să-mi vină o asemenea idee dacă nu mai studiasem chestii similare și nu eram la curent cu subiectul. Nu mi-a venit instant, mi-a venit aflând ulterior acasă despre situația aromânilor, lucru care m-a îndemnat să studiez. Cred că mulți români au cunoscuți aromâni.

– Părinții tăi cum au reacționat la inițiativa asta? Mai ales că ai și dus-o la bun sfârșit cu un așa rezultat.

– Sunt mândri și mă bucur că m-au susținut, nu mi-au zis să mă las, că ar fi o prostie sau ceva.

– Care a fost primul pas în dezvoltarea traducătorului?

– Primul pas pentru a face un proiect de „machine translation” (n.r. – traducere automată) este să ai un set de date cu propoziții care să fie paralel traduse în ambele limbi între care vrei să faci un sistem de tradus. Iar acestea nu existau.

E mai important decât inteligența artificială, decât orice tehnologii am folosit, care sunt oarecum standard, căci nu e spațiu foarte mare de creativitate.

De-abia prin luna mai a apărut o publicație care a făcut așa ceva, când eu eram la mijlocul proiectului, cu vreo 3.000 de astfel de propoziții, ceea ce este foarte puțin. Deci primul pas a fost colectarea datelor.

Poți să fii foarte flexibil când cauți date. Eu, evident, sprijinit, am colectat tot felul de texte. De exemplu, sunt cărți de poezii consacrate comunității de aromâni, care sunt traduse bilingual, adică pe partea stângă a paginii ai în aromână și pe partea dreaptă în română. O tehnică pe care o poți aplica este să extragi texturi din imagine, să-ți dai seama cărui vers în aromână îi corespunde versul în română, să le împerechezi. Ăsta e un exemplu mai simplu.

Mai avem cărți de proză sau articole jurnalistice, există presă în aromână. Dar cum îți dai seama dacă două titluri sunt similare, unul aromân și român? Păi, cu alte date pe care le-am strâns, am antrenat alte modele care să-și dea seama de similaritatea semantică a două propoziții.

Cu aceeași tehnologie, apoi, când ai două articole, nu poți să îți spargi o propoziție și să zici că prima e cu prima, a doua cu a doua. Că de multe ori traducerile se fac mai liber și traducătorul poate să aleagă să mai spargă o propoziție, să mai unească, să omită ceva.

Și aici iarăși am aplicat tehnicii de NLP, folosind tot niște modele care transformă propoziții în vectori numerici, care reprezintă semnificația semantică, într-un mod oarecum ascuns. Și apoi, se compară propoziție cu propoziție. Pe scurt, am dezvoltat și unelte de aliniere a două articole, să zic așa, în cele două limbi.

De asemenea, eu nu pot să dau la traducător doar texte din Biblie, fiindcă toate traducerile apoi vor arăta ca o prelegere bisericească. Trebuie cumva să diversifici, să știi cum să faci încât să prinzi erori.

– Ce a urmat după?

– Pasul ăsta a durat destul de mult. Textele sunt rare, sunt cărți pe care le găsești greu, scanate prost, așa că aici ne-a ajutat Comunitatea Aromânilor din România.

Și ziceam mai devreme că a făcut cineva un asemenea corpus deja prin mai, și anume domnul Sergiu Nisioi, profesor asociat la Universitatea București, din cadrul Centrului de Cercetare a Tehnologiilor de Limbaj Uman.

L-am contactat să colaborăm. Am văzut că și el a început ceva asemănător și mi s-a părut interesant. Dar asta deja când era mai avansat, căci el a făcut asta în mai, dar eu am descoperit prin iulie, când aveam deja un traducător și niște texte.

După colectarea datelor, urmează experimentele cu tot felul de modele din industrie care deja au cunoștințe lingvistice, ca să zic așa, ca să putem exploata cum înțelege un model de inteligență artificială limbajul uman și să beneficieze astfel de „transfer learning” (n.r. – învățare prin transfer).

Am experimentat cu modele pe care le antrenăm în continuare, față de ce ne-au dat nouă, autorilor inițiali, pentru a încorpora și aromâna. Am și extins la limba engleză, deși noi aveam doar perechi, aromână-română, le-am tradus artificial și din română în engleză. Și acum aveam, practic, perechi de câte trei și puteam să înaintăm în toate cele șase direcții dintre cele trei limbi.

Google și ChatGPT și-ar putea îmbunătăți traducerea în aromână

– Înțeleg că primul pas a fost, de fapt, și cel mai dificil, să aduni texte și propoziții.

– Cred că da, să fiu sincer. Pentru a doua parte, există mulți experți care o puteau face, inclusiv Google, însă n-a făcut asta până acum pentru că nu existau date pe așa ceva. Acum, că o să ne publicăm corpusul, este foarte posibil chiar ca Google sau o altă platformă să găsească și să „prindă” informațiile cu ajutorul „crawl”-erelor. Mai e posibil ca alte „language models”, cum ar veni ChatGPT, să scaneze text – poate să găsească textul nostru – și să-l prindă.

Și atunci o să vedem, poate la ChatGPT, capabilități mai sporite de a traduce aromâna. Noi am testat inclusiv asta în studiul nostru și am ajuns la concluzia că există ceva acolo. ChatGPT clar folosește noțiuni de bază de a traduce aromână, doar că mult mai slabe decât ce am făcut noi, din câte am experimentat cu metrici și chestii standard.

– Ce alte cunoștințe trebuie să ai ca să poți dezvolta un astfel de produs și ce ai învățat pe parcurs?

– Am căpătat foarte multe cunoștințe. Dacă m-aș apuca astăzi de acest proiect, ar fi ceva mai rapid. M-a ajutat backgroundul de olimpiade de informatică, dar și toată gândirea asta algoritmică te ajută în a aborda astfel de probleme.

Apoi trebuie să înveți foarte multe lucruri de inteligență artificială. Trebuie să înțelegi cum funcționează aceste modele de limbaj care au luat acum lumea prin surprindere, să zic așa. Să înțelegi foarte multe chestii de statistică și de date.

Apoi, ca să antrenăm modelele astea, așa ceva nu prea se face pe calculatorul personal, fiindcă sunt niște chestii destul de grele, trebuie să știi cum să operezi cu un server remote pentru antrenare pe plăci video puternice, care de obicei vin contra cost, dar aici am fost iar ajutați de domnul Sergiu Nisioi și institutul din spate.

Apoi, am învățat foarte mult despre aromână, evident. Printre provocările principale intervine faptul că aromâna nu este absolut deloc standardizată și că fiecare vorbitor este cumva influențat de limba maternă a lui.

Adică un român din Grecia va vorbi mai grecizat, pe când un român din România va vorbi mai românizat. Ei au și niște subdialecte ale lor. Și aici apar diferențe. Noi am încercat să studiem cum apar dialectele astea, inclusiv în traducerile noastre. Nu prea am ajuns la o concluzie, din păcate.

Apoi mai este grafia (n.r. – caracterul executării literelor în scris) în care se scria aromâna, căci nu este standardizată din punctul ăsta de vedere. Grecii o scriu cu litere grecești, cei din România o scriu cum se scrie și româna.

Mulți alții o scriu cu o ortografie numită cunia, care folosește doar alfabetul englez. A trebuit să ne dăm seama cum facem conversia între grafiile astea, fiindcă de multe ori este ambiguă. Adică știu că pe litera „s” o fac „sh”, dar „a” cu tilda deasupra o fac „ă” sau „â”? Acolo se pierde o informație lingvistică.

Nu există măsuri care să combată scăderea numărului de vorbitori de aromână

– După ce ai dat drumul traducătorului, ai primit feedback și din partea comunității de aromâni de la noi, din străinătate?

– Da, clar! Am fost bombardați de comunitate cu mesaje și suntem fericiți că am produs un așa entuziasm. Aromânii sunt foarte pasionați de limba și cultura lor și noi ne bucurăm că, prin asta, am putut să mai aducem niște atenție în jurul aromânei. Este studiat faptul că numărul de vorbitori scade dramatic, dar puține măsuri sunt luate. Cel mai mult lucrează ONG-urile, dar și ele fac cât pot.

Am primit mii de felicitări, iar mulți credeau că sunt aromân. Am fost contactați de foarte mulți oameni care vor să ne ajute și suntem foarte recunoscători pentru asta.

Programul, antrenat să traducă propoziții, nu cuvinte

– Din ce am înțeles, traducătorul are totuși niște limite.

– Da. Noi participăm și la o conferință academică, la „Competitional Linguistics Arena Abu Dhabi”, pentru care am pregătit și un corpus, validat nu doar automat, ci și de trei evaluatori umani, pe care i-am pus să adnoteze cu o metodologie destul de standard în industria asta de machine translation.

Concluziile au fost că funcționează mai bine când se traduce spre o limbă, deci suntem mai bogate, adică e mai ok traducerea din aromână în română sau în engleză decât invers.

O altă concluzie este că nu prea se pot traduce cuvinte. Adică nu recomandăm ca oamenii să folosească traducătorul nostru ca un dicționar, pentru că el a fost antrenat să traducă propoziții.

La propozițiile mai complexe, mai lungi, sau care conțin neologisme, tendința este ori de românizare a textului, ori apar aberații. Aberațiile nu sunt excluse, sunt o problemă specifică, ele se mai numesc și „hallucinations”. Traducătorul e o unealtă și poate să aibă o influență la cum se dezvoltă limba, iar noi nu vrem ca aromâna să se românizeze din cauza noastră. Am menționat asta și pe site.

Notă: Am folosit termenul de „limbă” aromână și nu „dialect” deoarece în materialul de față nu disputăm statutul de limbă sau dialect (aromânii susținând statutul de limbă), ci punem accent pe faptul că există o nouă unealtă care ajută la conservarea aromânei.

