Dan Cristea, 69 de ani, s-a născut la Moinești, județul Bacău, și este unul dintre cei mai cunoscuți informaticieni români. Este, de asemenea, matematician, cercetător, profesor universitar, scriitor, formator și specialist în lingvistică computațională. A absolvit Facultatea de Automatică și Calculatoare din cadrul Universității Politehnice din București, secția Calculatoare, în 1975. În același an, Bill Gates și Paul Allen fondau o companie numită Microsoft și tot atunci era lansat primul microcomputer Altair 8800. Era grădinița pentru lumea IT cum o știm noi astăzi și o perioadă interesantă în formarea lui Dan Cristea, care, după ce și-a dat doctoratul în Calculatoare, și-a început cariera didactică la Iași, la Universitatea Alexandru Ioan Cuza.
„În acea perioadă, mă ocupăm de partea de hard, dar apoi am trecut pe zona de software, dezvoltare și creare de sisteme. Este o pasiune veche și ulterior, încet, încet, luând contact cu studenții, am fost acaparat de meseria de profesor”, spune profesorul azi.
În octombrie 2020 s-a pensionat de la Facultatea de Informatică, dar a rămas cercetător la Institutul de Informatică Teoretică din Iași. La capătul unei cariere pline, Dan Cristea crede că menirea școlii nu este să le umple capul elevilor cu informații, ci să îi învețe cum să învețe. „Școala m-a învățat cum să rezolv probleme, nu mi-a dat doar niște cunoștințe. Importantă a fost capacitatea de a conceptualiza și de a face conexiuni. Acest lucru trebuie să îl formeze școala”, punctează acesta.
Studenții la Informatică, certați cu limba română
Una din constatările amare ale academicianului este că mulți dintre studenții noilor generații nu stăpânesc noțiuni elementare de limba română.
„Vin din liceu cu niște lacune incredibile, iar când îi pui să scrie o lucrare de licență, fac greșeli. Mă întreb cum este totuși posibil așa ceva? Ca absolvent de liceu, după ce ai luat un bacalaureat, se mai admite să faci erori în scris? Mă întreb, din nou, cum am ajuns în halul ăsta?”, spune acesta.
În opinia sa, și informaticienii au contribuit la această situație, iar una dintre cauze ar fi îndepărtarea copiilor de tot ceea ce înseamnă citit și scris clasic. Atracția calculatorului și a telefonului inteligent este mult prea mare pentru majoritatea adolescenților din ziua de azi, spre deosebire de părinții lor, care, cu ani în urmă, erau atrași de cărți.
„De la limbă pleacă toate. Abilitatea de a rezolva probleme la matematică, de pildă. Dacă ești afon într-o anumită limbă, după mine, cu mare greutate ai să fii un bun matematician sau un bun informatician. Sigur că poți să învârți un cod de program acolo. Mulți cred acum că sunt informaticieni pentru că știu să programeze într-un anumit limbaj. Nu e deloc așa”, spune profesorul.
Cercetătorul crede că tinerii intră totuși prea repede în câmpul muncii, atrași de oportunitățile de azi, înainte de a fi formați complet.
„Tinerii noștri sunt acceptați în firme, chiar înainte de a termina o facultate. Dar, în acest mod, ei sunt rupți de școală brutal, înainte să se încheie procesul de formare intelectuală a lor, sunt extrași, că să zic așa, din universitate, își întrerup studiile, că să se ducă să lucreze într-o firmă, iar ăsta este un lucru foarte rău”.
Dicționarul digital al limbii române, unul dintre cele mai mari din lume
CV-ul său este unul extrem de bogat, dar unul din proiectele sale de suflet a fost digitalizarea Dicționarului Tezaur al Limbii Române. Vorbim de un dicționar pe care Academia Română l-a realizat în decurs de mai mult de un secol de activitate și care, în cele 36 de tomuri tipărite inițial în format clasic, coli A4 pe două coloane, dacă le pui unele peste altele, aduni un metru de cărți.
Facultatea de Informatică din Iași a coordonat proiectul de transpunere a marelui dicționar în format digital, lucrând împreună cu alte facultăți și institute din țară.
Timp de trei ani, cât a durat proiectul, au fost implicați atât informaticieni, cât și lexicografi.
„Crearea dicționarului în sine a fost o muncă colosală. E unul dintre cele mai mari dicționare din lume. Trebuia să ajungem la un format care să-ți permită să faci interogări inteligente, să poți corela cuvântul titlu cu informațiile adiacente lui, să pui întrebări foarte complicate, adresând zona etimologiei cuvântului, a sensurilor cuvântului, a exemplelor care ilustrau sensurile ș.a.m.d.”, explică profesorul.
Sute de studenți au muncit ca voluntari
Pentru că a presupus o muncă titanică, în procesul de digitalizare au fost angrenați și foarte mulți voluntari, în bună parte studenți de la facultățile de litere din țară. Aceștia au corectat erorile lăsate de programul de transcriere a paginilor pozate. Au împărțit totul pe bucăți și cu ajutorul unui soft, fiecare corector avea acces doar la o mică parte din aceasta, peste care își dădeau apoi girul cercetătorii Academiei Române.
„Nu puteai niciodată să pui cap la cap nimic. Doar programul le reasambla ca într-un joc de puzzle, le punea din nou împreună. Era o precauție necesară pentru a împiedica scurgerea de date în cazul în care vreun editor voluntar ar fi vrut să păstreze părți din dicționar”, explică Dan Cristea.
În final, s-a obținut o bază de date structurată și o interfață de acces, care permitea adresarea de interogări online. Academia Română, creatoarea marelui dicționar, nu a dorit însă că acesta să poată fi accesat de publicul larg. Pentru o perioadă, la dicționarul electronic au avut acces doar cercetătorii, ulterior baza de date creată fiind preluată pentru dezvoltările permanente ale dicționarului și care în prezent se fac numai cu instrumente informatice.
„Ambiția noastră a fost să punem online și sursele din care s-au cules citatele care oglindesc sensurile cuvintelor și, ca să facem lucrul acesta, am scanat tot ce am găsit din acele 4.000 de surse”, spune profesorul.
Nu a fost deloc ușor să acceseze aceste surse, pentru că procedura era serios limitată de două legi. Legea drepturilor de autor protejează orice publicație mai nouă de 70 de ani, iar legea patrimoniului național nu permite să scanezi niciun document care are o vechime mai mare de 130 de ani.
Un accident nefericit a făcut ca zeci de mii de pagini scanate să se piardă și nu au mai putut fi recuperate nici până astăzi. „Am cărat cu mașina practic toată biblioteca de la Institutul Philippide la centrul de multiplicare din Copou, iar acolo ei le scanau. Este totuși o istorie tristă, pentru că tot acest imens volum de date a fost pierdut… Baza de date a dicționarului nu s-a pierdut, dar s-au pierdut sursele, deci de unde proveneau toate acele citate”, își amintește Dan Cristea.
Tezaur lexical în format electronic
O altă inițiativă a profesorului Cristea a vizat construirea wordnet-ului românesc (rețea de cuvinte), un tezaur lexical creat după un concept inventat de George Miller, un lingvist american de la Universitatea din Princeton. „Este o colecție de grupuri sinonimice, adică cuvinte care au cam același înțeles în anumite contexte și care, atunci când e vorba de substantive și de verbe, pot fi puse într-o ierarhie de la general la particular. Nu poți face asta cu adjectivele și cu adverbele”, explică profesorul.
În momentul de față, există foarte multe wordnet-uri în lume, specifice unora dintre miile de limbi care se vorbesc pe planeta noastră, ele fiind extrem de utile în aplicațiile de prelucrare a limbajului.
A pus bazele școlii românești de lingvistică computațională
Cercetătorul este inițiatorul secției de masterat în Lingvistică Computațională din cadrul Facultății de Informatică a Universității Alexandru Ioan Cuza din Iași. Sintagma lingvistică computațională pare pompoasă și academică la prima vedere, dar în realitate lucrurile nu sunt atât de complicate, ne asigură profesorul. „Atinge, desigur, zona lingvisticii și, pentru că este și «computațională», zona informaticii. Dacă pui alături cele două cuvinte, avem știința de a prelucra textele sau limbajul cu ajutorul calculatorului”, explică profesorul.
Este unul dintre informaticienii care au contribuit la formarea comunității românești de lingvistică computațională, fiind și fondatorul NLP-Group ce cuprinde zece cercetători și mereu alți studenți, masteranzi și doctoranzi.
Cum să vorbești cu calculatorul
Profesorul Dan Cristea a înființat un masterat de lingvistică computațională în 2001, la Facultatea de Informatică din Iași, primul proiect de acest gen din România. A primit în cadrul școlii și absolvenți ai facultății de litere.
„Nu este necesară neapărat o pregătire informatică de specialitate, noi le dăm strictul necesar, pentru că în meseria asta de lingvist informatician sau de inginer al limbilor, e nevoie și de competențe lingvistice, în egală măsură cu cele de informatică”, spune Dan Cristea. A lucrat la acest proiect timp de câteva decenii, de la începutul anilor 80, alături de un alt academician, Dan Tufiș, cu care a dezvoltat un sistem de întrebare-răspuns, cum se numește în limbaj de specialitate.
„Îi puneai întrebări calculatorului și el îți răspundea, pe un domeniu al discursului care era bine conturat. Nu puteai să vorbești despre orice, cum îți permit unele chat-bot-uri din ziua de astăzi. Vorbeai pe un domeniu bine delimitat, despre care calculatorul avea cunoștințe, care, structurate fiind într-un anumit mod, făceau posibilă abordarea întrebărilor și răspunsul coerent la acestea”, detaliază profesorul. Lucrau practic la ceea ce ar putea fi numită bunica aplicațiilor Alexa și Siri de astăzi.
Cum să refaci evoluția unei limbi de la origini până în prezent
Se spune despre o limbă că niciodată nu stă locului, mereu se transformă. Profesorul ieșean a dorit să meargă pe urmele acestui proces și să refacă evoluția unei limbi de la începuturi până în prezent. „Am vrut să arătăm că limbajul poate să apară spontan, prin interacțiuni în grupuri de oameni. Este o teorie, Luc Steels îl cheamă pe profesorul care a dezvoltat-o, conform căreia într-o comunitate umană, limbajul apare spontan, prin interacțiuni, iar aceste interacțiuni pot fi copiate pe mașină”, spune Dan Cristea.
Creierul uman a învățat să facă acest lucru pe parcursul evoluției limbilor, în timp ce profesorul român și echipa sa au reprodus această abilitate pe mașina gânditoare numită calculator, ajutat de transpunerea lui corporală, robotul. A fost dorința de a demonstra că orice limbaj poate apărea spontan, în urmă interacțiunii dintre indivizii unei comunități.
În 2009, profesorul a debutat și în beletristică și a luat premiul de debut al Editurii Cartea Românească, pentru romanul de ficțiune „Scaune de pluș”. În prezent, își dedică timpul liber noului său roman.
Vezi rezultatele alegerilor prezidențiale – turul 1 și află când este turul al doilea al votului pentru președinție!
Ați sesizat o eroare într-un articol din Libertatea? Ne puteți scrie pe adresa de email eroare@libertatea.ro