Ce Se întâmplă în Spatele Unui Agregator De știri: Algoritmi, AI și Provocări Tehnice

Cuprins:

Cum ajung știrile de la sute de site-uri într-un singur loc

RSS — tehnologia veche care încă funcționează

Majoritatea publicațiilor mari oferă feed-uri RSS pe categorii. Un agregator de stiri se abonează și primește articole noi la fiecare 15-60 de minute. E o tehnologie din anii 2000 care refuză să moară — pentru că funcționează bine și e simplă. Nu toate site-urile mai au RSS activ, dar suficiente cât să fie util.

API-uri specializate

Alternativa modernă sunt API-urile de presă precum NewsAPI.ai sau GDELT. Diferența față de RSS: vin cu metadate deja procesate — entități menționate, sentiment, categorie, limbă, locație. E ca diferența între a primi o cutie de piese Lego și a primi piese deja sortate pe culori. Economisesc enorm de multă muncă de procesare ulterioară.

Ce se întâmplă în spatele unui agregator de știri: algoritmi, AI și provocări tehnice

Problema deduplicării

Aici devine interesant. Același eveniment apare pe 50 de site-uri, fiecare cu alt titlu și altă formulare. „Primarul reținut de DNA”, „DNA l-a ridicat pe edilul din Cluj”, „Percheziții la primărie” — toate vorbesc despre același lucru. Agregatorul trebuie să le grupeze automat.

Tehnicile folosite: embedding-uri semantice (transformi textul în vectori numerici și compari similaritatea), Named Entity Recognition (dacă două articole menționează aceleași persoane și locuri, probabil e același eveniment), și temporal clustering, articolele apărute în aceeași fereastră de timp despre aceleași entități sunt grupate împreună.

De la articol brut la rezumat util

Un agregator care doar listează titluri și linkuri nu oferă mare lucru. Valoarea reală vine din procesare, extragerea de fapte cheie, cifre, citate și entități din fiecare articol.

Rezumatele generate de modele de limbaj

GPT, Claude, Gemini — toate pot lua 30 de articole despre același eveniment și produce un rezumat care surprinde mai multe perspective decât oricare articol individual. E genuinely impresionant când funcționează bine. Problema: halucinațiile. Modelul poate adăuga detalii care nu există în surse, sau poate interpreta greșit o informație ambiguă. De aceea, cele mai serioase implementări adaugă un prompt explicit: „scrie DOAR ce apare în sursele furnizate, nu inventa nimic”.

Analiza sentimentului

Unele agregatoare clasifică știrile pe o scală de sentiment. Nu e despre „bun sau rău” în sens moral — ci despre tonul acoperirii mediatice. Dacă 80% din articolele despre o decizie guvernamentală sunt negative, asta îți spune ceva. Citind un singur articol, nu ai perspective asta.

Clusterizarea: cum 500 de articole devin 25 de teme

O știre individuală e „Premierul a declarat X”. Un topic e ansamblul: „Criza prețurilor la combustibil” — care include declarația premierului, reacția opoziției, protestele, cifrele de la statistică, tot. Fără clusterizare, ai o listă interminabilă. Cu ea, ai 25 de teme pe care le parcurgi în 5 minute.

Algoritmii clasici (K-means, DBSCAN) funcționează pe similaritate textuală. Dar abordările mai noi merg pe concept-based clustering — nu caută cuvinte similare, ci relații între entități. „Prețul benzinei” și „taxa pe carburanți” sunt conceptual legate, chiar dacă nu au cuvinte comune.

Ce apare primul: rankarea știrilor

Aici e decizia cea mai importantă. Cine decide ce vezi tu primul?

Varianta editorială: un om decide. Subiectiv, dar cu raționament. Varianta majorității site-urilor de presă.

Varianta algoritmică obiectivă: câte surse independente acoperă subiectul. 200 de surse = important. 3 surse = probabil minor. Nu decide nimeni subiectiv — datele decid. E abordarea pe care o folosesc agregatoarele mai serioase.

Peste asta se aplică time-decay (știrile recente primează) și boost-uri geografice (un agregator românesc prioritizează știrile din România, altfel Trump domină totul, permanent).

Provocări specifice limbii române

Aici e unde lucrurile se complică serios.

Entitățile românești sunt greu de procesat

Modelele de NER antrenate pe engleză se chinuie cu nume românești. „Ilie Bolojan” poate fi interpretat ca două cuvinte separate. „Botoșani” cu ș și „Botosani” fără sunt același oraș, dar un algoritm nativ englez nu știe asta. Nici măcar „Țară” și „Tara” nu sunt recunoscute mereu ca identice.

Gramatica românească e un câmp minat pentru AI

Un rezumat care scrie „73 percheziții” în loc de „73 de percheziții” pierde credibilitate instant. La fel „unei gripă” în loc de „unei gripe”. Regulile de declinare, acordurile de gen și număr, prepoziția „de” după numerale — sunt capcane constante. Unele platforme adaugă un al doilea pas de procesare: un model verifică și corectează gramatica output-ului primului model. E brut ca soluție, dar funcționează.

Relația complicată cu presa tradițională

Editorii de presă au sentimente amestecate față de agregatoare. Pe de o parte, „ne fură traficul”. Pe de altă parte, „ne aduc cititori pe care altfel nu i-am fi avut”. Adevărul e undeva la mijloc, și depinde mult de cum e construit agregatorul.

Unul care copiază integralul articolului e parazitar. Unul care afișează un rezumat de 3 propoziții și trimite cititorul pe site-ul original prin link direct e simbotic — cititorul descoperă publicații pe care nu le-ar fi verificat niciodată pe cont propriu. E o relație care funcționează doar dacă agregatorul respectă drepturile editoriale și adaugă valoare reală prin organizare, nu prin copiere.

Foto: q24.ro

Abonați-vă la ȘTIRILE ZILEI pentru a fi la curent cu cele mai noi informații.

ABONEAZĂ-TE