Corriere.it e lemmatizzazioni automatiche. Una nota.
luglio 17, 2010 in Senza categoria
Mi sono appena accorto casualmente che, su corriere.it, cliccando sulle parole degli artico appare un fumetto che permettere di accedere alle voci dei dizionari messi a disposizione dal sito.
L’affidabilità del lemmatizzatore, sicuramente automatico, mi pare discreta ma non eccellente. Ovviamente il POS tagging è inesistente perché i lemmi ai quali vengono ricondotte le forme includono più categorie grammaticali (es. forte è indicato come agg., avv., s.).
E nei casi ambigui il sistema visualizza una voce di default suggerendo le rimanenti (“forse cercavi … ?”).
Per esempio:
Grillo chiude la porta a De Magistris «Passi politici? Se li …
Fini: “Il web porta la pace, merita il Nobel”
Oppure, “ora” è s.f. anche quando dovrebbe essere avv.
Ho cercato di indagare sul funzionamento; purtroppo, come era facile immaginare, il lavoro di lemmatizzazione viene effettuato server-side (l’unica parte client-side è uno script che permette il passaggio della selezione all’url: http://dizionari.corriere.it/ScopriTraduci/includes/dizionari.js).






Passeggiando per Parigi, nel 13° arrondissement, imboccando Avenue de Steven Pinchon, nessuno direbbe che dietro quel muro in mattoncini grezzi si nasconda la redazione di Le Monde Diplomatique. Nessuna insegna gigantesca, come quella del “fratello maggiore” Le Monde, appena un chilometro più in là.
