ISST-TANL Corpus
Istituto
Istituto di linguistica computazionale "Antonio Zampolli" (ILC)
Referente
Simonetta Montemagni
E-mail: simonetta.montemagni@ilc.cnr.it
Descrizione
Il ISST-TANL Corpus (sviluppato nell'ambito del progetto finanziato dalla Fondazione Cassa di Risparmio di Pisa "Analisi di testi per il Semantic Web e il Question Answering") rappresenta un sottoinsieme della Treebank di SI-TAL (ISST) appartenente alla partizione "bilanciata" (ovvero rappresentativa di diversi generi testuali). In particolare, sono state selezionate le porzioni corrispondenti al "Corriere della Sera" e ai "Periodici", per un totale di 79.654 parole (tokens) distribuiti in 4.162 frasi. L'annotazione morfo-sintattica e sintattica a dipendenze originaria è stata convertita in modo semi-automatico per renderla conforme allo schema di annotazione TANL per il livello morfo-sintattico (http://medialab.di.unipi.it/wiki/POS_Tagset) e sintattico a dipendenze (http://medialab.di.unipi.it/wiki/Dependency_Tagset).
Modalità di accesso
In sede locale
Tipologia di dati
Materiali testuali con annotazione linguistica multi-livello
Tipo database
Solo testo secondo il formato di rappresentazione