Banca dati

ISST-TANL Corpus

Istituto

Istituto di linguistica computazionale "Antonio Zampolli" (ILC)

Referente

Simonetta Montemagni
E-mail: simonetta.montemagni@ilc.cnr.it

Descrizione

Il ISST-TANL Corpus (sviluppato nell'ambito del progetto finanziato dalla Fondazione Cassa di Risparmio di Pisa "Analisi di testi per il Semantic Web e il Question Answering") rappresenta un sottoinsieme della Treebank di SI-TAL (ISST) appartenente alla partizione "bilanciata" (ovvero rappresentativa di diversi generi testuali). In particolare, sono state selezionate le porzioni corrispondenti al "Corriere della Sera" e ai "Periodici", per un totale di 79.654 parole (tokens) distribuiti in 4.162 frasi. L'annotazione morfo-sintattica e sintattica a dipendenze originaria è stata convertita in modo semi-automatico per renderla conforme allo schema di annotazione TANL per il livello morfo-sintattico (http://medialab.di.unipi.it/wiki/POS_Tagset) e sintattico a dipendenze (http://medialab.di.unipi.it/wiki/Dependency_Tagset).

Modalità di accesso

In sede locale

Tipologia di dati

Materiali testuali con annotazione linguistica multi-livello

Tipo database

Solo testo secondo il formato di rappresentazione