From Data to Tools. Theoretical and Applied Problems in the Compilation of LISSICS (The Lexicon of Written Italian in a School Context in Italian Switzerland)

  • Luca Cignetti SUPSI Locarno
  • Silvia Demartini SUPSI Locarno

Abstract

In this paper we introduce the project TIscrivo (and TIscrivo2.0), providing an overview of its main features and focusing particularly on the preparation of LISSICS (Dictionary of Italian Language Written in Italian Switzerland at School): a resource designed to be useful both to scholars and to teachers. The ongoing process of lemmatisation and PoS tagging is facing many challenges, especially in managing orthographic errors. Also, we will illustrate some of the most relevant orthographic mistakes in the corpus, composed of texts written by primary and junior high school students.

References

Barbagli, A., Lucisano, P., Dell’Orletta, F., Montemagni, S., Venturi, G. (2015), CItA: un Corpus di Produzioni Scritte di Apprendenti l’Italiano L1. Annotato con Errori, in Bosco, C., Tonelli, S., Zanzotto, F.S. (a c. di), Proceedings of the Second Italian Conference on Computational Linguistics, CLiC-it 2015, Torino, Accademia University Press, pp. 31-35.

Cignetti, L. (2016), Tipologie e frequenza degli errori di ortografia nella scrittura degli apprendenti, in Cignetti, L., Demartini, S. e Fornara, S. (a c. di) (2016), Come TIscrivo? La scrittura a scuola tra teoria e didattica, Roma, Aracne, pp. 19-36.

Cignetti, L., Demartini, S. (2016), L’ortografia, Roma, Carocci.

Cignetti, L., Demartini, S., Fornara, S. (2016) (a c. di), Come TIscrivo? La scrittura a scuola tra teoria e didattica, Roma, Aracne.

Cignetti L., Demartini S., Fornara S. (in corso di stampa), Il lessico di TIscrivo. Caratterizzazione del vocabolario e osservazioni in prospettiva didattica, in Atti del Workshop SLI-Giscel svoltosi durante il XLVII Congresso Internazionale SLI 2013, “Sviluppo della competenza lessicale. Acquisizione, apprendimento, insegnamento”, Salerno, 27 settembre 2013.

Demartini S. (in corso di stampa), La grammatica nei testi scritti a scuola. Rilievi dall’analisi del corpus TIscrivo, in Benedetti M., Bruno C., Dardano P., Tronci L., (a c. di) Grammatiche e grammatici: teorie, testi e contesti, Atti del XXXIX Convegno della Società Italiana di Glottologia, Roma, pp. 197-202.

De Mauro, T., Mancini, F., Vedovelli, M. & Voghera, M. (1993), LIP. Lessico di frequenza dell’italiano parlato. Milano, Etaslibri.

Fornara S., Cignetti L., Demartini S., Guaita M., Moretti A. (2015), Costruzione del testo e punteggiatura tra norma, uso e didattica negli elaborati del corpus Tiscrivo, in “Bulletin Suisse de Linguistique Appliquée”, Actes du colloque VALS-ASLA 2014 (Lugano, 12-14 février 2014), No spécial 2015, t. 1, pp. 71-94.

Lancia, F. (2004), Strumenti per l’analisi dei testi. Introduzione all’uso di T-LAB, Milano, FrancoAngeli.

Naldi, M. (2014), Traduzione automatica e traduzione assistita, Bologna, Esculapio.

Pandolfi, E.M. (2009), LIPSI. Lessico di frequenza dell’italiano parlato nella Svizzera italiana, Bellinzona, Osservatorio Linguistico della Svizzera Italiana.

Marconi L., Ott M., Pesenti E. (1994), Lessico elementare. Dati statistici sull’italiano scritto e letto dai bambini delle elementari, Bologna, Zanichelli.

Schmid, H. (1994), Probabilistic Part-of-Speech Tagging Using Decision Trees, in Proceedings of International Conference on New Methods in Language Processing, Manchester, UK (http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger1.pdf).

Spina, S. (2014), Il Perugia Corpus: una risorsa di riferimento per l’italiano. Composizione, annotazione e valutazione, in Basili, R., Lenci, A., Magnini B. (a c. di), Proceedings of the First Italian Conference on Computational Linguistics, CLiC-it 2014, Pisa, Pisa University Press, pp. 354-359.

Published
2016-12-30
How to Cite
Cignetti, L., & Demartini, S. (2016). From Data to Tools. Theoretical and Applied Problems in the Compilation of LISSICS (The Lexicon of Written Italian in a School Context in Italian Switzerland). RiCOGNIZIONI. Rivista Di Lingue E Letterature Straniere E Culture Moderne, 3(6), 35-49. https://doi.org/10.13135/2384-8987/1831
Section
CrOCEVIA