JUEVES 16 DICIEMBRE
09.00. Inauguración del congreso
10.00. Daniel Torres Salinas y Sara Mariottini (Universidad de Granada). Una introducción al Big Data
10.45. Ana Gallego Cuiñas (Universidad de Granada). La literatura vista desde el Big Data y la Inteligencia Artificial: conceptos clave y desafíos críticos.
Pausa cafe
12.00. Azucena González Blanco (Universidad de Granada). Epistemología y Big Data: De los grandes relatos a los grandes datos.
En mi trabajo, me propongo analizar, por una parte, estas derivas del poder disciplinario que hacen posible un panoptismo más eficaz, desvinculado de los espacios tradicionalmente disciplinarios como el lugar de trabajo, el hospital, el colegio, la prisión, etc. hasta llegar a lo que, cada vez menos, se ha denominado el espacio de la “vida privada”. Por otra parte, analizaremos qué transformación epistemológica supone este tipo de conocimiento en la sociedad del siglo XXI, para lo que definiremos el cambio de episteme “de los grandes relatos a los grandes datos”, en relación a lo que Byung-Chul Han ha llamado “dataísmo”. Y, por último, consideraremos cómo este sistema relacional del conocimiento puede ser, al mismo, una “máquina de resistencia” (Deleuze/Foucault) a partir de modelos literarios y artísticos.
12.45. José Antonio Pérez Tapias (Universidad de Granada). ¿Es posible un ‘humanismo otro’ desde los pliegues de los Big Data?
Almuerzo
16.30. Miguel Calderón (Universidad de Granada). Linguistic corpora. “Big selected data” for the Spanish language.
Hablar de Big Data en lingüística es tratar inevitablemente de tipos y de tamaños de corpus. Un corpus lingüístico es una colección de textos almacenados en formato electrónico, que resulta representativa de la variedad lingüística que se pretende estudiar científicamente (Rojo 2021, 1). Cualquier usuario tiene actualmente a su disposición tres tipos de corpus: de referencia, especializados y masivos (Rojo 2021, 71-88), a los que se puede añadir el uso de la web y de las redes sociales como corpus casi infinito. Los corpus propiamente dichos cuentan con cierto grado de codificación y de selección documental previos y con una herramienta asociada que permite la búsqueda de palabras en contexto, además de la obtención de frecuencias de uso y de coaparición. El título de una conferencia de Sergio Jiménez («Lo que nos cuentan las palabras cuando las contamos») resume muy bien lo que se hace cuando se consulta un corpus: contar palabras para desvelar patrones de comportamiento.
En este trabajo se analizarán las ventajas e inconvenientes de la consulta de distintos tipos de corpus y se mostrará la importancia de seleccionar la documentación y de codificar adecuadamente los corpus para recuperar más y mejores datos de investigación. Como ejemplo de corpus de referencia, se tomará el Corpus del Nuevo Diccionario Distórico del Español (CDH); como corpus especializados, se analizarán Post Scriptum (Vaamonde 2018) y Oralia diacrónica del español (ODE, Calderón Campos/Vaamonde 2020). Por último se explotarán las posibilidades de un corpus masivo como EsTenTen18, de casi 18 000 millones de palabras, disponible en la plataforma Sketch Engine.
Bibliografía citada:
Calderón Campos, Miguel; Vaamonde, Gael (2020): «Oralia Diacrónica del Español. Un nuevo corpus de la Edad Moderna». Scriptum Digital, 9, 167-189.
Rojo, Guillermo (2021). Introducción a la lingüística de corpus en español. Londres y Nueva York: Routledge.
Vaamonde, Gael (2018). «La multidisciplinariedad en la creación de corpus históricos: El caso de Post Scriptum». En «Humanidades digitales: sociedades, políticas, saberes». Artnodes, 22, 118-127.
17.15. Carolina Gainza (Universidad Diego Portales, Chile). Literatura y algoritmos: formas de vincular “aesthesis” y “mathesis” en las humanidades digitales.
Pausa –café
18.30. Carolina Ferrer (Université du Quebec à Montreal, Canadá). La literatura hispanoamericana en el sistema mundial: un análisis criticométrico.
El presente estudio surge del cruce de dos tendencias contemporáneas. Por un lado, se inscribe en el renovado interés por la literatura mundial (Casanova 2008; Damrosch 2014; Pradeau et Samoyault 2005; Saussy 2006) y, por otro lado, se funda en los nuevos observables de las humanidades digitales (Boyd and Crawford 2012; Mayer-Schönberger and Cukier 2013; Schreibman, Siemens and Unsworth 2016).
Conceptualmente, esta investigación se basa en la definición de campo de Pierre Bourdieu (1992), la teoría de polisistemas de Itamar Even-Zohar (1990) y la cienciometría (Price 1963; Leydesdorff 1998). Desde el punto de vista metodológico, utilizamos el enfoque de la criticometría (Ferrer 2011), cuyo propósito es medir y estudiar la actividad crítica en las artes. La base de datos seleccionada para extraer y analizar los metadatos es la más importante base literaria, la Modern Language Association International Bibliography. Esta base bibliográfica contiene más de 2,8 millones de referencias, publicadas de 1850 al presente.
Con el propósito de estudiar el lugar que ocupa la literatura hispanoamericana en el sistema mundial, trabajamos a cuatro niveles. En primer lugar, presentamos brevemente la configuración del sistema literario mundial (Ferrer 2018), cuya muestra alcanza a 1.777.414 referencias y cubre las publicaciones críticas de 1850 a 2018. En segundo lugar, estudiamos las publicaciones sobre las 19 literaturas nacionales del subcontinente: Argentina, Bolivia, Chile, Colombia, Costa Rica, Cuba, República Dominicana, Ecuador, El Salvador, Guatemala, Honduras, México, Nicaragua, Panamá, Paraguay, Perú, Puerto Rico, Venezuela y Uruguay. Esta muestra está constituida por más de 70.000 referencias. Asimismo, analizamos la doble inscripción de la literatura hispanoamericana según las dimensiones continental y lingüística. Para ello, investigamos, en tercer lugar, sus relaciones con el sistema literario de las Américas, que constituye una muestra de más de 430.000 publicaciones, y, en cuarto lugar, con el sistema del mundo hispánico, que representa aproximadamente 170.000 publicaciones.
Para cada uno de estos sistemas, identificamos los escritores y las obras que acumulan las más altas frecuencias y elaboramos indicadores cronológicos, geopolíticos y lingüísticos. Asimismo, con el objetivo de comprender las modalidades de circulación de la literatura hispanoamericana, analizamos las revistas académicas que contienen el mayor número de artículos del sistema hispanoamericano. Por último, seleccionamos un conjunto de escritores, identificamos las principales características de su recepción crítica internacional y, a través del análisis de las cocitaciones, establecemos las relaciones entre ellos, tanto desde el punto de vista geográfico como genérico. De esta forma, obtenemos una cartografía dinámica del sistema literario hispanoamericano, que surge del análisis de más de 160 años de publicaciones críticas y que se apoya en la ley de los grandes números.
A nuestro parecer, este estudio constituirá un avance significativo del conocimiento, por cuanto permitirá develar la riqueza de los nuevos observables de la era digital, gracias a la introducción de una perspectiva empírica innovadora, la criticometría, que complementa los estudios literarios tradicionales.
Palabras clave
Literatura mundial, literatura hispanoamericana, humanidades digitales, teoría de polisistemas, criticometría.
Bibliografía
Bourdieu, Pierre. Les règles de l’art. Genèse et structure du champ littéraire. Paris : Seuil, 1992.
Boyd, Danah, and Kate Crawford. “Critical Questions for Big Data Provocations for a Cultural, Technological, and Scholarly Phenomenon,” Information Communication & Society 15.5 (2012): 662-79.
Casanova, Pascale. La république mondiale des lettres. Paris : Seuil, 2008.
Damrosch, David (ed.). World Literature in Theory. Malden: Wiley Blackwell, 2014.
Even-Zohar, Itamar. «Polysystem Theory.» Poetics Today 11 (1990): 1-268.
Ferrer, Carolina. “El boom hispanoamericano: del texto a la pantalla”, In Nuevas aproximaciones al cine hispánico: Migraciones temporales, textuales y étnicas en el bicentenario de las independencias iberoamericanas (1810-2010). Barcelona: Promociones y Publicaciones Universitarias, 2011, 79-101.
Ferrer, Carolina. « Les études littéraires à l’ère de la mondialisation : traces et trajets au prisme des nouveaux observables numériques », Zizanie 2.1 (2018): 76-101.
Leydesdorff, Loet. “Theories of Citation?” Scientometrics 43 (1998): 5-25.
Mayer-Schönberger, Viktor and Kenneth Cukier. Big data. A revolution that will transform how we live, work, and think. Boston and New York: Houghton Mifflin Harcourt, 2013.
Modern Language Association International Bibliography. www.mla.org.
Pradeau, Christophe et Tiphaine Samoyault, Où est la littérature mondiale? Saint-Denis : Presses Universitaires de Vincennes, 2005.
Price, Derek de Solla. Little Science, Big Science. New York: Columbia University Press, 1963.
Saussy, Haun (dir.). Comparative Literature in an Age of Globalization. Baltimore: Johns Hopkins University Press, 2006.
Schreibman, Susan, Ray Siemens and John Unsworth (dir.). A New Companion to Digital Humanities. Malden: Wiley and Sons, 2016.
19.30. Cristóbal Lozano & Ignacio López Sako (Universidad de Granada). Big Data vs Big “Quality” Data: A look at corpora of Spanish as a second language (L2).
We live in an era in which massive amounts of data (Big Data) can be stored, processed and analysed to predict virtually anything, and they are becoming “one of the most important technology trends” (Hurwitz et al., 2013: 36) in the way information is managed and used in a wide variety of areas, including linguistic research. Big Data are basically characterised as being “big” in “volume, velocity and variety” (Ritchie & McArdle, 2016: 1). In other words, they are large, fast and representative of structured and non-structured information. However, we argue that one major problem that ‘big’ data pose is that they can be useful for extensive searches of massive, uncleaned information but are sometimes not amenable for intensive (in-depth and qualitative) searches that aim at testing research-informed hypotheses.
We will frame this discussion around learner corpora (LC), which are large databases of the language produced by learners of a second language (L2) (Granger et al., 2015; Tracy-Ventura & Paquot, 2021). LC are designed to contain ‘quality’ ‘big’ data that are designed to cater for the specific needs of researchers in applied linguistics (second language acquisition and bilingualism) and natural language processing, as well as language-learning material designers, and foreign language learners and teachers (Díaz-Negrillo & Thompson, 2013).
In this paper, we showcase a representative LC, namely, CEDEL2: Corpus de Español como L2 (Lozano, 2009, in press; Lozano & Mendikoetxea, 2013), which is freely available at http://cedel2.learnercorpora.com. CEDEL2 is a state-of-the-art learner corpus that has been especially designed to meet the needs of researchers and practitioners alike by following strict corpus-design principles (Sinclair, 2005) and the latest recommendations in the field (Tracy-Ventura, Paquot & Myles, 2021). Crucially, CEDEL2 contains large amounts of metadata (i.e., detailed information about the variables belonging to each speaker and each text).
We will use CEDEL2 to illustrate a particular linguistic phenomenon in the context of ‘big’ data: the acquisition of anaphora resolution in L2 Spanish. We will argue (and show) that the automatic annotation (i.e., tagging) and analysis of ‘big’ linguistic data is coarse-grained and often misses crucial information that can be only uncovered via manual, fine-grained qualitative annotation that is theoretically motivated. In other words, the combination of ‘big’ data with the manual implementation of a fine-grained tagging process, plus the inclusion of large amounts of metadata, are essential for hypothesis-driven analyses of the language. Only if researchers are ultimately able to create synergies between ‘big’ linguistic data and ‘quality’ data analyses, then they will be able to better understand how L2s are acquired and how the human mind deals with language.
References
CEDEL2 (Corpus Escrito del Español como L2): http://cedel2.learnercorpora.com
Díaz-Negrillo, A., & Thompson, P. (2013). Learner corpora: Looking towards the future. In A. Díaz-Negrillo, N. Ballier, & P. Thompson (Eds.), Automatic Treatment and Analysis of Learner Corpus Data (pp. 9–29). John Benjamins.
Granger, S., Gilquin, G., & Meunier, F. (Eds.). (2015). The Cambridge Handbook of Learner Corpus Research. Cambridge University Press.
Hurwitz, J., Nugent, A., Harper, F., & Kaufman, M. (2013). Big Data for Dummies. John Wiley & Sons.
Lozano, C. (2009). CEDEL2: Corpus Escrito del Español L2. In C. M. Bretones Callejas et al. (Eds.), Applied Linguistics Now: Understanding Language and Mind (pp. 197-212). Universidad de Almería.
Lozano, C. (in press). CEDEL2: Design, compilation and web interface of an online corpus for L2 Spanish acquisition research. Second Language Research.
Lozano, C., & Mendikoetxea, A. (2013). Learner corpora and second language acquisition: the design and collection of CEDEL2. In N. Ballier, A. Díaz-Negrillo, & P. Thompson (Eds.), Automatic Treatment and Analysis of Learner Corpus Data. John Benjamins.
Ritchie, R., & McArdle, G. (2016). What makes Big Data, Big Data? Exploring the ontological characteristics of 26 datasets. Big Data & Society, January-June: 1-10.
Sinclair, J. (2005). How to build a corpus. In M. Wynne (Ed.), Developing linguistic corpora: A guide to good practice (pp. 79-83). Oxbow books.
Tracy-Ventura, N., & Paquot, M. (Eds.). (2021). The Routledge Handbook of SLA and Corpora. Routledge. https://doi.org/10.4324/9781351137904
Tracy-Ventura, N., Paquot, M., & Myles, F. (2021). The future of corpora in SLA. In N. Tracy-Ventura & M. Paquot (Eds.).
VIERNES 17 DICIEMBRE
09.00. Pedro Ruiz Pérez (Universidad de Córdoba). Little Big Data: el poema ante la base de datos.
10.00. Wenceslao Arroyo Machado y Nicolás Robinson García (Universidad de Granada). Measuring scientific impact in the humanities in the age of big data.
10.45.Francisco Luis Benitez (Universidad de Granada). ¿What is blockchain and how can help the humanities?
Pausa café
12.00. Presentación del proyecto I+D COVID-TECA. Pensamiento, pandemia y Big Data.
12.45. Diana Sanz Roig (Universitat Oberta de Catalunya). Ciencia de datos e historia de la traducción en Iberoamérica.
13.30. Clausura del congreso.