The ACUMEN Project

This project integrates methodologies and techniques from artificial intelligence into the framework of critical discourse analysis, where the synergy between these disciplines results in an emerging research field. To this end, a corpus of YouTube comments has been compiled and annotated using an extensive inventory of lexico-grammatical features grounded in the Systemic Functional Linguistics model. The choice of YouTube as a data source is justified by its growing role as a major platform for online news, where users frequently project their ideological positions through the comments they produce. The study specifically targets videos addressing various types of social inequality within Spanish and American societies.

Within this framework, natural language processing techniques and association rule mining are applied to the corpus in order to identify statistically significant lexico-grammatical patterns. Subsequently, large language models are employed to interpret and explain such patterns from a critical perspective, so that researchers can support their conclusions with more empirical and objective evidence. Furthermore, particular emphasis is placed on interlinguistic comparison (i.e., Spanish and English) to examine a transnational social reality through the analysis of analogous social issues.

The project is inherently multidisciplinary, drawing on expertise from linguistics (e.g., corpus linguistics and critical discourse analysis) and computer science (e.g., data mining and machine learning), with the latter serving to enhance the analytical capabilities of linguistic research.

Research Team

Carlos Periñán-Pascual (Principal Investigator, Universitat Politècnica de València)
Ángela Alameda Hernández (Universidad de Granada)
María Enriqueta Cortés de los Ríos (Universidad de Almería)
Ángel Felices Lago (Universidad de Granada)
Nicolás Fernández Martínez (Universidad de Jaén)
Rocío Jiménez Briones (Universidad Autónoma de Madrid).
María Beatriz Pérez Cabello de Alba (UNED)
Pedro Ureña Gómez-Moreno (Universidad de Granada)

Work Team

Yolanda Blázquez López (UNED)
Fredy Núñez Torres (Pontificia Universidad Católica De Chile)
Gianluca Pontrandolfo (Università degli Studi di Trieste)
Jolanta Sinkuniene (Vilnius University)
Zhe Zhang (City University of Macau)

Publications

Alameda Hernández, Ángela y Jiménez-Briones, Rocío (2025) “CDA and SFL in empirical research: A systematic literature review”. English Studies at NBU, 11(2), 291-314. https://doi.org/10.33919/esnbu.25.2.6 [paper]

Núñez-Torres, F. (2025) Modelo para la desambiguación léxica automática basado en una medida híbrida. Journal of Computer-Assisted Linguistic Research 9: 43-62. https://doi.org/10.4995/jclr.2025.24934 [paper]

Periñán-Pascual, Carlos (2025) "A methodology for synthetic corpus engineering". Onomázein 70, pp. 242-262. https://doi.org/10.7764/onomazein.70.11 [paper]

Periñán-Pascual, Carlos (2026) “The use of generative artificial intelligence for interpreting emotions in corpus-based critical discourse analysis”. Corpus Pragmatics 10:17. https://doi.org/10.1007/s41701-025-00203-7 [paper]

Periñán-Pascual, Carlos (2026) "Exploring violence against women in social media through artificial intelligence". In María Milagros Del Saz-Rubio (ed.) Aggression and hostility against women on social media platforms, Tirant lo Blanch, pp. 13-31.

Conferences

Alameda Hernández, Ángela and Jiménez-Briones, Rocío (2025) "A systematic review of Critical Discourse Analysis and Systemic Functional Linguistics on social inequality". XII International Conference on Meaning and Knowledge Representation, Universidad de La Rioja, 9-11 July 2025, Logroño (Spain).

Blázquez López, Yolanda, Cortés de los Rïos, María Enriqueta and Felices Lago, Ángel (2025) "Previous steps for the automatic annotation of some CDA linguistic features: The case of US housing price inequality in YouTube video comments". XII International Conference on Meaning and Knowledge Representation, Universidad de La Rioja, 9-11 July 2025, Logroño (Spain).

Felices Lago, Ángel (2024) "Applying social problems connected with the WEALTH domain in the DIAPASON platform: Ontology building for social sensors in focus", XXII Congreso de la Asociación Europea de Lenguas para Fines Específicos (AELFE), Semmelweis University, 6-7 September 2024, Budapest (Hungary).

Fernández-Martínez, Nicolás José and Ureña Gómez-Moreno, Pedro (2025) "YouTA a linguist-friendly corpus annotation tool for critical discourse analysis in the ACUMEN project", XII International Conference on Meaning and Knowledge Representation, Universidad de La Rioja, 9-11 July 2025, Logroño (Spain).

Jiménez-Briones, Rocío (2024). "El proyecto ALLEGRO: análisis de microtextos en el módulo DIAPASON". Invited speaker on the roundtable "El input léxico en el marco de la inteligencia artificial". Jornadas de Lexicología y Lexicografía del español (metodologías, estrategias y herramientas). II Seminario Internacional UAM de Discurso, Gramática y Léxico (DIGLE), Universidad Autónoma de Madrid, 7-8 November 2024, Madrid (Spain).

Periñán-Pascual, Carlos (2024) "Aplicaciones de la IA al análisis político. Procesamiento del lenguaje natural (PLN) para análisis de discursos políticos", VI Curso en Comunicación Política y Estrategias de Campaña: la IA y sus Aplicaciones al Campo del Análisis Político y las Campañas Electorales, 11-13 September 2024, Murcia (Spain). Invited Lecture.

Periñán-Pascual, Carlos (2024) "Relevancia de los modelos del lenguaje en la clasificación de textos", VIIème Colloque International Franco-Espagnol E.GRAPHELES Corpus Spécialisés et Intelligence Artificielle / Humaine, Université d’Artois, 23-25 October 2024, Arras (France). Invited Lecture.

Periñán-Pascual, Carlos (2025) "LLM-driven critical analysis of affective polarisation", ATLAS 2025 International Workshop: Advanced Technologies for Language Analysis Systems. Universidad de La Rioja, 7-8 July 2025, Logroño (Spain). Invited Lecture.

Periñán-Pascual, Carlos (2025) "Computer-assisted critical discourse analysis in the AI era", XII International Conference on Meaning and Knowledge Representation, Universidad de La Rioja, 9-11 July 2025, Logroño (Spain).

Periñán-Pascual, Carlos (2025) "PLN y aprendizaje automático en la investigación lingüística: TexMiLAB", Seminario en Tecnología y Análisis Multimodal del Discurso. Universitat Jaume I, 16 December 2025, Castellón (Spain). Invited Lecture.

Ureña Gómez-Moreno, Pedro (2025) "Teaching intercultural communication: leveraging generative artificial intelligence for enhanced visual learning in linguistics and foreign language instruction". Congreso Internacional de Investigación y Creatividad en Enseñanza de Lenguas (CIICEL), 10-12 September 2025, Universidad de Granada (Spain).

Software

Fernández-Martínez, Nicolás José. (2026). YouTA: A context-aware corpus annotation tool for Critical Discourse Analysis of YouTube comments. [software]

Periñán Pascual, Carlos (2024). TexMiLAB: A workbench that allows researchers to do text-mining experiments. Software upgrade: Integration of YouTA into TexMiLAB, along with natural language processing techniques to automatically label lexico-grammatical features from the corpus annotator. [software]

Acknowledgements

Grant PID2023-147137NB-I00 funded by MICIU/AEI/10.13039/501100011033 and by ERDF, EU.

Contact

For further information, send an email to Carlos Periñán-Pascual: jopepas3@upv.es

Exploring social inequality through critical discourse analysis and artificial intelligence