Introducción
Desde finales del siglo xx, muchos de los trabajos empíricos de producción lingüística se han basado en datos provenientes de fuentes “naturales”, especialmente desde el punto de vista de la lingüística funcional (e.g. Hopper, 1987; Bybee, 2002). Por fuentes naturales, se entiende que las investigaciones se basan en el habla de un grupo social, y por lo tanto que reflejan la realidad lingüística de dicha comunidad. Esto contrasta con estudios lingüísticos previos, cuyos análisis se basaban en la intuición de los hablantes de la lengua estudiada o de los mismos investigadores. Es decir, ahora la corriente en la lingüística es crear muestras de la lengua en uso real en los cuales se fundamenten los estudios. Este conjunto de ejemplos reales de uso de la lengua se denomina corpus lingüístico, y consta de una colección de textos naturales (en un amplio sentido de la palabra) compilados ya sea de manera escrita u oral en grabaciones de audio o video. Por este motivo, la creación de corpora es un trabajo necesario para los estudios del lenguaje en su contexto natural.
En este breve artículo se describirá la recolección de un corpus conversacional de materiales provenientes de la Zona Metropolitana de la ciudad de Guadalajara, México. En esta primera sección, hablaremos sobre aspectos generales de los corpora, y en la sección posterior, daremos detalles sobre la metodología utilizada y sobre las características generales del corpus presentado. Por último, para ejemplificar el tipo de análisis lingüístico que se puede hacer con un corpus de estas características, exponemos un análisis de las funciones del marcador discursivo o sea y su correlación con su duración.
El desarrollo de la lingüística computacional y la lingüística de corpus ha conllevado el incremento en la elaboración de corpora (e.g., Baker, 2009; Garside, 1988; Marcus et al., 1993). Existe una gran variedad de corpora diseñados según el tipo de análisis para el que se recaban los datos. Hay distintos enfoques, como compilaciones sobre adquisición de la lengua (e.g., MacWhinney, 2000), o corpora con características específicas que permiten búsquedas complejas de datos. Un ejemplo de esto último sería el Corpus of Contemporary American English (COCA, por sus siglas en inglés), enfocado al inglés norteamericano o estadounidense, que contiene más de 520 millones de palabras provenientes de diversos géneros discursivos (Davies, 2008). Con este tipo de corpora es posible realizar análisis específicos, como los efectos de la frecuencia en la lengua (véase Bybee y Hopper, 2001).
Como decíamos anteriormente, un corpus puede estar formado por textos escritos o por grabaciones de distinta índole. Por ejemplo, en el COCA todos los datos se presentan de forma escrita aunque algunas de sus fuentes son orales —es decir, se incluyen transcripciones de entrevistas, programas de televisión y radio, películas, etc.— Sin embargo, no se proporciona los archivos de audio correspondientes en la base de datos. Un corpus similar al COCA existe en español, creado por el mismo grupo de investigación, es el Corpus del Español (Davies, 2002), el cual sigue un formato similar al del corpus del inglés. Actualmente contiene aproximadamente dos mil millones de palabras, incluyendo varios géneros y dialectos o variedades del español. Sin embargo, este tipo de corpus, si bien es muy importante para cierto tipo de investigaciones, deja de lado otros aspectos relevantes. Por ejemplo, el hecho de que solamente contenga textos escritos impide hacer investigaciones de índole fonética/fonológica. También, debido a que los datos de distintas variedades de español se mezclan, permite analizar datos a gran escala, pero dejando de lado las características lingüísticas específicas de ciertos registros o sociolectos. De esto se puede concluir que las características de cada corpus definen el tipo de investigación lingüística que se puede lograr con él.
Los corpora orales son de gran relevancia porque dan cuenta de procesos que solamente ocurren en la oralidad (vs. escrituralidad), tales como patrones de cambio morfosintácticos que se van incorporando a la gramática (Du Bois, 2003; Bybee, 2006) o reducciones fonéticas (e.g., Johnson, 2004; File-Muriel, 2009).
Dentro de los corpora orales se encuentran generalmente dos tipos: los que se obtienen a base de entrevistas estructuradas o semiestructuradas —por ejemplo, la famosa entrevista sociolingüística desarrollada por Labov (1981)— y los que se obtienen únicamente de conversaciones espontáneas o sin ningún tipo de intervención del investigador.
Por cuestiones metodológicas (e.g., la necesidad de obtener materiales comparables aunque de distintos grupos sociales), muchos de los corpora orales se basan en entrevistas. Algunos ejemplos son el New Mexico and Colorado Spanish Survey, (NMCOSS 2002) que recopila encuestas de vocabulario y entrevistas en el sur de Colorado y al norte de Nuevo México, en los Estados Unidos, o el Pear Film World Corpus (Chafe, 1980), el cual utiliza una narrativa fílmica en que se presenta una historia sin diálogo. El filme se mostró a los miembros de la comunidad de habla estudiada, con el fin de semidirigir y elicitar oralmente construcciones lingüísticas a partir de los eventos que se presentan en el filme. El resultado es una amplia colección de datos de la historia que se presenta, pero narradas en diversas lenguas y dialectos.
Por otro lado, existen corpora orales que son grabaciones de interacciones espontáneas, es decir, sin ningún tipo de estructura fijada a priori por los investigadores. Ejemplos de estos son el Santa Barbara Corpus of Spoken American English (Du Bois et al., 2000), que recoge interacciones orales en distintas situaciones, y el corpus en español Val.Es.Co (Briz, 1995), compuesto por conversaciones coloquiales entre otros tipos de textos.
Una de las diferencias más significativas entre un corpus oral de entrevistas y uno de conversaciones espontáneas es que en el último es posible analizar la estructura de las conversaciones naturales o no estructuradas (Schegloff, 2007) y reducir el efecto de la paradoja del observador (“Observer’s paradox” de Labov, 1981), entre otras cosas. De esta forma, la conversación espontánea muestra características de su género en comparación con otro tipo de textos orales.
En cuanto a corpora existentes del español, además de los ya mencionados, existen otros como el Corpus del Proyecto para el estudio sociolingüístico del español de España y de América (PRESEEA), el cual trata de representar la lengua española hablada en el mundo hispánico “atendiendo a la diversidad sociolingüística de las comunidades de habla hispanohablantes”. (PRESEEA, 2014). Estos corpora recaban datos de diferentes equipos de investigación en diversos países de habla hispana y se enfoca en el habla oral de entrevistas semiestructuradas. Dentro de este mega corpus se encuentran diferentes variedades de español mexicano de las siguientes ciudades: Culiacán, Mérida, Monterrey (Rodríguez Alfano et al., 2010), y México (Martín Butragueño y Lastra, 2011).
Algo notable es que todavía no existe ningún corpus oral de Guadalajara, la segunda zona metropolitana más grande de México, con excepción del proyecto “El habla culta de la zona metropolitana de Guadalajara” (Helas Poncela, 1999). Si bien este corpus provee información relevante, su enfoque buscaba a un grupo específico de hablantes de Guadalajara. Además, las grabaciones no se encuentran disponibles para otros investigadores. Finalmente, los audios no cuentan con la calidad de hoy en día, con el fin de llevar a cabo investigaciones de fonética. Consecuentemente, y teniendo en cuenta lo que se ha dicho hasta el momento, se ha creado este corpus con datos de hablantes de la Zona Metropolitana de Guadalajara y que a continuación describiremos.
Objetivo y diseño del Corpus Conversacional Tapatío (CCT)
Ya que la variación en la lengua es una de las áreas más amplias de investigación dentro de la sociolingüística, y que la variación en Guadalajara ha sido escasamente estudiada en corpora (con excepción de Helas Poncela, 1999), el Corpus Conversacional Tapatío (CCT de ahora en adelante) ha sido creado con la intención de estudiar diversos fenómenos lingüísticos propios de esa Zona Metropolitana de Guadalajara (ZMG de ahora en adelante). La ZMG cuenta con más de 4,000,000 de habitantes y está compuesta por seis municipios centrales: Guadalajara, Zapopan, San Pedro Tlaquepaque, Tonalá, Tlajomulco de Zúñiga y El Salto (véase mapa).
En estos materiales se pretende estudiar fenómenos pertenecientes a diversos niveles lingüísticos, desde fonológicos hasta pragmáticos. Así, el CCT recoge grabaciones de interacciones espontáneas cara a cara de hablantes de la ZMG. El CCT representa una muestra de la población de la ZMG. Los hablantes comprenden un rango variado de edades, ocupaciones, géneros y distintos trasfondos socioculturales. Las conversaciones documentan interacciones del día a día en distintos contextos, por ejemplo: conversaciones en oficinas, actividades de casa, en traslados por la ciudad, cafés, reuniones sociales, etc. A continuación, describimos los materiales y procedimientos utilizados para la recolección de los datos.
Figura 1: Mapa de la zona metropolitana de Guadalajara incluyendo los municipios de la zona conurbada. Fuente: iconogdl.wordpress.com
Materiales
De acuerdo con los lineamientos de la Universidad de Nuevo México, se requiere que toda investigación que involucre recolección de datos con participantes humanos tenga la aprobación del Consejo Institucional de Evaluación (Institutional Review Board o IRB, por sus siglas en inglés). La oficina del IRB se encarga de proteger los derechos y el bienestar de los participantes humanos de una investigación con el fin de lograr investigaciones de calidad desde el punto de vista científico y ético. Siguiendo las políticas del IRB de la Universidad de Nuevo México, para la presente investigación se requirió obtener el permiso de dicha oficina, además de utilizar un documento que se presentaba a los participantes, quienes leyeron y expresaron su consentimiento por escrito. En este consentimiento se explicó a los participantes en qué consistía la actividad (explicada a continuación en el apartado procedimiento), cuáles eran sus derechos y se estipulaba que daban consentimiento al uso de sus materiales para investigaciones lingüísticas.
Los materiales utilizados para la recolección de datos fueron dos tipos de grabadoras, una Zoom H4N y otra Sony PCM-M10. Estas grabadoras profesionales graban audio de alta calidad, de modo que análisis acústicos detallados de estas grabaciones son posibles en programas como Praat (Boersma y Weenink, 2016).
El único material para llenar por parte de los participantes fue una breve forma demográfica. Esta incluyó los datos: sexo, rango de edad, nivel educativo, ocupación, colonia, zona metropolitana de Guadalajara y años vividos en la región.
Participantes
En este corpus participaron en total 114 habitantes de la ZMG. La metodología utilizada para reclutar a posibles participantes fue la de muestreo de las redes sociales, o “amigo de un amigo” (Milroy y Gordon, 2003). El proceso consistió en que las dos investigadoras, hablantes de la ZMG, contactaron a sus redes sociales, que a su vez, contactaron a más voluntarios para ser grabados. Esta metodología no solamente es ventajosa para la recolección de los datos sino útil para el análisis de los mismos, ya que los diferentes vínculos de una red social tiene implicaciones en cuanto al comportamiento lingüístico de una comunidad. De esta forma, hay participantes de diferentes generaciones, diversas ocupaciones, regiones de la ZMG y niveles educativos. A continuación se presentan las características generales de los participantes del corpus (las características específicas de los hablantes se describen en el anexo 3).
-
Sexo. Este corpus no cuantificó distintos géneros o constructos sociales. Por simplificación de los datos se utilizó un pequeño cuestionario que los participantes contestaban, el cual sólo incluía los campos de “mujer” u “hombre”. En total, el CCT reunió 68 mujeres y 46 hombres.
-
Edades. Uno de los requisitos para participar en el corpus era que los participantes fueran mayores de edad. Las edades comprendieron un rango de 18-98 . La edad que se vio mayormente representada en la muestra fue de 2530 años.
-
Zonas. El CCT contiene en su mayoría hablantes de los municipios de Guadalajara y Zapopan (que viven respectivamente en 20 y 19 colonias de esos municipios) y en menor medida hablantes de Tlaquepaque que viven en seis colonias diferentes así como de Tlajomulco de Zúñiga, otra zona donde más recientemente se ha incrementado la población por la creación de zonas habitacionales. Algunas de las colonias donde más participantes viven son: La colonia Centro y Jardines de la Cruz en el municipio de Guadalajara; Las Fuentes, Rinconada Santa Rita y La Estancia, en el municipio de Zapopan; Nueva Galicia en el municipio de Tlajomulco; y El Parián y el Fraccionamiento Revolución en Tlaquepaque. En el anexo 3 se encuentra la lista detallada de colonias donde viven los participantes y los respectivos municipios a los que pertenecen.
-
Niveles de educación. El nivel de educación de los participantes en este corpus varía, desde la educación básica: primaria, secundaria, la educación media: preparatoria, superior y licenciatura, estudiantes y egresados de postgrados como maestrías y doctorados. El nivel educativo más común que se encontró en esta muestra es el de licenciatura (49 de los 114 participantes), seguido por 20 participantes con estudios de preparatoria. Los niveles más escasos encontrados fueron la primaria (3 participantes), la educación técnica (3 participantes ), cursando un doctorado (3 participantes) o habiendo completado un doctorado (1 participante).
-
Ocupaciones. Las ocupaciones de los hablantes son muy variadas: estudiantes, biólogos, contadores, chefs, taxistas, amas de casa, instructores de preescolar y de idiomas, profesores universitarios, recepcionistas, abogados, gerentes, médicos, etc. En el anexo 3 se muestran las ocupaciones de los 114 hablantes del corpus.
Procedimiento
La recolección de los datos comenzó desde diciembre del 2010 hasta el 2015, recaudando información dependiendo de los proyectos y diferentes estancias de las investigadoras. Sin embargo, las dos primeras recolecciones fueron las que generaron mayor cantidad de datos en el invierno del 2010-2011 y el verano del 2011.1 Para el reclutamiento de participantes se utilizó una invitación oral aprobada por el IRB para atraer a posibles participantes y a sus redes sociales. Esta invitación explicaba a grandes rasgos el objetivo de las grabaciones de audio —hacer análisis del habla de la ZMG en cuanto a diversos niveles lingüísticos—. En especial, se hacía hincapié en que las investigadoras no juzgarían su forma de hablar sino que lo que se buscaba era oír las formas oriundas de hablar en la ZMG. Se enfatizó esto con el fin de tener un mínimo de efecto de algo similar a la paradoja del observador, la cual se refiere al cambio de comportamiento, en este caso lingüístico, del participante, a causa de sentirse observado y desear que su conducta sea aprobada por la investigadora. Una vez que los hablantes aceptaban participar, se les daba un pequeño entrenamiento para utilizar las grabadoras profesionales2y se les indicaba que realizaran las grabaciones en un contexto conversacional en el que ellos se sintieran a gusto, en un ambiente no ruidoso y con un máximo de cinco participantes a la vez de ser posible.
Características del CCT
El CCT recolectó más de 40 horas de conversaciones a través de más de 80 conversaciones. Estas conversaciones son de distintas duraciones (de 10 minutos hasta 2 horas) y abarca una variedad de temas de la vida cotidiana seleccionados por los mismos participantes. Parte de estas conversaciones se han transcrito mientras que otras están en proceso de transcripción. El modelo de transcripción del CCT sigue el de Du Bois (1993), con algunas adaptaciones. De este modo, quedan representadas las unidades entonativas junto con otros elementos importantes para la comprensión y análisis de los textos, tales como los silencios (…), los enunciados truncos ( -), alargamientos vocálicos al final de la unidad entonativa ( = ), entre otros. El ejemplo (1) da muestra de este modelo de transcripción.
Ejemplo (1)
Función y forma fónica: el caso de o sea en el CCT
En las secciones anteriores hemos descrito la metodología utilizada en la recolección de materiales del CCT y sus características generales. En este último apartado, hacemos un breve análisis del marcador discursivo o sea con el objetivo de ejemplificar el tipo de análisis lingüístico que se puede llevar a cabo utilizando un corpus de estas características.
Los estudios de fonología basada en el uso (Bybee, 2001) han resaltado casos en los que existe una relación entre la función discursiva de una forma lingüística con su forma fónica (e.g., Scheibman, 2000, con la frase del inglés I don’t know). A continuación probamos que este también es el caso del marcador discursivo o sea. La reducción fonológica en el discurso ha sido analizada desde diferentes perspectivas (cf. Jurafsky et al., 2001; Johnson, 2004; Plug, 2007), mientras otros autores específicamente se han enfocado en la reducción de marcadores discursivos (Villameriel García, 2008; Romera y Gorka, 2002). Lo que proponemos en este trabajo es observar, desde el marco teórico de la fonología basada en el uso de la lengua (Bybee, 2010), no solamente la duración del marcador discursivo o sea en general, sino también la correlación entre la función específica del marcador y su duración. Con este objetivo, hablaremos sobre las funciones que se le han adjudicado al marcador y después presentaremos nuestro análisis dando cuenta de las funciones encontradas en el CCT así como de su forma fonética.
O sea, en sus orígenes, consiste de la conjunción o y sea, de la tercera persona singular del presente de subjuntivo. Haciendo un repaso de lo que se ha escrito sobre este marcador discursivo, encontramos que se le ha considerado desde una simple muletilla hasta una partícula con un sinfín de funciones como reparador, reformulador, expletivo, epistémico, entre otros (Briz, 2001a; Briz, 2001b; Galán Rodríguez, 1998; Travis, 2005; FélixBrasdefer, 2006; Romera, 2001). En su función canónica, se le adjudica clarificar un segmento A con un segmento B (Galán Rodríguez, 1998; Schwenter, 1996; Travis, 2005) como se ve en el siguiente ejemplo:
Ejemplo (2)
Sin embargo, se encuentra en otras posiciones más controversiales, como simple muletilla (Cortés Rodríguez, 1991) como en el siguiente ejemplo, donde aparentemente no cumple ninguna otra función ya que no hay una reformulación de algo dicho:
Ejemplo (3)
Y como marcador epistémico (Schwenter, 1996) donde no hay ningún tipo de segmento B después de o sea:
Ejemplo (4)
En el siguiente análisis sobre o sea enfatizaremos dos cosas: una, las funciones que encontramos en este corpus a partir de los segmentos anteriores y posteriores al marcador; y dos, cómo estas funciones aparecen fonéticamente con distintas duraciones. A continuación, damos cuenta de lo que se ha dicho con anterioridad sobre este marcador.
Funciones de o sea
Dentro de los análisis lingüísticos que se han hecho sobre o sea, encontramos el de Schwenter (1996) quien hace un análisis a partir de tres variedades del español peninsular. El autor divide las funciones de o sea en dos: como conectivo y como marcador epistémico (aunque argumenta que pueden ocurrir al mismo tiempo). Como conectivo “hearers are guided to an interpretation of a set of utterances in the way speakers want those utterances to be understood”, y como marcador epistémico “the speakers mark their commitment to the truth of the propositions expressed in the utterances” (Schwenter, 1996: 87).
Otra contribución al entendimiento de o sea es el estudio de Travis (2005). Ella propone cinco usos vinculados a la reformulación: 1) clarificación, 2) anteceder a un comentario al margen, 3) conclusión, 4) introducir el resto de un enunciado y 5) anteceder un reparo discursivo. Sin embargo, aunque Travis (2005: 132) encuentra que la función epistémica se lleva a cabo a través de las otras distintas funciones de o sea, no lo encuentra como función independiente en sus datos de Cali, Colombia, como lo arguye Schwenter con sus datos de España.
El estudio de Félix-Brasdefer (2006) utilizando datos del español de México del Corpus de Monterrey, divide su análisis en tres relaciones que puede presentar o sea: semántica, pragmática y textual. Sin embargo, el trabajo no recurre a un método de transcripción que indique patrones de entonación u otros elementos importantes en la decisión sobre el funcionamiento de o sea en esos contextos específicos. El primer uso de o sea que encuentra este autor es el canónico, donde el segmento después de o sea se aproxima al significado anterior a o sea. En cuanto a la relación pragmática, el autor argumenta que o sea tiene tres funciones: explicar, dar una conclusión o marcar epistemicidad (la cual arguye debe producir un efecto de cortesía en el oyente). La relación textual es cuando el hablante emplea o sea para contribuir a la organización y manejo del discurso. En esta categoría, se encuentran otras tres funciones: como reinicio, como intensificador y como cambio de turno. Sin embargo, el análisis que ofrece el autor tiene el problema principal de hacer una división demasiado categórica entre las funciones, cuando él mismo admite que estas pueden ocurrir al mismo tiempo. Por otro lado, algunas de sus explicaciones parecen centrarse en todo el acto de habla más que en la función específica de o sea. Por ejemplo, la función epistémica, que, de acuerdo con este autor, debe producir un efecto de cortesía, no es clara en el siguiente ejemplo que él proporciona:
Ejemplo (5)
Este ejemplo parece más una conclusión del discurso previo (que no se provee), mientras que el efecto de cortesía podría más bien provenir del hecho de que la gente hace clarificaciones al oyente, no necesariamente de una función específica de o sea. En general, este tipo de conclusiones sobre o sea pareciera un análisis del discurso en el que se encuentra el marcador más que sus funciones. Para poner otro ejemplo, Briz (2001b: 175) presenta el siguiente uso de o sea como demandando información:
Ejemplo (6)
En este caso, vemos que o sea no está demandando información, sino simplemente reformulando el segmento anterior (i.e. lo tienes claro está parafraseando las preguntas anteriores). Con el fin de sobrepasar estas limitaciones, proponemos encontrar las funciones de o sea a través de la comparación de los segmentos que le preceden y proceden.
Otra función de o sea que mencionaremos es como expletivo o muletilla. De acuerdo con Briz (2001b: 183) este uso es un marcador social de un grupo de edad específico (25 años o menores) porque son los que aparecen utilizándolo más frecuentemente. El ejemplo que da el autor es el siguiente:
Ejemplo (7)
El autor señala que aquí o sea no está conectando nada, por lo que lo llama “apoyatura formulativa”. En este breve estudio compararemos los segmentos anteriores y posteriores a o sea para observar las funciones del marcador en el CCT.
Por último mencionaremos el estudio de Vázquez Carranza (2012), que usa la metodología del Análisis Conversacional (Schegloff, 2007) en conversaciones espontáneas del español de Toluca, México. A través de un análisis interaccional Vázquez Carranza clasifica o sea según el tipo de reparos que hace. Principalmente resuelve el problema de encontrar o sea en posiciones donde pareciera que no hay una clarificación (como en el ejemplo 3) y argumenta que “o sea can not only do correction or replacement but in general it can be considered to be part of the speaker’s self-adjustments of their talk” (2012: 166). Una segunda contribución importante de este estudio es reconocer y tratar de explicar los casos de o sea al final de un turno (o donde hay una lugar relevante de transición de turno, como en el ejemplo 4). Vázquez Carranza no solamente observa cuestiones de turno en estos casos sino el nuevo significado que o sea está indexando: la indignación o decepción con respecto a algo.
Análisis de o sea en el CCT
Se extrajeron los primeros mil segundos de seis conversaciones del CCT, y se identificaron todos los ejemplares del marcador o sea. De aquí resultaron cien de estos, provenientes de diez hablantes, cuatro mujeres y seis hombres. Los hablantes de los cuales se extrajeron los ejemplares fueron Raquel, Ramiro, Yolanda, Sofía, Paco, Irma, Tomás, Adolfo, David, Gilberto y sus datos demográficos se pueden ver en el anexo 3.
Para la clasificación de funciones de o sea, se tomó en cuenta la relación que estos ejemplares tenían con los segmentos anteriores y posteriores, así como con los procesos de cambio lingüístico. Esta aproximación distingue a este estudio de estudios previos, ya que consideramos que o sea se gramaticalizó a partir de la conjunción o y la tercera persona singular del presente de subjuntivo sea, y a partir de ahí ha tenido otros cambios semánticos relacionados con la subjetivización y la intersubjetivización (Traugott, 2004). Así, de los datos extraídos distinguimos cuatro funciones de o sea: reformulación textual, reformulación subjetiva, marcador en contra de las expectativas y reparador discursivo. A continuación explicamos cada uno.
Reformulación textual. Esta es la función canónica donde o sea presenta una reformulación de algo dicho anteriormente, producido por el mismo hablante o por el interlocutor.
Reformulación o marcador subjetivo. La característica de esta función es que no existen claramente segmentos A o B como en la función prototípica; es decir, hay una reformulación pero solamente a nivel cognitivo del hablante (el mismo al que Vázquez Carranza llama self-initiated self repair en el mismo turno); puede ocurrir a la mitad de un enunciado, como en el siguiente ejemplo:
Ejemplo (8)
Reparador discursivo. Esta función implica la completa cancelación del segmento A y el remplazo con el segmento B (i.e., no reformulación de lo mismo, sino un cambio total de contenido textual):
Ejemplo (9)
Marcador en contra de las expectativas. La característica de esta función es que el hablante tiende a no proveer más comentario después de o sea; en cambio, el hablante indica con el marcador que la situación narrada anteriormente no es esperada.
Por ejemplo, en el siguiente fragmento, Sofía no espera que un idioma pueda ser tan bonito (según su apreciación) pero tan difícil a la vez:
Ejemplo (10)
El análisis de esta función coincide con los ejemplos que Vázquez Carranza provee y con lo que él argumenta, excepto que le llamamos marcador en contra de las expectativas con la intención de abstraer el significado (a diferencia de Vázquez Carranza, quien simplemente lo considera como apareciendo al final del turno) . Algo que hay que notar también, es que consideramos que este significado proviene de las frecuentes instancias donde los hablantes utilizan o sea para reformular algo increíble o inesperado. Esto concuerda con lo que dicen Bybee et al. (1994) en cuanto a que una forma lingüística puede adquirir un nuevo significado a partir de las instancias en las que aparece con más frecuencia, emancipándose así de su contexto original.
Por otro lado, la hipótesis de la fonología basada en el uso es que hay una relación entre la función que tiene una palabra con las características fonéticas con las que se produce. Es decir que en este caso, presuponemos que cada una de las cuatro funciones tendrá una duración distinta. Para probar esta hipótesis, además de codificar cada uno de los cien ejemplares según su función, se midió su duración utilizando el software Praat (Boersma y Weenink, 2016). Este paso es lo que precisamente enriquece el estudio de esta partícula lingüística. En comparación con trabajos que solamente mencionan anecdóticamente cuestiones fonológicas como Vázquez Carranza (2012), la calidad del sonido de estas grabaciones permite realizar este tipo de análisis fonológico. Los ejemplares se segmentaron de modo que cada uno quedara seleccionado individualmente a partir del principio de la vocal [o] (o a partir del principio del marcador, en casos donde hubiera reducción de la vocal) hasta el final de la vocal [a] utilizando la forma de onda mostrada por el programa, como se muestra en la Figura 2.
Figura 2: Muestra la segmentación de un ejemplar de o sea en una de las conversaciones.
Resultados
Primeramente, la distribución de las funciones y la media de duración de cada una se muestra en el cuadro 1.
Función de o sea
Tamaño muestral
Media de duración
Reformulación textual
49
0.30741
Reparador discursivo
14
0.28844
Reformulación subjetiva
23
0.40348
Marcador en contra de las expectativas
14
0.46527
Se realizó un análisis estadístico ANOVA para probar si cada función tenía una duración distinta. Los resultados muestran un valor p=0.00005, por lo que podemos decir que, efectivamente, los datos muestran que las funciones de o sea se producen con una duración significativamente diferente entre ellas. Para identificar entre qué grupos existen diferencias, se realizó una prueba post hoc de Tukey. Los resultados se resumen en el cuadro 2.
Función
vs. otras funciones
Nivel de significación
Reformulación textual
-Reformulador Subjetivo -Contra las expectativas -Reparador
.016 .000 .959
Reparador discursivo
-Reformulador Textual -Reformulador Subjetivo -Contra las expectativas
.959 .039 .002
Reformulación subjetiva
-Reformulador Textual -Contra las expectativas -Reparador
.016 .469 .039
Marcador en contra de las expectativas
-Reformulador Textual -Reformulador Subjetivo -Reparador
.000 .469 .002
Algo interesante en estos resultados es que o sea como marcador en contra de las expectativas es el más largo en duración (media de 0.46527). Aunque esto a principio pareciera ir en contra de lo que normalmente se encuentra en procesos de gramaticalización y forma fónica (i.e. reducción fonnológica, Bybee 2006), argumentamos que lo que sucede es lo que Vázquez Carranza encuentra en sus ejemplos de esta función: una reducción de [oˈsea] to [oˈsa] (p. 179) al mismo tiempo que hay un alargamiento de la última vocal. Es decir, que aunque la duración sea la más larga de todas las funciones, sí existe una reducción a nivel segmental. Esto podría analizarse detalladamente en esta misma base de datos.
Conclusiones
En este artículo hemos descrito el proceso de recolección del CCT, el cual recoge un conjunto de conversaciones espontáneas de la Zona Metropolitana de Guadalajara, México. Además, con base en datos del CCT presentamos un análisis de las funciones del marcador discursivo o sea y cómo su forma fónica (i.e., duración) es significativamente diferente dependiendo de la función de cada instancia. Una de las ventajas de contar con este corpus, como hemos ejemplificado brevemente, es el poder realizar estudios desde un enfoque funcionalista que abarque la relación que hay entre la fonética, y otros niveles lingüísticos, e incluso factores extralingüísticos a partir de los datos demográficos. Por ejemplo, también se podría observar si existe una distribución social de marcadores discursivos como o sea (altamente asociado al estilo fresa, véase Martínez Gómez 2014) o pues, cuya supuesta reducción pos se vincula a un nivel educativo bajo. Por otro lado, es evidente que la diversidad de contextos cotidianos y hablantes en las grabaciones del CCT también puede ser de utilidad para estudios dentro de áreas más recientes como la de la variación pragmática. En resumen, esperamos que el CCT sea de gran contribución para la lingüística del español mexicano.