Proyecto «Angarmegia: Ciencia, Cultura y Educación». Portal abierto y colaborativo de Investigación y Docencia
 InicioNavegarBuscar /

Disponibilidad léxica

DIRECTORIO

de la

SECCIÓN

MÉTODOS ESTADÍSTICOS  Y LINGÜÍSTICA

Los documentos a los que desde aquí se accede han sido realizados expresamente para desarrollar los programas académicos que trabajamos con nuestros alumnos. También está disponible una estructura tipo «Wiki» colaborativa, abierta a cualquier docente o alumno que quiera participar en ella. Para acceder a estos contenidos se debe utilizar el «DIRECTORIO de la SECCIÓN». Para otras áreas de conocimiento u opciones use el botón: «Navegar»

Breve recorrido histórico

Los recursos matemáticos de aplicación más generalizada a la investigación en cualquier campo de las ciencias, incluidas las sociales, son los que proceden de la Estadística y del Cálculo de Probabilidades. Cuando se habla coloquialmente de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término por influencia  del entorno. Diariamente se nos ofrecen informaciones sobre accidentes de tráfico, índices de crecimiento de población, turismo, tendencias políticas... Es al entrar en mundos más específicos de la Ciencias Sociales como la Medicina, Biología o Psicología, cuando se empieza a percibir  la Estadística como un instrumento que da luz y produce valiosos resultados en estudios cuyos movimientos y relaciones, por su variabilidad intrínseca, no pueden ser abordados desde la perspectiva de las leyes deterministas.

Cada manual sobre Ciencia Estadística incorpora una definición que varía en función del tipo de lector al que se dirige, pero todas coinciden en capacitar a la disciplina para registrar hechos y expresarlos matemáticamente, para investigar las relaciones que existen entre ellos aplicando principios emanados de la teoría de la probabilidad y para establecer, si es posible, el alcance de las leyes que regulan tales relaciones con la intención de realizar inferencias, ayudar a la toma de decisiones y, en su caso,  formular predicciones.

La Estadística mide y analiza los  sucesos calificables de casuales para llegar a explicar los principios por los cuales se rigen. Los eventos en cuya descripción se utilizan medidas y conceptos estadísticos se denominan eventos  estadísticos. Las leyes que expresan las relaciones exactas entre sucesos, propiedades o magnitudes parcial o totalmente estadísticas se llaman leyes estadísticas. Su grado de fiabilidad se incrementa en la medida que aumenta el número de elementos sobre los que operan.

Desde los comienzos de la civilización han existido formas sencillas de estadística. Así se pueden calificar las representaciones gráficas y  símbolos aparecidos en rocas y paredes de cuevas de la isla de Cerdeña, pertenecientes a la cultura Nuraga, que servían para llevar el control del ganado y la caza. De la antigüedad egipcia se conservan documentos acerca de  movimientos poblacionales y censos, todo bajo la advocación de Safnkit, diosa de los libros y las cuentas.

Hacia el año 3000 a. C. los babilonios  usaban pequeñas tablillas de arcilla para recopilar datos tabulados sobre producción agrícola. China posee censos anteriores al 2000 a. C. En la Biblia se localizan varios recuentos de población, en el Libro de los Números y en el Libro de las Crónicas:

“Locutusque est Dominus ad Moysen in deserto Sinai dicens: ‘Numera filios Levi per domos patrum suorum et familias omnem masculum ab uno mense et supra’.Numeravit eos Moyses, ut praeceperat Dominus, et inventi sunt filii Levi per nomina sua Gerson et Caath et Merari. Haec sunt nomina filiorum Gerson secundum familias suas: Lobni et Semei; filii Caath secundum familias suas: Amram et Isaar, Hebron et Oziel...”. [COLUNGA, A.1994:108].

Los griegos también realizan censos cuya información sirve para cobrar impuestos. A partir del Imperio Romano los gobiernos recopilan, de forma más o menos exhaustiva según época y talante, datos sobre población, superficie y renta de  los territorios bajo su control. En 1662 aparece el primer estudio estadístico notable de población titulado Observations on the London Bills of Mortality. Un trabajo  semejante sobre las defunciones contabilizadas en la ciudad de Breslau (Alemania), realizado en 1691, fue utilizado por el astrónomo inglés Edmund Halley como base para la primera tabla de mortalidad [A.H.E.P.E. 2002].

Los análisis estadísticos modernos se inician en el siglo XVII. Matemáticos como Pierre Fermat [FERMAT, P. 1894-1912] o Blaise Pascal [PASCAL. 1819], elaboran las primeras construcciones matemáticas probabilísticas a partir de aspectos relacionados con los juegos de azar que servirán de base para trabajos posteriores[1].

El origen de la ciencia probabilística se fija en 1654 a partir de la correspondencia mantenida entre ambos [TURNBULL  S. 1956:75‑178] en  torno a la resolución del llamado “problema de los pun­tos”.   El Cálculo de Probabilidades y la Estadística se consolidan como disciplinas independientes entre la segunda mitad del siglo XVII y los primeros años  del siglo XVIII. Es en este siglo cuando Godofredo Achenwall, profesor de Derecho Publico en la Universidad de Gottinga, utiliza por vez primera el término estadística como sustantivo etimológicamente derivado de status en su obra Geschichte der heutigen vornehmsten Europaeischen Staaten im Grundrisse [ACHENWALL, G.1749] y lo aplica al “conocimiento profundizado de la situación, o status,  relativa y comparada de cada Estado”. La Estadística produce, pues, inventarios, que describen cuantitativamente las cosas notables de un estado, pero amplía rápidamente su esfera de estudio al campo de los seguros marítimos y de la ciencia. 

A lo largo del siglo XIX las compañías aseguradoras, que exigen un cálculo exacto de  riesgos para ajustar el monto de sus pólizas, y la generalización del método científico, que precisa de un tratamiento más riguroso de sus datos para evitar la ambigüedad de las descripciones verbales y facilitar las comparaciones, estimulan la búsqueda de fórmulas capaces para trasladar cualquier clase de información a valores numéricos equivalentes.

Desde 1738 la incorporan a sus trabajos de física hombres  importantes como Bernoulli [BERNOULLI Society. 1987] o Maxwell [MAXWELL, J.C. 1998], que escribe  en  1854:

“E' ben noto che la conoscenza si basa sulle regole del corretto ragionamento. Tali regole sono, o dovrebbero essere, contenute nella Logica; ma quest'ultima tratta soltanto cose che sono certe, impossibili o completamente dubbie, nessuna delle quali (per fortuna) ci interessa. Perciò la vera logica di questo mondo è il calcolo delle probabilità, che tiene conto del concetto di probabilità che è, o dovrebbe essere, nella mente di ogni uomo ragionevole”.  [CERASOLI, M. 1995:39-41].

Son ellos  quienes van a constatar la existencia real de las leyes estadísticas y contribuirán de manera fundamental a su evolución. Posteriormente Boltzmann [COHEN, E. G. D. 1973] y Gibbs [GIBBS SYMPOSIUM. 1990] generalizan su empleo convenciendo a los escépticos de su utilidad en contextos experimentales. Bernoulli, por ejemplo, trabaja en la distribución que lleva su nombre y proporciona la primera solución al problema de estimar una cantidad desconocida a partir de un conjunto de mediciones de su valor que, por el error experimental, presentan variabilidad. Será pionero en la aplicación del cálculo infinitesimal al cálculo de probabilidades. Maxwell y Boltzmann desarrollan ecuaciones propias... 

A los estudios sobre la lengua llega más tarde y su introducción promueve avances considerables. Sugiere la posibilidad de establecer en el habla determinaciones cuantitativas y dota a los investigadores de un instrumento de análisis indispensable para fijar los rasgos característicos de ciertos fenómenos lingüísticos y sus relaciones. Permite demostrar que el lenguaje corriente responde en muchos aspectos a mecanismos que se ajustan a  reglas fijas destinadas a conseguir la correcta transmisión de información. Esto resulta esencial para el desarrollo de la teoría de la información y los lenguajes computacionales. Weaver [WEAVER.1949] estableció que la palabra información en la teoría de la comunicación hace más referencia a lo que se puede decir que a lo que efectivamente se dice[2], esto es, le interesa más la situación antes de la recepción del símbolo que el símbolo mismo.

La información es una medida de la libertad de selección cuando se escoge un mensaje. Se pueden  abordar,  así, cuestiones de estilo, descubrir la longitud media y la frecuencia de ciertas palabras o establecer la probabilidad de que aparezca una sílaba en el seno de una lengua. Por ejemplo, en español, la información que sigue a la letra “q” es muy limitada puesto que hay una mínima libertad de elección en lo que viene después (casi siempre  una “u”). El concepto de información se aplica no sólo a mensajes individuales, que sería más bien sentido, sino a la situación en tanto que un todo. Dice Zipf en 1949:

“De todos los actos de la conducta humana, solo la corriente del habla parece constituir un continuo que, con una mínima distorsión, se puede aislar del contexto de la conducta y, al mismo tiempo, rotular y estudiar en forma estadística con un alto grado de exactitud”. [Zipf. 1949].

 El objeto predilecto de esta clase de estudio es la palabra[3]. Ya en el año 900 a. C., los estudiosos del Talmud contaban las palabras e ideas de la Tora  [MILLER, G. A. 1979:107-108] para averiguar cuántas veces, y con qué frecuencia, aparecían formas inusuales. El respeto actual por ellas, consideradas como elementos obvios del lenguaje, no fue compartido por los antiguos. La escritura griega y la romana no las separaba en forma coherente. Fue  alrededor del siglo X cuando los amanuenses, y con posterioridad los impresores, se esfuerzan por dar mayor legibilidad a su trabajo y dignifican las unidades verbales dejando un espacio entre una y otra.      

La frecuencia de palabras se asocia generalmente al nombre de Zipf[4] por haber establecido  una ley fundamental [ZIPF, G. K. 1949] que afirma que, en cualquier texto, el producto de la frecuencia de cada palabra por su rango es constante.

George Kinsley Zipf (1902‑1950), profesor de Filología en la Universidad de Harvard, supone que el ser humano trata siempre de minimizar  el esfuerzo necesario para lograr sus objetivos, lo que, en circunstancias donde le es permitido escoger alternativas, le lleva a inclinarse por aquellos procesos que resultan en el menor consumo de energía. Esto significa  la existencia del principio del menor esfuerzo [ZIPF, G. K. 1949] en la conducta humana y hace posible  que, casi siempre, sus  patrones de actuación puedan ser analizados de acuerdo con este principio. De igual modo que cuando busca la unión de dos puntos  tiende hacia  la línea recta, cuando escribe, cuando habla, tiende hacia la mayor economía de palabras.

Basándose en estas observaciones Zipf formula su ley que relaciona frecuencia y rango. El procedimiento  para cuantificar ambos conceptos [BRAUN, E. 1996] empieza por contar las veces que se repite cada palabra en un texto. Obtiene el indicador frecuencia dividiendo el resultado de cada recuento entre el total de palabras del texto. Se ordenan ahora todos los términos siguiendo el orden decreciente de las frecuencias  resultantes. Se denomina  rango de la palabra al lugar que ocupa cada término en ese listado. Si en un texto la palabra de más frecuencia es “de”, en la lista ocupará el primer lugar y, por tanto, tendrá  rango uno. Si el artículo “el” tiene el segundo valor de frecuencia ocupará el segundo lugar en la lista y tendrá rango dos...

Del estudio de diferentes textos en varios idiomas deduce la existencia de  una relación entre  frecuencia y rango. Cuanto mayor es el rango menor es la frecuencia con la que aparece en el texto. Un rango alto se sitúa en la parte baja de la lista y eso  significa menor frecuencia. Esta dependencia actúa en forma inversa porque disminuye a medida que el rango aumenta. Si  f  denota  frecuencia y r  rango, f depende de r como 1/r. Este resultado se llama ley de Zipf de rango-frecuencia[5],  más generalmente expresada del siguiente modo:

r x f = C

 r  es el orden de la palabra en la lista

f  es la frecuencia

C es la constante para el texto 
 

 La tabla que sigue, tomada de Marcus, Nicolau y Staty [MARCUS. 1978:238] que supone un texto de 60 000 palabras, explica claramente la fórmula.

 

Rango

Frecuencia

Rango x frecuencia

10

2 653

26 530

100

265

26 530

1000

26

26 530

10000

2

26 530

29000

1

26 530

 

Esta relación es la misma que se obtiene para otros fenómenos físicos y naturales y que recibe el nombre de ley de potencias 1/f. En este caso, hablando en términos matemáticos, potencia ‑1.

De acuerdo con Zipf se puede predecir la frecuencia de una palabra partir de su rango usando la fórmula [GALICIA HARO, S. 2000:Cap.1.3]

 frecuencia  =  k   x  rango - ϒ

 k y ϒ son constantes empíricamente determinadas.

 

La ley de Zipf  vincula la frecuencia de ocurrencia de una palabra y el número total de palabras conocidas o utilizadas; esto es, la amplitud de vocabulario. Cuanto  menor es el vocabulario, mayor será la frecuencia de las palabras situadas en los primeros rangos.

Este hecho va a ser tenido muy en cuenta en la elaboración del modelo metodológico alternativo para la determinación de los coeficientes de disponibilidad léxica.

Otro ejemplo puede ilustrar el contenido de la teoría. Supóngase un buen escritor con un vocabulario activo cercano a las 100 000 palabras. Los términos que ocupen los primeros 10 lugares en la lista recogida de sus textos supondrán alrededor de 25% del total contabilizado, es decir, la frecuencia de estas 10 palabras es de 0.25.

En contraste, en un texto periodístico de unas 10 000 palabras el porcentaje apenas crece al 30%. Esto se debe principalmente a que el escritor no podrá evitar el uso de palabras como “de”, “el”, “y”, “a”... que, generalmente, ocupan los primeros rangos en cualquier texto.

La distribución de palabras, en varios lenguajes naturales, sigue la ley de Zipf [BAAYEN, H. 1992] siempre que el estudio se realice a partir de una muestra suficientemente amplia.

Después de Zipf la lingüística moderna ha acumulado una enorme cantidad de material procedente de la observación y descripción de hechos, relaciones, leyes y comparaciones que ha desbordado la capacidad de tratamiento de los problemas por métodos tradicionales y ha elevado a objeto de culto, de forma a veces temeraria, la metodología basada en modelos estadísticos, que, supuestamente,  proporcionan un amplio caudal de interpretaciones  a cambio de no demasiada exigencia de conocimientos numéricos.

Shannon [SHANNON. 1949; 1981] desde la teoría matemática de la comunicación, junto a la demanda de nuevos diccionarios más cercanos a la realidad y necesidades de una sociedad cada vez más global, contribuyen en gran manera a la difusión y conocimiento de experiencias, ensayos y formulaciones relacionadas con la estructura y enseñanza de las lenguas y la transmisión de datos.

Los nombres de Simón de Laplace [LAPLACE. 1812; 1825],  Bayes [BAYES. 1908], Markov [MARKOV. 1916] o Sharman [SHARMAN. 1989] entran de lleno en el ámbito lingüístico donde el auge del ordenador y la oferta de potentes programas informáticos, capaces de dar respuesta  en segundos a complicados algoritmos matemáticos, colaboran  a su desarrollo y  favorecen la aparición de nuevas disciplinas. Despegan la lingüística estadística y la lingüística matemática, que, a su vez, sirven de apoyatura para la solución nuevos problemas relacionados, a modo de ejemplo, con la indización y localización en Internet.

Métodos estadísticos en la investigación lingüística: Secuencias

Infografía

 

Ni que decir tiene que la mencionada “comodidad” es sólo aparente. Es grande el  riesgo de incurrir en desviaciones de bulto por aplicar fórmulas cuyo fundamento teórico no es dominado por el investigador que las utiliza.

Las consecuencias de estas actuaciones son construcciones artificiosas y estériles o, y ello es peor, engañosas. Aquí se entiende la estadística como un  auxiliar útil para la lengua.

La transformación de conceptos verbales en aspectos cuantitativos se debe hacer sólo en función de las necesidades metodológicas y con cuidado y respeto extremos para evitar interpretaciones abusivas que no se deriven de forma rigurosa y necesaria de los datos aducidos, o que se fuercen éstos para utilizarlos en algoritmos no aplicables al tipo al que corresponden.

Así ocurre, por ejemplo, cuando se opera con datos ordinales o nominales como si de medidas de intervalo se tratasen, o se aplican estadísticos paramétricos sobre muestras y poblaciones no paramétricas.

Debe tenerse en cuenta que:

“La clase de medida que se obtiene es una función de las reglas bajo las cuales fueron asignados los números. Las operaciones y relaciones en la obtención de puntajes; las manipulaciones y operaciones deben ser las de la estructura numérica a la que la medición es isomórfica. [...] Las mediciones nominales y ordinales son las realizadas más comúnmente en las ciencias de la conducta. Los datos medidos por escalas nominales y ordinales deben analizarse por métodos no paramétricos. Los datos medidos con escalas de  intervalo o de de proporción deben analizarse por métodos paramétricos si los supuestos del modelo estadístico paramétrico son sostenibles”. [SIEGEL. 1983:50]

La Tabla que sigue, también tomada de Siegel [SIEGEL. 1983:51], define las relaciones que se admiten dentro de cada categoría y muestra en esquema las operaciones permitidas para cada rango de datos.

De acuerdo con ella no es procedente, por ejemplo, calcular una media geométrica a partir de datos de intervalo. De igual manera determinar una media natural cuando se opera con medidas de proporción, que admiten la media geométrica, puede significar una perdida de información adicional valiosa para el proyecto en que se incardina la estimación.

Escala

Relaciones definidas

Estadísticos apropiados

Pruebas  apropiadas

Nominal

Equivalencia

Moda

Frecuenc.

Coef. de contingenc.

Pruebas estadíst. no paramét.

 

 

Ordinal

Equivalencia

De mayor a menor

Mediana

Percentiles

Spearman rs

Kendall r

Intervalo

Equivalencia

De mayor a menor

Proporción conocida de un intervalo a cual­quier otro

Media

Desviación estándar

Correlac. del momento-producto de Pearson.

Correlac. del múltiple momento producto

Pruebas estadíst. paramét. y no paramét.

           

 

Proporc.

Equivalencia

De mayor a menor

Proporción conocida de un intervalo a cualquier otro

Proporción conocida de un valor de la escala a cualquier otro

Media geométrica

Coef. de variación

         

Otra deficiencia de naturaleza más profunda puede emerger si las ecuaciones diseñadas no tienen su origen y fundamento en propiedades objetivamente extraídas de la organización lingüística misma. Se pueden aplicar formulaciones de carácter estrictamente teórico a partir de elementos empíricos, pero siempre que éstos se infieran matemáticamente de fenómenos de la lengua, sin forzar unas u otros en interés de la investigación.

Los experimentos, a su vez, deben desarrollarse con arreglo a las condiciones impuestas por los algoritmos. Si no son significativos de esta manera, conviene  delimitar  con exactitud las diferencias que se observan para comprobar eventualmente por vía empírica la validez del cálculo en circunstancias más generales respecto de aquellas en que se estableció, homologando, si  éste es el caso, las nuevas condiciones como una investigación teórica más.

Tampoco se puede utilizar la forma matemática para dar imagen de cientificidad a las conclusiones derivadas de una determinada formulación universalmente validada y reconocida por la comunidad científica,  cuando se han sustituido, en la totalidad o en parte, los factores y elementos constituyentes del cálculo, supuestamente asépticos y objetivos, por apreciaciones y mediciones subjetivas o no objetivadas.

Antonio García Megía

 

Notas

[1] Pueden encontrarse ediciones más modernas de estos autores. Véanse TANNERY, P. [1999] y TORRECILLAS, J. [1999], en relación a Fermat y  MARTÍNEZ, R. [1999] sobre Pascal.

[2] Aquí se tratará más adelante, al tomar el tema de la entropía lingüística.

[3] Es corriente distinguir entre palabras y unidades léxicas. Una unidad léxica es una entrada única en el diccionario, bajo la cual se agrupan varias palabras relacionadas.

[4] Con anterioridad a Zipf ya se había trabajado con frecuencias e incluso rangos. LÓPEZ MATEO, V. [1998:31-38] hace una interesante reseña histórica sobre léxico-estadística que inicia en 1987 con  Kärding y su búsqueda de las palabras más usuales del alemán.

[5] También se conoce como “ley de Estoup-Zipf” ya que, al parecer había sido señalada por Estoup en 1916. Zipf se habría limitado a confirmarla [MARCUS, NICOLAU y STATI. 1978:237].

 


ADEMÁS

 

Responsables últimos de este proyecto

Antonio García Megía y María Dolores Mira y Gómez de Mercado

Son: Maestros - Diplomados en Geografía e Historia - Licenciados en Flosofía y Letras - Doctores en Filología Hispánica

Apunte estadístico

Portal activo desde abril de 2004. Los auditores de seguimiento que contabilizan las visitas desde esa fecha acreditan una suma entre 4.000 y 10.000 visualizaciones diarias para el conjunto de secciones que lo integran. Las visitas en el servidor «https» son privadas y no quedan reflejadas en  los contadores visibles