Abstract:
RESUMEN: En este trabajo se cuantifica la irregularidad de diferentes lenguajes naturales pertenecientes a la familia lingüistica indoeuropea y dos artificiales (esperanto e interlingua). Se modifica un método bien conocido en el análisis de series de datos fisiológicos para calcular la entropía aproximada y la entropía de muestra en distintos textos. Los métodos muestran diferentes comportamientos que son consistentes para lenguajes de una subfamilia y distintos entre dichas subfamilias, también es posible distinguir entre los textos originales y versiones aleatorias de ellos. Se extiende el estudio al caso de múltiples escalas y los resultados revelan que los textos reales tienen una estructura no trivial comparada con las versiones aleatorias.
ABSTRACT: In the present work, we quantify the irregularity of different natural languages belonging to the Indo-European linguistic family We modified a well-known method used in the study of physiological series to calculate the approximate and sample entropy of written texts. We find differences in the degree of irregularity between the subfamilies and our method, which is based on the search of regularities in a sequence of symbols, consistently distinguishes between natural and synthetic randomized texts. Moreover, we extended our study to the case where multiple scales are accounted for, such as the multiscale entropy analysis. Our results revealed that real
texts have non-trivial structure compared to the ones obtained from randomization procedures.
Description:
Tesis (Doctorado en Ciencias Fisicomatemáticas), Instituto Politécnico Nacional, SEPI, ESFM, 2018, 1 archivo PDF, (52 páginas). tesis.ipn.mx