Frecuencia de aparición de letras

Frecuencia de aparición de letras: El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:

El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".

El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se llama Wenceslao, aumentará el número de "W".

El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.

En el diccionario de la RAE la letra más frecuente es la A, pero en cualquier texto castellano, la frecuencia de las partículas "que", "el", "se", "me", etc. hace que la "e" sea más frecuente.

Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, éstos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.

La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma, punto son por ejemplo más frecuentes que más de la mitad de las letras.

Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.

Porcentaje de aparición de letras en español:^[1]

Letra Porcentaje

A 12,53

B 1,42

C 4,68

D 5,86

E 13,68

F 0,69

G 1,01

H 0,70

I 6,25

J 0,44

K 0,01

L 4,97

M 3,15

N 6,71

Ñ 0,31

O 8,68

P 2,51

Q 0,88

R 6,87

S 7,98

T 4,63

U 3,93

V 0,90

W 0,02

X 0,22

Y 0,90

Z 0,52

Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J Ñ X W K

A partir de los datos anteriores, se puede decir que:

Las vocales ocuparán alrededor del 45% del texto.

La E y la A son identificables fácilmente dado su porcentaje de aparición.

Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%)

Las seis letras menos frecuentes son: Z,J,Ñ,X,W,K (sumadas tienen una frecuencia que apenas supera el 1,5%)

Contenido

1 Ejemplo concreto: el Quixote

2 La Regenta, de Leopoldo Alas (Clarín)

3 Otros sistemas

4 Referencias

5 Enlaces externos

Ejemplo concreto: el Quixote

El texto del Quixote[1] contiene 1.640.502 letras:

Letra Cantidad Porcentaje

e 229188 14,0%

a 200492 12,2%

o 162512 9,9%

s 125726 7,7%

n 108440 6,6%

r 100953 6,2%

i 90070 5,5%

l 89141 5,4%

d 87237 5,3%

u 79471 4,8%

t 61749 3,8%

c 59435 3,6%

m 44658 2,7%

p 35464 2,2%

q 32483 2,0%

y 25115 1,5%

b 24146 1,5%

h 19920 1,2%

v 17855 1,1%

g 17225 1,0%

j 10530 0,6%

f 7581 0,5%

z 6491 0,4%

ñ 4241 0,3%

x 377 0,0%

w 2 0,0%

k 0 0,0%

La Regenta, de Leopoldo Alas (Clarín)

http://www.gutenberg.org/cache/epub/17073/pg17073.txt

Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación ". , ; :"

Hay que señalar los siguientes resultados:

1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.

2. La letra “a” es algo más abundante que la letra “e”.

3. Los signos de puntuación “,” y “.” son más abundantes que la letra “q” y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el "punto y coma" supera a la “ñ” y los "dos puntos" a la “k”.

Letra Cantidad Porcentaje

espacio 305290 17,599

a 192666 11,107

e 176252 10,160

o 128009 7,379

s 101317 5,841

r 89243 5,145

n 87585 5,049

i 86284 4,974

l 83524 4,815

d 67215 3,875

u 57662 3,324

t 53937 3,109

c 52346 3,018

m 36500 2,104

p 33970 1,958

b 26658 1,537

. 26079 1,503

, 24447 1,409

q 17773 1,025

v 15491 0,893

g 15202 0,876

h 13796 0,795

y 13619 0,785

f 8454 0,487

j 6428 0,371

z 5549 0,320

; 3658 0,211

ñ 3501 0,202

x 1224 0,071

: 941 0,054

k 59 0,003

w 20 0,001

Total 1734699

http://www.kriptopolis.org/frecuencia-letras-castellano

Otros sistemas

Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de La Regenta antes citado.

Referencias

↑ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.

Enlaces externos

Categorías:
Alfabeto
Lingüística cuantitativa
Ortografía

Letra	Porcentaje
A	12,53
B	1,42
C	4,68
D	5,86
E	13,68
F	0,69
G	1,01
H	0,70
I	6,25
J	0,44
K	0,01
L	4,97
M	3,15
N	6,71
Ñ	0,31
O	8,68
P	2,51
Q	0,88
R	6,87
S	7,98
T	4,63
U	3,93
V	0,90
W	0,02
X	0,22
Y	0,90
Z	0,52

Letra	Cantidad	Porcentaje
e	229188	14,0%
a	200492	12,2%
o	162512	9,9%
s	125726	7,7%
n	108440	6,6%
r	100953	6,2%
i	90070	5,5%
l	89141	5,4%
d	87237	5,3%
u	79471	4,8%
t	61749	3,8%
c	59435	3,6%
m	44658	2,7%
p	35464	2,2%
q	32483	2,0%
y	25115	1,5%
b	24146	1,5%
h	19920	1,2%
v	17855	1,1%
g	17225	1,0%
j	10530	0,6%
f	7581	0,5%
z	6491	0,4%
ñ	4241	0,3%
x	377	0,0%
w	2	0,0%
k	0	0,0%

Letra	Cantidad	Porcentaje
espacio	305290	17,599
a	192666	11,107
e	176252	10,160
o	128009	7,379
s	101317	5,841
r	89243	5,145
n	87585	5,049
i	86284	4,974
l	83524	4,815
d	67215	3,875
u	57662	3,324
t	53937	3,109
c	52346	3,018
m	36500	2,104
p	33970	1,958
b	26658	1,537
.	26079	1,503
,	24447	1,409
q	17773	1,025
v	15491	0,893
g	15202	0,876
h	13796	0,795
y	13619	0,785
f	8454	0,487
j	6428	0,371
z	5549	0,320
;	3658	0,211
ñ	3501	0,202
x	1224	0,071
:	941	0,054
k	59	0,003
w	20	0,001

Игры ⚽ Нужна курсовая?

Mira otros diccionarios:

Frecuencia de aparición de letras — El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: ● El estilo narrativo.… … Enciclopedia Universal
Frecuencia Latina — Eslogan Piensa en grande Tipo de canal Aire y Cable Programación Variada Propietario Compañía Latinoamericana de Radiodifusión S.A. Operado po … Wikipedia Español
Distribución de las letras en el Scrabble — Saltar a navegación, búsqueda Muchas ediciones del juego de tablero Scrabble varían en la distibución de letras de las piezas, porque la frecuencia de aparición de cada letra en el alfabeto es diferente para cada idioma. Como regla general, la… … Wikipedia Español
Scrabble — Jugadores 2 4 Edades 8+ Preparación 2 5 min. Duración NSA torneo: unos 50 min … Wikipedia Español
Síndrome de Down — Cariotipo mo … Wikipedia Español
Manuscrito Voynich — Fragmento del manuscrito Voynich. El manuscrito Voynich es un misterioso libro ilustrado, de contenidos desconocidos, escrito hace unos 500 años por un autor anónimo en un alfabeto no identificado y un idioma incomprensible, el denominado… … Wikipedia Español
Teoría de la información — Este artículo está siendo desarrollado y forma parte de un proyecto educativo. Es posible que a causa de ello haya lagunas de contenido o deficiencias de formato. Si quieres puedes ayudar y editar, pero por favor antes de realizar correcciones… … Wikipedia Español
Logo de secuencias — En bioinformática, un logo de secuencias es una representación gráfica de la conservación de una secuencia de nucleótidos (en una cadena de ADN o de ARN), o de aminoácidos (en secuencias de proteínas). Para crear logos de secuencias, las… … Wikipedia Español
Ortografía del español — Contenido 1 Letras 1.1 Variaciones nomenclaturales 2 Regularidad e irregularidad ortográfica 3 Historia … Wikipedia Español
Frank Zappa — Para otros usos de este término, véase Zappa (desambiguación). Frank Zappa … Wikipedia Español

Los diccionarios y las enciclopedias sobre el Académico

Frecuencia de aparición de letras

Contenido

Ejemplo concreto: el Quixote

La Regenta, de Leopoldo Alas (Clarín)

Otros sistemas

Referencias

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Los diccionarios y las enciclopedias sobre el Académico

Wikipedia Español

Frecuencia de aparición de letras

Contenido

Ejemplo concreto: el Quixote

La Regenta, de Leopoldo Alas (Clarín)

Otros sistemas

Referencias

Enlaces externos

Mira otros diccionarios:

Compartir el artículo y extractos

Link directo