Introducción
Los estadísticos más utilizados
para conocer la distribución de los datos entre dos variables son el
gráfico de la curva de Lorentz, y el Coeficiente e Índice de Gini.
Existen varias formulas para el cálculo
del Índice de Gini, una de ellas es a partir de la obtención de la
superficie bajo la curva de Lorentz.
Elaboración del
gráfico del área de Lorentz
El Gráfico del área de Lorentz, viene
determinado por la intersección de los ejes Y - X en un cuadrado regular en el que
cada eje tiene un valor igual a 100.
Trazando las líneas de intersección de las cien
unidades de los
ejes Y - X, el resultado es una retícula con una superficie
iguala a 100
x 100 =
10.000 cuadrados, siendo el valor de la superficie de cada cuadrado
igual a 1.
La diagonal trazada desde el punto
cero de intersección de los
ejes Y - X, divide el cuadrado en dos triángulos rectángulos, con una
superficie equivalente a 10.000/2 = 5.000 cuadrados cada uno.
La suma de los 100 triángulos rectángulos que crea la diagonal es igual
al equivalente de 100/2 = 50 cuadrados.
Línea de Lorentz
Para trazar
la distribución de los datos entre dos variables, se precisa en primer lugar marcar los puntos de
intersección de la dos variables a comparar.
En el siguiente ejemplo, se va a calcular
la distribución de la riqueza mundial, a partir de dos variables: 1ª la riqueza
mundial (Y); 2ª el número de adultos que poseen la riqueza (X), dividida en cuatro
tramos de riqueza.
1. El número de adultos que poseen más
de un millón de dólares ($) estadounidenses.
2. Los que poseen entre 100.000 y un
millón de dólares.
3. Los que poseen entre 10.000 a 100.000
dólares.
4. Los que su riqueza está por debajo de
los 10.000 dólares.
Los datos para los cuatro tramos de
riqueza es la siguiente:
Fuente datos. Research Institute.
Credit Suisse. Año 2017.
Elaboración propia.
Par obtener los puntos de intersección
de las dos variables elaboramos una tabla en la que:
1º Las cifras absolutas de las variables
Y -X ocuparán las dos primeras columnas.
2º- Ordenamos los datos por el eje Y de
forma ascendente.
3º En la tercera columna, obtenemos
los porcentajes de cada serie de datos
del
eje Y
(riqueza
, y
en la cuarta
columna
los del eje X (adultos).
4º- Sumamos los porcentajes
acumuladamente.
El resultado sería el siguiente:
Los porcentajes acumulados nos dan los
puntos de intersección de las series de datos del eje Y con el eje X, y la unión
de los mismos mediante una línea nos ofrece el área de Lorentz debajo de la
misma.
Cálculo del área bajo la línea de Lorentz
La superficie bajo la línea que une los puntos de intersección
● forma un área irregular, la cual hay que
calcularla descomponiéndola en diferentes formas geométricas regulares y sumando
las mismas.
Todo área bajo la línea de Lorentz se
puede dividir en triángulos y rectángulos.
El número de triángulos siempre será uno
más que el número de rectángulos debido a que el triángulo que forma la primera
serie de datos forma un área regular (triángulo), y por lo tanto no precisa su
fragmentación. El resto de formas se dividen en rectángulos en la base y triángulos en su parte
superior.
En el siguiente ejemplo se puede ver la
división completa en triángulos y rectángulos.
Área de los triángulos
La altura de los triángulos es igual al
porcentaje de
cada serie de datos
en el eje Y.
La base
de los triángulos es igual al porcentaje de
cada serie de datos
en el eje X .
Conocidos
estos datos se obtiene el área de los triángulos.
La superficie total sería igual a la suma de sus áreas.
En el ejemplo, el área que ocupan los
triángulos suma 391,99 cuadrados de la retícula.
Área de los
rectángulos
En el cálculo del área de los rectángulos, la altura sería igual al porcentaje
acumulado
de las series de datos del eje Y. La última serie de datos no se tiene en cuenta
porque lo
ocupa el triángulo final.
La base del rectángulo
primero sería igual al porcentaje de la
2ª
serie de datos en el eje X, pues el porcentaje de la 1ª serie de
datos corresponde al triángulo primero. El resto de bases de cada rectángulo
será siempre el valor porcentual de la siguiente serie de datos en X.
El área que ocupan los rectángulos suma 209,91 cuadrados de la retícula.
La suma de las áreas de los triángulos y rectángulos da como resultado el área
total bajo la línea de Lorentz: 391,99 + 209,91 = 601,90
cuadrados de la retícula.
Una vez conocido este valor, el cálculo del
coeficiente e índice de Gini sería el siguiente:
Cálculo del
coeficiente e índice de Gini
La superficie total del triángulo inferior que
conforma la diagonal es igual a: 100 x 100/2 =5.000 cuadrados de la
retícula.
La superficie bajo la línea de Lorentz ocupa
601,90 cuadrados de la retícula.
El área entre la línea de Lorentz y la
diagonal representa la superficie de concentración: 5.000 - 601,90=
4.398 cuadrados de la retícula.
El Coeficiente de Gini se obtiene
dividiendo la
superficie de concentración por la superficie total del triángulo
general que conforma la diagonal: 4.398 / 5.000 =
0,88; siendo en este coeficiente el valor (1) igual a la máxima desigualdad: 5.000/5.000=1; (un solo adulto posee toda la riqueza),
y el valor
(0) igual a la máxima igualdad: 0/5.000=0; (todos los adultos del mundo
poseen la misma riqueza), el cual representa a la
diagonal que equivale a la distribución perfecta entre el eje X, y el eje Y.
El Coeficiente de Gini visto en
porcentaje se define como el Índice de Gini, e indica que el grado de concentración de la riqueza
mundial es del 88%.
Línea y Curva de Lorentz
Hasta ahora, se habrá observado que se
ha venido usando el término línea de Lorentz en
lugar de curva de Lorentz. Ello es porque la línea
que trazamos para unir los puntos de intersección de las dos variables no es
curva sino la unión de varias rectas, lo que nos permite calcular el área de la
forma geométrica irregular bajo esa línea dividiéndola en formas geométricas
regulares.
Pero en realidad la línea ajustada que
debiera unir
los puntos de intersección de las dos variables tiene que ser curva,
acentuándose su curvatura en la medida que
disminuye
el área bajo la curva de Lorentz, y
aumenta
por lo tanto
la
superficie de concentración.
En el caso de una distribución perfecta
entre el eje X, y el eje Y, el resultado sería la diagonal, y la línea
curva y la recta serían idénticas.
El siguiente gráfico muestra las
diferencias.
En el ejemplo, la
curva de Lorentz dibujada en verde ofrece
bajo la misma
una superficie menor que
la línea roja formada por rectas, por lo que el procedimiento anterior
para realizar los cálculos del Índice de Gini refleja
siempre una
superficie mayor bajo la línea de Lorentz y, como resultado, el Índice de Gini es
menor.
El cálculo del método
anterior de división de la superficie en formas geométricas regulares no sirve
en el caso de una línea curva, pues cualquier forma geométrica con un
lado curvo siempre nos ofrecerá una forma geométrica irregular. Por ello, el procedimiento de obtención
del área bajo la curva de Lorentz, debe ser diferente.
El cálculo se puede realizar aplicando
un método
estadístico en el que sabemos que la superficie de cada cuadrado de la retícula
es igual a 1, por lo que si contamos los cuadrados que hay bajo la curva de Lorentz obtendremos la superficie total de los cuadrados que no los
fracciona la línea
curva de Lorentz.
Para los cuadrados que la curva de
Lorentz los fracciona en dos porciones se aplica un valor de 0,5; pues
se demuestra estadísticamente que el valor central de 0,5 es el óptimo que
compensa las fracciones entre un valor inferior a o,5 y las fracciones con un
valor superior .
La suma del número de cuadrados con
valor 1 y con valor 0,5, nos daría como resultado la superficie real bajo la
curva de Lorentz. En el presente ejemplo, el número de cuadrados con valor 1, es
de 393, y el número con valor 0,5 es de 191,5.
Con este método, la superficie bajo la curva de Lorentz
sería igual:
En el primer cálculo
por áreas geométricas, el Índice de Gini
es de 88%, mientras que el realizado por cálculo
estadístico en base a los cuadrados de la retícula bajo la curva de Lorentz es
de 90%.
Las diferencias entre ambos cálculos
será menor en la medida que:
1º El cálculo se realice con un mayor número de series
de pares de datos
(Y-X), que da como resultado un mayor número de formas
geométricas lo que permite acotar con mayor precisión el área bajo la línea de
Lorentz.
2º La distribución de las dos variables sea más uniforme, es decir, que el área
bajo la curva de Lorentz sea mayor, pues la curvatura de línea que une los
puntos de intersección de las variables (Y-X) es menor, de tal manera que en el caso de que la relación entre las
dos variables fuera perfecta el resultado sería la línea diagonal, en ese caso
las diferencias entre una línea curva y recta sería nula.
Se puede considerar que el margen de error entre ambos cálculos (2%)
debido a:
1º El escaso número de series de
datos relacionadas (cuatro).
2º La desigual distribución entre las dos variables que
determina un área bajo la curva de Lorentz muy pequeña.
Se sitúa en el margen de error más alto
que pueda haber en todas las distribuciones
posibles, por lo que
el cálculo basado en la obtención de la superficie bajo
la línea de Lorentz por áreas geométricas regulares es perfectamente válido.
Cálculo automático del
Índice de Gini basado en el gráfico de Lorentz
Matriz de cálculo
En la siguiente matriz de cálculo
introduciendo los datos en las casillas de las columnas de encabezado amarillo
en orden ascendente por la variable del Eje Y, hasta un máximo de 20 pares de datos
(Y-X), se
obtiene automáticamente la superficie bajo la curva de Lorentz, y el Índice de Gini.