Población estadística
conjunto de elementos que comparten al menos una propiedad en común que es objeto de un análisis estadístico
From Wikipedia, the free encyclopedia
En estadística, una población es un conjunto de elementos o eventos similares que son de interés para alguna pregunta o experimento.[1][2] Una población estadística puede ser un grupo de objetos existentes (por ejemplo, el conjunto de todas las estrellas dentro de la Vía Láctea) o un grupo hipotético y potencialmente infinito de objetos concebidos como una generalización de la experiencia (por ejemplo, el conjunto de todas las manos posibles en un juego de póquer).[3] Un objetivo común del análisis estadístico es producir información sobre alguna población elegida.[4]
En la inferencia estadística, se elige un subconjunto de la población (una muestra estadística) para representar a la población en un análisis.[5] La relación entre el tamaño de esta muestra y el tamaño de la población se denomina fracción de muestreo. Es entonces posible estimar los parámetros de la población utilizando las estadísticos de la muestra adecuados.[6]
Por ejemplo, supóngase un estudio para conocer el peso de los 1000 estudiantes de un gimnasio. Se eligen 50 individuos y se anotan sus respectivos pesos. La variable aleatoria a observar es el "peso". La población está formada por los 1000 estudiantes y la muestra, por los 50 estudiantes cuyos pesos fueron medidos. Se espera que esta muestra, si se elige adecuadamente, tenga características similares (llamadas parámetros) a las de la población en estudio.
Historia
El desarrollo del concepto de población estadística puede rastrearse hasta principios del siglo XVIII. Los cimientos de la estadística moderna fueron establecidos por pioneros como John Graunt, quien estudió datos demográficos, y Thomas Bayes,[7] cuyo trabajo en teoría de la probabilidad proporcionó un marco para entender el comportamiento de las poblaciones.[8]
La formalización de las poblaciones estadísticas como un elemento clave de la inferencia surgió en el siglo XIX con el desarrollo de la teoría de la probabilidad por figuras como Pierre-Simon Laplace[9] y Carl Friedrich Gauss.[10] La introducción de la teoría de muestreo, particularmente a través del trabajo de Ronald A. Fisher y Jerzy Neyman, revolucionó la forma en que los investigadores abordaron los datos poblacionales y la estimación.
En el siglo XX, el auge del muestreo por encuestas y el análisis de datos refinó aún más el concepto. El advenimiento de herramientas computacionales permitió la simulación de poblaciones infinitas y estrategias de muestreo más complejas, ampliando la aplicabilidad de los estudios basados en poblaciones a campos como la economía, la medicina y las ciencias sociales.
Hoy en día, el concepto de población estadística sigue siendo fundamental en la investigación, moldeando metodologías para el muestreo, la prueba de hipótesis y la estimación en diversas disciplinas.
Tipos de poblaciones

Una población estadística es el conjunto completo de individuos, elementos o datos que comparten una característica común y son el objeto de un análisis. Es el grupo del cual se puede extraer una muestra y al cual se hacen inferencias. Este concepto es central en estadística, probabilidad y ciencia de datos.[11]
Las poblaciones estadísticas pueden clasificarse en varios tipos:
- Población finita: Es un conjunto con un número limitado de elementos, como la población de una ciudad específica o la producción total de una fábrica en un año.[12]
- Población infinita: Se refiere a una población teórica o conceptual con un número ilimitado de elementos, como todos los resultados posibles en un proceso aleatorio (ej. los lanzamientos de un dado).[12]
- Población objetivo y población de muestreo: La población objetivo es el grupo de interés en un estudio, mientras que la población de muestreo es el subconjunto de esta que puede ser observado de manera realista. Las discrepancias entre ambas pueden introducir sesgos en los análisis.[13]
- Población homogénea y heterogénea: Una población homogénea consiste en elementos similares con poca varianza, mientras que una heterogénea contiene elementos diversos con diferencias sustanciales.[13] Esta última generalmente requiere técnicas de muestreo más complejas.
Media poblacional

La media poblacional (comúnmente denotada como μ), o valor esperado, es una medida de tendencia central de una distribución de probabilidad o de una variable aleatoria.[14]
En una distribución de probabilidad discreta de una variable aleatoria X, la media es la suma ponderada de cada valor posible por su probabilidad:
Para una distribución de probabilidad continua, se utiliza una fórmula análoga con integrales. No todas las distribuciones tienen una media definida (por ejemplo, la distribución de Cauchy).
Para una población finita, la media poblacional de una propiedad es la media aritmética de dicha propiedad para todos los miembros de la población.[17] La media muestral (x̄) es un estimador de la media poblacional. La ley de los grandes números establece que, a medida que aumenta el tamaño de la muestra, la media muestral se aproxima a la media poblacional.[18]
Subpoblación

Un subconjunto de una población que comparte una o más propiedades adicionales se denomina subpoblación.[19] Por ejemplo, si la población son todos los egipcios, una subpoblación son los varones egipcios. A diferencia de una subpoblación, una muestra es un subconjunto de la población que no se define por compartir una propiedad adicional, sino que se selecciona para su estudio.
Las estadísticas descriptivas pueden arrojar resultados muy diferentes para distintas subpoblaciones.[20] Por ejemplo, un medicamento puede tener efectos distintos en hombres y en mujeres; si no se analizan estas subpoblaciones por separado, el efecto podría quedar oculto.
Las poblaciones compuestas por subpoblaciones pueden modelarse mediante modelos de mezcla.[21] Si el modelo general no se ajusta bien a los datos, puede ser indicio de la existencia de subpoblaciones no consideradas. Por ejemplo, dos subpoblaciones normales con diferentes medias pueden dar lugar a una distribución general bimodal o con un pico inusualmente ancho.[22]
Investigación mediante encuestas
Para describir poblaciones que no se han registrado por completo, se utilizan métodos estocásticos,[23] particularmente la estadística inferencial. A partir de la recopilación de datos de una muestra que se supone representativa, se extraen conclusiones sobre la población real que se busca (la población objetivo).
Por ejemplo, en la investigación electoral no se pregunta a toda la población elegible, sino que se selecciona una muestra cuyas características reflejen las de la población objetivo (edad, género, residencia, etc.). Los datos se extrapolan a la población mediante métodos estadísticos para producir un pronóstico. En este caso, la población se define como el conjunto de personas que votarán por un partido en una fecha específica.
Es importante señalar que la población objetivo (ej. mayores de 18 años) a menudo no es idéntica a la población real de la que se extrae la muestra.[24] Esto se debe a la falta de cobertura (personas sin hogar, en instituciones, etc.) y a la falta de respuesta (personas que, estando en la muestra, no contestan). Estos fenómenos pueden introducir sesgos si no se corrigen adecuadamente.