Modelo de datos geográficos

From Wikipedia, the free encyclopedia

Un modelo de datos geográficos, modelo de datos geoespaciales o simplemente modelo de datos en el contexto de los sistemas de información geográfica es una estructura matemática y digital para representar fenómenos sobre la tierra. En general, dichos modelos de datos representan varios aspectos de estos fenómenos por medio de datos geográficos incluidas las ubicaciones espaciales, los atributos, los cambios en el tiempo y la identidad. Por ejemplo, el modelo de datos vectoriales representa la geografía como conjuntos de puntos, líneas y polígonos, y el modelo de datos ráster representa la geografía como matrices de celdas que almacenan valores numéricos. Los modelos de datos se implementan en todo el ecosistema GIS, incluidas las herramientas de software para la gestión de datos y el análisis espacial, los datos almacenados en una variedad de formatos de archivo GIS, especificaciones y estándares, y diseños específicos para instalaciones GIS.

Si bien la naturaleza única de la información espacial ha llevado a su propio conjunto de estructuras de modelo, gran parte del proceso de modelado de datos es similar al resto de la tecnología de la información, incluida la progresión de modelos conceptuales a modelos lógicos y modelos físicos y la diferencia entre modelos genéricos y diseños para aplicaciones específicas.[1]

Los primeros sistemas informáticos que representaron fenómenos geográficos fueron modelos de análisis cuantitativo desarrollados durante la revolución cuantitativa en geografía en las décadas de 1950 y 1960; estos no podían llamarse un sistema de información geográfica porque no intentaban almacenar datos geográficos en una estructura permanente consistente, sino que por lo general eran modelos estadísticos o matemáticos.[2] El primer software GIS verdadero modeló información espacial utilizando modelos de datos que se conocerían como ráster o vector:

  • SYMAP (creada por Howard Fisher, Laboratorio de Gráficos por Computadora y Análisis Espacial de Harvard, desarrollado entre 1963 y 1967) produjo mapas ráster, aunque los datos generalmente se ingresaban como contornos de regiones similares a vectores o puntos de muestra y luego se interpolaban en una estructura ráster para la salida. El paquete GRID, desarrollado en el laboratorio en 1969 por David Sinton, se basó en SYMAP pero se centró más en el almacenamiento permanente y el análisis de datos cuadriculados, convirtiéndose así quizás en el primer software GIS raster de propósito general.
  • El Sistema de Información Geográfica Canadiense (por Roger Tomlinson, Canada Land Inventory, desarrollado entre 1963 y 1968) almacenó datos de recursos naturales como "caras" (polígonos vectoriales), aunque generalmente se derivaban de escaneos rasterizados de mapas en papel.
  • La codificación de mapa dual independiente (DIME, Oficina del Censo de Estados Unidos, 1967) fue quizás el primer modelo robusto de datos vectoriales que incorporó topología de red y polígono y atributos suficientes para permitir la geocodificación de direcciones.
  • Al igual que el CGIS, las primeras instalaciones de GIS en los Estados Unidos a menudo se centraban en los inventarios del uso de la tierra y los recursos naturales, incluido el Sistema de Información de Gestión de Tierras de Minnesota (MLMIS, 1969), el Inventario de Uso de la Tierra y Recursos Naturales de Nueva York (LUNR, 1970), y el Sistema de información de modelado regional de Oak Ridge (ORRMIS, 1973). A diferencia de CGIS, todos estos eran sistemas raster inspirados en SYMAP, aunque MLMIS se basaba en subsecciones del Public Land Survey System , que no es una cuadrícula regular perfecta.

La mayoría de los SIG de primera generación se crearon a la medida para necesidades específicas, con modelos de datos diseñados para ser almacenados y procesados de la manera más eficiente utilizando las limitaciones tecnológicas del momento (especialmente tarjetas perforadas y tiempo de procesamiento de mainframe limitado). Durante la década de 1970, los primeros sistemas habían producido resultados suficientes para compararlos y evaluar la eficacia de sus modelos de datos subyacentes.[3] Esto condujo a esfuerzos en el Laboratorio de Harvard y en otros lugares centrados en desarrollar una nueva generación de modelos de datos genéricos, como el modelo de vector topológico POLYVRT que formaría la base para software comercial y datos como Esri Coverage.

A medida que en la década de 1980 proliferaban el software GIS comercial, las instalaciones GIS y los datos GIS, los académicos comenzaron a buscar modelos conceptuales de fenómenos geográficos que parecían subyacer a los modelos de datos comunes, tratando de descubrir por qué los modelos de datos ráster y vectoriales parecía tener sentido común, y cómo medían y representaban el mundo real. Este fue uno de los hilos principales que formaron la subdisciplina de la ciencia de la información geográfica a principios de la década de 1990.

Los desarrollos adicionales en el modelado de datos GIS en la década de 1990 fueron impulsados por rápidos aumentos tanto en la base de usuarios GIS como en la capacidad informática. Las principales tendencias incluyeron 1) el desarrollo de extensiones a los modelos de datos tradicionales para manejar necesidades más complejas como tiempo, estructuras tridimensionales, incertidumbre y multimedia; y 2) la necesidad de administrar de manera eficiente volúmenes exponencialmente crecientes de datos espaciales con las necesidades empresariales de seguridad y acceso multiusuario.[4] Estas tendencias eventualmente culminaron en la aparición de bases de datos espaciales incorporadas en bases de datos relacionales y bases de datos relacionales de objetos.

Tipos de modelos de datos

Debido a que el mundo es mucho más complejo de lo que se puede representar en una computadora, todos los datos geoespaciales son aproximaciones incompletas del mundo. Por lo tanto, la mayoría de los modelos de datos geoespaciales codifican alguna forma de estrategia para recolectar una muestra finita de un dominio a menudo infinito y una estructura para organizar la muestra de tal manera que permita la interpolación de la naturaleza de la porción no muestreada. Por ejemplo, un edificio consta de un número infinito de puntos en el espacio; un polígono vectorial lo representa con unos pocos puntos ordenados, que se conectan en un contorno cerrado mediante líneas rectas y suponiendo que todos los puntos interiores forman parte del edificio; además, un atributo de "altura" puede ser la única representación de su volumen tridimensional.[5]

El proceso de diseño de modelos de datos geoespaciales es similar al modelado de datos en general, al menos en su patrón general. Por ejemplo, se puede segmentar en tres niveles distintos de abstracción del modelo:

  • Modelo de datos conceptuales, una especificación de alto nivel de cómo se organiza la información en la mente y en los procesos empresariales, sin tener en cuenta las restricciones de GIS y otros sistemas informáticos. Es común desarrollar y representar un modelo conceptual visualmente usando herramientas como un modelo entidad-relación.
  • Modelo de datos lógicos una estrategia amplia sobre cómo representar el modelo conceptual en la computadora, a veces novedoso pero a menudo dentro del marco de software, hardware y estándares existentes. El lenguaje de modelado unificado (UML), específicamente el diagrama de clases, se usa comúnmente para desarrollar visualmente modelos lógicos y físicos.
  • Modelo de datos físicos la especificación detallada de cómo se estructurarán los datos en la memoria o en los archivos.

Cada uno de estos modelos se puede diseñar en una de dos situaciones o ámbitos:

  • Un modelo de datos genérico está destinado a ser empleado en una amplia variedad de aplicaciones, al descubrir patrones consistentes en las formas en que la sociedad en general conceptualiza la información y/o las estructuras que funcionan de manera más eficiente en las computadoras. Por ejemplo, el campo es un modelo conceptual genérico de fenómenos geográficos, el modelo de base de datos relacional y el vector son modelos lógicos genéricos, mientras que el formato de archivo de forma es un modelo físico genérico. Estos modelos normalmente se implementan directamente en software de información y formatos de archivo GIS.
  • En el pasado, estos modelos han sido diseñados por investigadores académicos, por organismos de normalización como el Open Geospatial Consortiumy por proveedores de software como Esri. Si bien los modelos académicos y estándar son públicos (y, a veces de código abierto ), las empresas pueden optar por mantener en secreto los detalles de su modelo (como intentó hacer Esri con la cobertura y la geodatabase de archivos) o publicarlos abiertamente (como hizo Esri con el archivo de formas).[6]
  • Un modelo de datos específico o diseño GIS es una especificación de los datos necesarios para una aplicación GIS de una empresa o proyecto en particular. Por lo general, se crea dentro de las limitaciones de los modelos de datos genéricos elegidos, de modo que se pueda utilizar el software GIS existente. Por ejemplo, un modelo de datos para una ciudad incluiría una lista de capas de datos que se incluirán (p. ej., carreteras, edificios, parcelas, zonificación), y cada una se especificará con el tipo de modelo de datos espaciales genéricos que se utilice (p. ej., ráster o vectorial) opciones de parámetros como el sistema de coordenadas y sus columnas de atributos.

Modelos espaciales conceptuales

Los modelos conceptuales geoespaciales genéricos intentan capturar tanto la naturaleza física de los fenómenos geográficos como la forma en que las personas piensan sobre ellos y trabajan con ellos. A diferencia del proceso de modelado estándar descrito anteriormente, los modelos de datos sobre los que se construye SIG no se diseñaron originalmente basándose en un modelo conceptual general de fenómenos geográficos, sino que se diseñaron en gran medida de acuerdo con la conveniencia técnica, probablemente influenciados por conceptualizaciones de sentido común que aún no había sido documentado.

Dicho esto un marco conceptual temprano que fue muy influyente en el desarrollo temprano de SIG fue el reconocimiento por parte de Brian Berry y otros de que la información geográfica se puede descomponer en la descripción de tres aspectos muy diferentes de cada fenómeno: espacio, tiempo y atributo/propiedad/ temática. Como desarrollo adicional en 1978, David Sinton presentó un marco que caracterizaba diferentes estrategias de medición, datos y mapeo manteniendo uno de los tres aspectos constante, controlando un segundo y midiendo el tercero.[7]

Durante las décadas de 1980 y 1990, un cuerpo de teorías de la información espacial surgió gradualmente como un subcampo importante de la ciencia de la información geográfica incorporando elementos de la filosofía (especialmente la ontología), la lingüística y las ciencias de la cognición espacial. A principios de la década de 1990, había surgido una dicotomía básica de dos formas alternativas de dar sentido al mundo y sus contenidos:

  • Un objeto (también llamado característica o entidad) es una "cosa" distinta, comprendida como un todo. Puede ser un objeto material visible, como un edificio o una carretera, o una entidad abstracta, como un condado o el área de mercado de una tienda minorista.
  • Un campo es una propiedad que varía en el espacio, por lo que potencialmente tiene un valor medible distinto en cualquier ubicación dentro de su extensión. Puede ser una característica física, directamente medible de la materia, similar a las propiedades intensivas de la química, como la temperatura o la densidad; o puede ser un concepto abstracto definido a través de un modelo matemático, como la probabilidad de que una persona que vive en cada lugar use un parque local.[8]

Estos dos modelos conceptuales no pretenden representar fenómenos diferentes, pero a menudo son formas diferentes de conceptualizar y describir el mismo fenómeno. Por ejemplo, un lago es un objeto, pero la temperatura, la claridad y la proporción de contaminación del agua en el lago son campos.

Modelo de datos ráster

Cuadrícula ráster de elevación

El modelo lógico ráster representa un campo mediante una teselación del espacio geográfico en una matriz bidimensional de ubicaciones espaciadas regularmente (cada una denominada celda), con un único valor de atributo para cada celda (o más de un valor en un ráster multibanda). Por lo general, cada celda representa una muestra de un solo punto central (en la que el modelo de medición para todo el ráster se denomina red) o representa un resumen (generalmente la media) de la variable de campo sobre el área cuadrada (en la que el modelo es llamado rejilla).[5] El modelo de datos general es esencialmente el mismo que se usa para imágenes y otros gráficos de trama, con la adición de capacidades para el contexto geográfico. Un pequeño ejemplo sigue:

Mayo 2019 Precipitación (mm)
6 7 10 9 8 6 7 8
6 8 9 10 8 7 7 7
7 8 9 10 9 8 7 6
8 8 9 11 10 9 9 7
8 9 10 11 11 10 10 8
9 9 10 10 11 10 9 8
7 8 9 10 10 9 9 7
7 7 8 9 8 8 7 6

Para representar una cuadrícula de trama en un archivo de computadora, debe serializarse en una única lista de valores (unidimensional). Si bien existen varios esquemas de ordenación posibles, el más utilizado es el de fila principal en el que las celdas de la primera fila, seguidas inmediatamente por las celdas de la segunda fila, son las siguientes:

6 7 10 9 8 6 7 8 6 8 9 10 8 7 7 7 7 8 9 10 9 8 7 6 8 8 9 11 10 9 9 7 . . .

Para reconstruir la grilla original, se requiere un encabezado con parámetros generales para la grilla. Como mínimo, requiere la cantidad de filas en cada columna para saber dónde comenzar cada nueva fila y el tipo de datos de cada valor (es decir, la cantidad de bits en cada valor antes de comenzar el siguiente valor).

Si bien el modelo ráster está estrechamente relacionado con el modelo conceptual de campo, los objetos también se pueden representar en ráster, básicamente transformando un objeto X en un campo discreto (booleano) de presencia/ausencia de X. Alternativamente, una capa de objetos (generalmente polígonos) podría transformarse en un campo discreto de identificadores de objetos. En este caso, algunos formatos de archivo ráster permiten unir una tabla de atributos similar a un vector al ráster haciendo coincidir los valores de ID. Las representaciones ráster de objetos a menudo son temporales, solo se crean y utilizan como parte de un procedimiento de modelado, en lugar de en un almacén de datos permanente.

Para que sea útil en GIS, un archivo ráster debe estar georreferenciado para corresponder a ubicaciones del mundo real, ya que un ráster sin procesar solo puede expresar ubicaciones en términos de filas y columnas. Esto normalmente se hace con un conjunto de parámetros de metadatos , ya sea en el encabezado del archivo (como el formato GeoTIFF) o en un archivo sidecar (como un archivo mundial ).

Como mínimo, los metadatos de georreferenciación deben incluir la ubicación de al menos una celda en el sistema de coordenadas elegido y la resolución o tamaño de celda la distancia entre cada celda. Una transformación afín lineales el tipo de georreferenciación más común, permitiendo celdas rotativas y rectangulares. Los esquemas de georreferenciación más complejos incluyen transformaciones polinomiales y spline.

Los conjuntos de datos ráster pueden ser muy grandes, por lo que a menudo se utilizan técnicas de compresión de imágenes. Los algoritmos de compresión identifican patrones espaciales en los datos, luego transforman los datos en representaciones parametrizadas de los patrones, a partir de las cuales se pueden reconstruir los datos originales. En la mayoría de las aplicaciones SIG, se prefieren los algoritmos de compresión sin pérdida (p. ej., Lempel-Ziv ) a los con pérdida (p. ej., JPEG ), porque se necesitan los datos originales completos, no una interpolación.

Extensiones

Véase también

Referencias

Related Articles

Wikiwand AI