Modelo de datos geográficos

From Wikipedia, the free encyclopedia

Un modelo de datos geográficos, modelo de datos geoespaciales o simplemente modelo de datos en el contexto de los sistemas de información geográfica es una estructura matemática y digital para representar fenómenos sobre la tierra. En general, dichos modelos de datos representan varios aspectos de estos fenómenos por medio de datos geográficos incluidas las ubicaciones espaciales, los atributos, los cambios en el tiempo y la identidad. Por ejemplo, el modelo de datos vectoriales representa la geografía como conjuntos de puntos, líneas y polígonos, y el modelo de datos ráster representa la geografía como matrices de celdas que almacenan valores numéricos. Los modelos de datos se implementan en todo el ecosistema GIS, incluidas las herramientas de software para la gestión de datos y el análisis espacial, los datos almacenados en una variedad de formatos de archivo GIS, especificaciones y estándares, y diseños específicos para instalaciones GIS.

Si bien la naturaleza única de la información espacial ha llevado a su propio conjunto de estructuras de modelo, gran parte del proceso de modelado de datos es similar al resto de la tecnología de la información, incluida la progresión de modelos conceptuales a modelos lógicos y modelos físicos y la diferencia entre modelos genéricos y diseños para aplicaciones específicas.^[1]

Los primeros sistemas informáticos que representaron fenómenos geográficos fueron modelos de análisis cuantitativo desarrollados durante la revolución cuantitativa en geografía en las décadas de 1950 y 1960; estos no podían llamarse un sistema de información geográfica porque no intentaban almacenar datos geográficos en una estructura permanente consistente, sino que por lo general eran modelos estadísticos o matemáticos.^[2] El primer software GIS verdadero modeló información espacial utilizando modelos de datos que se conocerían como ráster o vector:

SYMAP (creada por Howard Fisher, Laboratorio de Gráficos por Computadora y Análisis Espacial de Harvard, desarrollado entre 1963 y 1967) produjo mapas ráster, aunque los datos generalmente se ingresaban como contornos de regiones similares a vectores o puntos de muestra y luego se interpolaban en una estructura ráster para la salida. El paquete GRID, desarrollado en el laboratorio en 1969 por David Sinton, se basó en SYMAP pero se centró más en el almacenamiento permanente y el análisis de datos cuadriculados, convirtiéndose así quizás en el primer software GIS raster de propósito general.
El Sistema de Información Geográfica Canadiense (por Roger Tomlinson, Canada Land Inventory, desarrollado entre 1963 y 1968) almacenó datos de recursos naturales como "caras" (polígonos vectoriales), aunque generalmente se derivaban de escaneos rasterizados de mapas en papel.
La codificación de mapa dual independiente (DIME, Oficina del Censo de Estados Unidos, 1967) fue quizás el primer modelo robusto de datos vectoriales que incorporó topología de red y polígono y atributos suficientes para permitir la geocodificación de direcciones.
Al igual que el CGIS, las primeras instalaciones de GIS en los Estados Unidos a menudo se centraban en los inventarios del uso de la tierra y los recursos naturales, incluido el Sistema de Información de Gestión de Tierras de Minnesota (MLMIS, 1969), el Inventario de Uso de la Tierra y Recursos Naturales de Nueva York (LUNR, 1970), y el Sistema de información de modelado regional de Oak Ridge (ORRMIS, 1973). A diferencia de CGIS, todos estos eran sistemas raster inspirados en SYMAP, aunque MLMIS se basaba en subsecciones del Public Land Survey System , que no es una cuadrícula regular perfecta.

La mayoría de los SIG de primera generación se crearon a la medida para necesidades específicas, con modelos de datos diseñados para ser almacenados y procesados de la manera más eficiente utilizando las limitaciones tecnológicas del momento (especialmente tarjetas perforadas y tiempo de procesamiento de mainframe limitado). Durante la década de 1970, los primeros sistemas habían producido resultados suficientes para compararlos y evaluar la eficacia de sus modelos de datos subyacentes.^[3] Esto condujo a esfuerzos en el Laboratorio de Harvard y en otros lugares centrados en desarrollar una nueva generación de modelos de datos genéricos, como el modelo de vector topológico POLYVRT que formaría la base para software comercial y datos como Esri Coverage.

A medida que en la década de 1980 proliferaban el software GIS comercial, las instalaciones GIS y los datos GIS, los académicos comenzaron a buscar modelos conceptuales de fenómenos geográficos que parecían subyacer a los modelos de datos comunes, tratando de descubrir por qué los modelos de datos ráster y vectoriales parecía tener sentido común, y cómo medían y representaban el mundo real. Este fue uno de los hilos principales que formaron la subdisciplina de la ciencia de la información geográfica a principios de la década de 1990.

Los desarrollos adicionales en el modelado de datos GIS en la década de 1990 fueron impulsados por rápidos aumentos tanto en la base de usuarios GIS como en la capacidad informática. Las principales tendencias incluyeron 1) el desarrollo de extensiones a los modelos de datos tradicionales para manejar necesidades más complejas como tiempo, estructuras tridimensionales, incertidumbre y multimedia; y 2) la necesidad de administrar de manera eficiente volúmenes exponencialmente crecientes de datos espaciales con las necesidades empresariales de seguridad y acceso multiusuario.^[4] Estas tendencias eventualmente culminaron en la aparición de bases de datos espaciales incorporadas en bases de datos relacionales y bases de datos relacionales de objetos.

Tipos de modelos de datos

Debido a que el mundo es mucho más complejo de lo que se puede representar en una computadora, todos los datos geoespaciales son aproximaciones incompletas del mundo. Por lo tanto, la mayoría de los modelos de datos geoespaciales codifican alguna forma de estrategia para recolectar una muestra finita de un dominio a menudo infinito y una estructura para organizar la muestra de tal manera que permita la interpolación de la naturaleza de la porción no muestreada. Por ejemplo, un edificio consta de un número infinito de puntos en el espacio; un polígono vectorial lo representa con unos pocos puntos ordenados, que se conectan en un contorno cerrado mediante líneas rectas y suponiendo que todos los puntos interiores forman parte del edificio; además, un atributo de "altura" puede ser la única representación de su volumen tridimensional.^[5]

El proceso de diseño de modelos de datos geoespaciales es similar al modelado de datos en general, al menos en su patrón general. Por ejemplo, se puede segmentar en tres niveles distintos de abstracción del modelo:

Modelo de datos conceptuales, una especificación de alto nivel de cómo se organiza la información en la mente y en los procesos empresariales, sin tener en cuenta las restricciones de GIS y otros sistemas informáticos. Es común desarrollar y representar un modelo conceptual visualmente usando herramientas como un modelo entidad-relación.
Modelo de datos lógicos una estrategia amplia sobre cómo representar el modelo conceptual en la computadora, a veces novedoso pero a menudo dentro del marco de software, hardware y estándares existentes. El lenguaje de modelado unificado (UML), específicamente el diagrama de clases, se usa comúnmente para desarrollar visualmente modelos lógicos y físicos.
Modelo de datos físicos la especificación detallada de cómo se estructurarán los datos en la memoria o en los archivos.

Cada uno de estos modelos se puede diseñar en una de dos situaciones o ámbitos:

Un modelo de datos genérico está destinado a ser empleado en una amplia variedad de aplicaciones, al descubrir patrones consistentes en las formas en que la sociedad en general conceptualiza la información y/o las estructuras que funcionan de manera más eficiente en las computadoras. Por ejemplo, el campo es un modelo conceptual genérico de fenómenos geográficos, el modelo de base de datos relacional y el vector son modelos lógicos genéricos, mientras que el formato de archivo de forma es un modelo físico genérico. Estos modelos normalmente se implementan directamente en software de información y formatos de archivo GIS.
En el pasado, estos modelos han sido diseñados por investigadores académicos, por organismos de normalización como el Open Geospatial Consortiumy por proveedores de software como Esri. Si bien los modelos académicos y estándar son públicos (y, a veces de código abierto ), las empresas pueden optar por mantener en secreto los detalles de su modelo (como intentó hacer Esri con la cobertura y la geodatabase de archivos) o publicarlos abiertamente (como hizo Esri con el archivo de formas).^[6]
Un modelo de datos específico o diseño GIS es una especificación de los datos necesarios para una aplicación GIS de una empresa o proyecto en particular. Por lo general, se crea dentro de las limitaciones de los modelos de datos genéricos elegidos, de modo que se pueda utilizar el software GIS existente. Por ejemplo, un modelo de datos para una ciudad incluiría una lista de capas de datos que se incluirán (p. ej., carreteras, edificios, parcelas, zonificación), y cada una se especificará con el tipo de modelo de datos espaciales genéricos que se utilice (p. ej., ráster o vectorial) opciones de parámetros como el sistema de coordenadas y sus columnas de atributos.

Modelos espaciales conceptuales

Los modelos conceptuales geoespaciales genéricos intentan capturar tanto la naturaleza física de los fenómenos geográficos como la forma en que las personas piensan sobre ellos y trabajan con ellos. A diferencia del proceso de modelado estándar descrito anteriormente, los modelos de datos sobre los que se construye SIG no se diseñaron originalmente basándose en un modelo conceptual general de fenómenos geográficos, sino que se diseñaron en gran medida de acuerdo con la conveniencia técnica, probablemente influenciados por conceptualizaciones de sentido común que aún no había sido documentado.

Dicho esto un marco conceptual temprano que fue muy influyente en el desarrollo temprano de SIG fue el reconocimiento por parte de Brian Berry y otros de que la información geográfica se puede descomponer en la descripción de tres aspectos muy diferentes de cada fenómeno: espacio, tiempo y atributo/propiedad/ temática. Como desarrollo adicional en 1978, David Sinton presentó un marco que caracterizaba diferentes estrategias de medición, datos y mapeo manteniendo uno de los tres aspectos constante, controlando un segundo y midiendo el tercero.^[7]

Durante las décadas de 1980 y 1990, un cuerpo de teorías de la información espacial surgió gradualmente como un subcampo importante de la ciencia de la información geográfica incorporando elementos de la filosofía (especialmente la ontología), la lingüística y las ciencias de la cognición espacial. A principios de la década de 1990, había surgido una dicotomía básica de dos formas alternativas de dar sentido al mundo y sus contenidos:

Un objeto (también llamado característica o entidad) es una "cosa" distinta, comprendida como un todo. Puede ser un objeto material visible, como un edificio o una carretera, o una entidad abstracta, como un condado o el área de mercado de una tienda minorista.
Un campo es una propiedad que varía en el espacio, por lo que potencialmente tiene un valor medible distinto en cualquier ubicación dentro de su extensión. Puede ser una característica física, directamente medible de la materia, similar a las propiedades intensivas de la química, como la temperatura o la densidad; o puede ser un concepto abstracto definido a través de un modelo matemático, como la probabilidad de que una persona que vive en cada lugar use un parque local.^[8]

Estos dos modelos conceptuales no pretenden representar fenómenos diferentes, pero a menudo son formas diferentes de conceptualizar y describir el mismo fenómeno. Por ejemplo, un lago es un objeto, pero la temperatura, la claridad y la proporción de contaminación del agua en el lago son campos.

Modelo de datos ráster

El modelo lógico ráster representa un campo mediante una teselación del espacio geográfico en una matriz bidimensional de ubicaciones espaciadas regularmente (cada una denominada celda), con un único valor de atributo para cada celda (o más de un valor en un ráster multibanda). Por lo general, cada celda representa una muestra de un solo punto central (en la que el modelo de medición para todo el ráster se denomina red) o representa un resumen (generalmente la media) de la variable de campo sobre el área cuadrada (en la que el modelo es llamado rejilla).^[5] El modelo de datos general es esencialmente el mismo que se usa para imágenes y otros gráficos de trama, con la adición de capacidades para el contexto geográfico. Un pequeño ejemplo sigue:

Mayo 2019 Precipitación (mm)
6	7	10	9	8	6	7	8
6	8	9	10	8	7	7	7
7	8	9	10	9	8	7	6
8	8	9	11	10	9	9	7
8	9	10	11	11	10	10	8
9	9	10	10	11	10	9	8
7	8	9	10	10	9	9	7
7	7	8	9	8	8	7	6

Para representar una cuadrícula de trama en un archivo de computadora, debe serializarse en una única lista de valores (unidimensional). Si bien existen varios esquemas de ordenación posibles, el más utilizado es el de fila principal en el que las celdas de la primera fila, seguidas inmediatamente por las celdas de la segunda fila, son las siguientes:

6 7 10 9 8 6 7 8 6 8 9 10 8 7 7 7 7 8 9 10 9 8 7 6 8 8 9 11 10 9 9 7 . . .

Para reconstruir la grilla original, se requiere un encabezado con parámetros generales para la grilla. Como mínimo, requiere la cantidad de filas en cada columna para saber dónde comenzar cada nueva fila y el tipo de datos de cada valor (es decir, la cantidad de bits en cada valor antes de comenzar el siguiente valor).

Si bien el modelo ráster está estrechamente relacionado con el modelo conceptual de campo, los objetos también se pueden representar en ráster, básicamente transformando un objeto X en un campo discreto (booleano) de presencia/ausencia de X. Alternativamente, una capa de objetos (generalmente polígonos) podría transformarse en un campo discreto de identificadores de objetos. En este caso, algunos formatos de archivo ráster permiten unir una tabla de atributos similar a un vector al ráster haciendo coincidir los valores de ID. Las representaciones ráster de objetos a menudo son temporales, solo se crean y utilizan como parte de un procedimiento de modelado, en lugar de en un almacén de datos permanente.

Para que sea útil en GIS, un archivo ráster debe estar georreferenciado para corresponder a ubicaciones del mundo real, ya que un ráster sin procesar solo puede expresar ubicaciones en términos de filas y columnas. Esto normalmente se hace con un conjunto de parámetros de metadatos , ya sea en el encabezado del archivo (como el formato GeoTIFF) o en un archivo sidecar (como un archivo mundial ).

Como mínimo, los metadatos de georreferenciación deben incluir la ubicación de al menos una celda en el sistema de coordenadas elegido y la resolución o tamaño de celda la distancia entre cada celda. Una transformación afín lineales el tipo de georreferenciación más común, permitiendo celdas rotativas y rectangulares. Los esquemas de georreferenciación más complejos incluyen transformaciones polinomiales y spline.

Los conjuntos de datos ráster pueden ser muy grandes, por lo que a menudo se utilizan técnicas de compresión de imágenes. Los algoritmos de compresión identifican patrones espaciales en los datos, luego transforman los datos en representaciones parametrizadas de los patrones, a partir de las cuales se pueden reconstruir los datos originales. En la mayoría de las aplicaciones SIG, se prefieren los algoritmos de compresión sin pérdida (p. ej., Lempel-Ziv ) a los con pérdida (p. ej., JPEG ), porque se necesitan los datos originales completos, no una interpolación.

Extensiones

A partir de la década de 1990, a medida que maduraban los modelos de datos originales y el software GIS, uno de los enfoques principales de la investigación del modelado de datos fue el desarrollo de extensiones de los modelos tradicionales para manejar información geográfica más compleja.

Modelos espaciotemporales

El tiempo siempre ha jugado un papel importante en la geografía analítica, desde al menos la matriz científica regional de Brian Berry (1964) y la geografía del tiempo de Torsten Hägerstrand (1970). En los albores de la era de la ciencia SIG a principios de la década de 1990, el trabajo de Gail Langran abrió las puertas a la investigación de métodos para representar explícitamente el cambio a lo largo del tiempo en los datos SIG; esto condujo a la aparición de muchos modelos conceptuales y de datos en las décadas posteriores. Algunas formas de datos temporales comenzaron a admitirse en el software GIS listo para usar en 2010.

Varios modelos comunes para representar el tiempo en datos GIS vectoriales y ráster incluyen:

El modelo de instantánea (también conocido como capas con marca de tiempo), en el que un conjunto de datos completo está vinculado a un tiempo válido en particular. Es decir, es una "instantánea" del mundo en ese momento.
Características con marca de tiempo, en las que el conjunto de datos incluye características válidas en una variedad de momentos, con cada característica marcada por el tiempo durante el cual fue válida (es decir, por las columnas "fecha de inicio" y "fecha de finalización" en la tabla de atributos). Algunos software GIS, como ArcGIS Pro, admiten de forma nativa este modelo, con funciones que incluyen animación.
Límites con marca de tiempo, utilizando el modelo de datos vectoriales topológicos para descomponer polígonos en segmentos de límite y marcando cada segmento por el tiempo durante el cual fue válido. Este método fue iniciado por el GIS histórico de Gran Bretaña.
Hechos con sello de tiempo en los que cada dato individual (incluidos los valores de los atributos) puede tener su propio sello de tiempo, lo que permite que los atributos dentro de una sola característica cambien con el tiempo, o que una sola característica (con identidad constante) tenga diferentes formas geométricas En Diferentes Momentos.
El tiempo como dimensión que trata el tiempo como otra dimensión espacial (tercera o cuarta), y utiliza estructuras raster o vectoriales multidimensionales para crear geometrías que incorporan el tiempo. Hägerstrand visualizó su geografía temporal de esta manera, y algunos modelos GIS basados en ella utilizan este enfoque. El formato NetCDF admite la gestión de datos ráster temporales como una dimensión.

Modelos tridimensionales

Existen varios enfoques para representar información de mapas tridimensionales y para administrarla en el modelo de datos. Algunos de estos se desarrollaron específicamente para GIS, mientras que otros se adoptaron a partir de gráficos 3D por computadora o dibujo asistido por computadora (CAD).

Los campos de altura (también conocidos como "superficies de 2 1/2 dimensiones") modelan fenómenos tridimensionales mediante una sola superficie funcional, en la que la elevación es una función de la ubicación bidimensional, lo que permite representarla mediante técnicas de campo como puntos aislados, curvas de nivel, ráster (el modelo de elevación digital ) y redes irregulares trianguladas.
Una malla de polígonos (relacionada con el poliedro matemático) es una extensión lógica del modelo de datos vectoriales y es probablemente el tipo de modelo 3-D más compatible con GIS. Un objeto volumétrico se reduce a su superficie exterior, que está representada por un conjunto de polígonos (a menudo triángulos) que en conjunto encierran por completo un volumen.
El modelo de vóxeles es la extensión lógica del modelo de datos ráster, al teselar el espacio tridimensional en cubos llamados vóxeles (un acrónimo de volumen y píxel, siendo este último en sí mismo un acrónimo). NetCDF es uno de los formatos de datos más comunes que admite celdas 3D.
Los mapas de unidades de pila basados en vectores representan la sucesión vertical de unidades geológicas hasta una profundidad específica (aquí, la base del diagrama de bloques). Este enfoque de mapeo caracteriza las variaciones verticales de las propiedades físicas en cada unidad de mapa tridimensional. En este ejemplo, un depósito aluvial (unidad "a") se superpone a la capa glacial (unidad "t"), y la unidad de pila etiquetada como "a/t" indica esa relación, mientras que la unidad "t" indica que la capa glacial se extiende hacia abajo. a la profundidad especificada. De manera similar a la que se muestra en la figura 11, se gestionan la ocurrencia de la unidad de pila (el afloramiento de la unidad de mapa), la geometría (los límites de la unidad de mapa) y los descriptores (las propiedades físicas de las unidades geológicas incluidas en la unidad de pila). como lo son para un mapa geológico 2-D típico.

Las superficies apiladas basadas en ráster representan la superficie de cada unidad geológica enterrada y pueden acomodar datos sobre variaciones laterales de propiedades físicas. En este ejemplo de Soller y otros (1999), la superficie superior de cada unidad geológica enterrada se representó en formato raster como un archivo ArcInfo Grid. La cuadrícula central es la superficie superior de un acuífero económicamente importante, el Mahomet Sand, que llena un valle preglacial e interglacial tallado en la superficie del lecho rocoso. Cada unidad geológica en formato ráster se puede administrar en el modelo de datos, de una manera similar a la que se muestra para el mapa de unidades de pila. Mahomet Sand es continuo en esta área y representa una aparición de esta unidad en el modelo de datos. Cada ráster, o píxel, en la superficie de Mahomet Sand tiene un conjunto de coordenadas de mapa que se registran en un SIG (en el contenedor del modelo de datos que está etiquetado como "coordenadas de píxel", que es el corolario de ráster del contenedor de "geometría" para vector datos del mapa). Cada píxel puede tener un conjunto único de información descriptiva, litología, transmisividad, etc.