Ingestión de Datos: Sistema de Catalogación y Archivado
Aprende sobre el diseño y desarrollo técnico de sistemas de ingestión de datos: catalogación, archivado y monitorización de ficheros de calibración.
Proyecto
Ingestión
de Datos y Archivos
Sistema de catalogación, archivado y monitorización de ficheros de calibración
Desarrollo técnico
Índice
01
Visión General del Proyecto
02
Parte 1: Base de Datos de Calibración
03
Parte 2: Herramientas de Ingestión
04
Interfaz Web y Monitorización
05
Servicios SOAP y Operaciones
06
Entregables del Proyecto
ALCANCE DEL PROYECTO
Visión General del Proyecto
01
Base de Datos de Calibración
Herramienta para la creación y despliegue automático de la base de datos. Ejecución única a partir de configuración inicial, esquemas XSD y definición de ficheros de telemetría.
Ejecución única · Estática
02
Ingestión y Gestión de Ficheros
Conjunto de herramientas para ingestión, catalogación, archivado, borrado, diseminación y monitorización continua de ficheros de calibración a lo largo de toda la misión.
Operación continua · Dinámica
Config Files
Database
File System
Monitoring
PARTE 01
Base de Datos de Calibración
Creación y despliegue automático del entorno operacional
A partir de ficheros de configuración, esquemas XSD y definición de ficheros de telemetría, se crea de forma automática toda la estructura necesaria para la operación del sistema.
PARTE 01 · ESTRUCTURA
Entorno Operacional
Generado
Ficheros de Configuración
Esquemas XSD
Formato Ficheros Telemetría
Base de Datos
Catalogación de la información
Carpetas de Intercambio
Recepción y envío de tipos de archivos
Repositorio de Archivos
Almacenamiento de archivos catalogados
Software y Configuración
Operación del sistema durante la misión
Parámetros de
Configuración
Para cada tipo de archivo a recibir, la configuración define los siguientes parámetros:
Carpeta de recepción de archivos
Máscara del nombre de los archivos
Esquemas XSD asociados / formato texto
Carpeta de salida del producto
Si el archivo está comprimido o no
Si contiene múltiples ficheros internos
Ruta interna de cada archivo
Esquema XSD por archivo interno
Si el archivo se copia al repositorio
Si la copia debe descomprimir el fichero
Identificador único de ingestión (ID) por fichero · Trazabilidad completa en todas las tablas
Metadatos por Fichero Ingestado
Tabla de Control de Ficheros
Nombre del fichero
Identificador textual
Tipo de fichero
Clasificación del archivo
Tamaño del fichero
En bytes
Fecha de creación
Timestamp
Fecha de ingestión (inicio)
Timestamp inicio proceso
Fecha de ingestión (fin)
Timestamp fin proceso
Estado
detectado / en ingestión / ingestado / fallido / borrado
Motivo del fallo
Si existe, descripción del error
Fecha de borrado del repositorio
Timestamp
Ruta en el repositorio
Path completo
ID de ingestión único — trazabilidad a través de toda la base de datos
PARTE 02
Herramientas de Ingestión
Catalogación, archivado, borrado y diseminación de ficheros
Monitorización continua de carpetas de recepción durante toda la misión. Ingestión periódica, gestión del repositorio y ejecución de tareas automatizadas.
PARTE 02 · FLUJO
Proceso de Ingestión de Ficheros
Detección
Escaneo periódico de carpetas de entrada (configurable)
Validación
Verificación de formato contra esquema XSD
Extracción
Extracción de información del fichero
Catalogación
Inserción en base de datos con ID único
Archivado
Copia al repositorio (según configuración)
Tareas Post-ingestión
Secuencia de tareas definidas por el usuario
Orden por fecha de recepción (más antiguos primero)
No se borra de entrada si ingestión fallida
Parada/arranque por comando o consola web
Tareas Post-Ingestión y Operaciones
Secuencia de Tareas Post-Ingestión
Operaciones básicas
Scripts internos: extraer fichero, borrar fichero, etc.
Llamada a ejecutable externo
Con nombre del fichero como parámetro.
Secuencia SQL
Comandos SQL con referencia al ID del archivo.
Operaciones por Consola
Insertar manualmente un fichero
Extraer manualmente un fichero
Borrar manualmente un fichero
Control de Carpetas de Entrada
Escaneo de carpetas
Borrado tras ingestión
Reemplazar contenido de duplicados
PARTE 02 · GESTIÓN
Gestión del Repositorio y Logs
Gestión del Espacio en Repositorio
Monitorización continua del espacio libre
Umbral mínimo configurable
Al superar umbral: borrado automático (más antiguos primero)
Borrado hasta alcanzar espacio libre objetivo (configurable)
Monitor
Umbral superado
Borrado FIFO
Espacio restaurado
Sistema de Logs
Registro de todas las actividades del sistema
Registro de errores detectados
Un fichero de log por día
Rotación automática: últimos 15 días conservados
Borrado automático de logs más antiguos
PARTE 03
Interfaz Web y Monitorización
HMI y servicios web SOAP para operación y supervisión
Consola web con 4 pestañas especializadas: monitorización del sistema, gestión de ingestiones, monitorización de productos y documentación técnica.
PESTAÑA 01
Monitorización del Sistema
Estado de Servicios
IngestDaemon
4592
Activo
FileScannerService
3104
Activo
CatalogArchive
---
Detenido
Sistema de Ficheros
/mnt/storage01
1.2 TB
75%
25%
/mnt/archive
5.0 TB
42%
58%
/var/log/ingestion
50 GB
92%
8%
Tipos de Archivo configurados
PESTAÑA 02
Pestaña 2:
Gestión de Ingestiones
PARTE 03 · PESTAÑAS
Pestañas 3 y 4: Productos y Documentación
03
Monitorización de Productos
Ruta configurable · Solo página inicial
Carga de página HTML desde ruta configurable
Visualización embebida del sistema de monitorización de productos
No requiere gestión de navegación interna
04
Documentación Técnica
📋
Tablas asociadas con resumen
🔢
Orden de ingestión entre tablas
🗑️
Orden de borrado entre tablas
🔗
Relaciones entre tablas
⚠️
Restricciones definidas
📊
Columnas de las tablas
SERVICIOS EXTERNOS
Servicios SOAP y Operaciones Externas
Cliente
SOAP Request
SOAP Response
Sistema de Ingestión
01
Descarga de fichero por nombre
nombre del fichero
fichero descargado
02
Descarga de fichero por ID de ingestión
ID de ingestión
fichero descargado
03
Estado/información de un fichero
nombre o ID
metadatos completos
04
Borrado de un fichero
nombre o ID
confirmación borrado
Acceso dual: HMI (interfaz web) + Servicios SOAP
Entregables
Entregables del Proyecto
Código Fuente y Ejecutable
Código fuente completo del proyecto y binarios ejecutables listos para despliegue en el entorno operacional.
Documento de Diseño
Arquitectura del sistema, diseño de la base de datos, diagramas de flujo y especificaciones técnicas detalladas.
Manual de Usuario
Guía completa de instalación, configuración, operación y mantenimiento del sistema de ingestión.
Plan, Datos e Informe de Pruebas
Plan de pruebas, conjuntos de datos de test y informe final con resultados de validación del sistema.
RESUMEN
Sistema Integral de Ingestión de Datos
Base de datos de calibración de creación automática y despliegue único
Ingestión periódica, validación XSD y trazabilidad completa por ID
Gestión inteligente del repositorio y rotación de logs (15 días)
Consola web HMI + 4 pestañas + Servicios SOAP externos
2 Componentes principales
4 Pestañas web
4 Operaciones SOAP
4 Entregables
- ingestion-de-datos
- base-de-datos
- big-data
- catalogacion
- monitorizacion
- arquitectura-software
- tecnologia