# Tipos de Ficheros en Big Data y Web Scraping: Guía Completa
> Aprende las diferencias entre JSON, HTML, SQL, NoSQL, CSV y Parquet para Big Data y Web Scraping. Incluye ventajas, limitaciones y ejemplos prácticos en Python.

Tags: big-data, web-scraping, python, json, parquet, sql, nosql, análisis-de-datos
## Slide 1: Tipos de Ficheros en Big Data & Web Scraping
- Análisis técnico de formatos JSON, HTML, SQL/NoSQL, CSV y Parquet.
- Enfoque en definiciones, usos, ventajas y ejemplos en Python.

## Slide 2: JSON (JavaScript Object Notation)
- **Estructura:** Semi-estructurado.
- **Usos:** APIs REST, scraping de sitios dinámicos, MongoDB.
- **Ventajas:** Flexible, ideal para datos jerárquicos y soporte nativo en JS.
- **Python:** Librerías `json` y `pandas.read_json()`.

## Slide 3: HTML (HyperText Markup Language)
- **Estructura:** Semi-estructurado.
- **Usos:** Fuente primaria de Web Scraping, minería de texto.
- **Ventajas:** Universal y rico en metadatos.
- **Python:** `BeautifulSoup`, `Selenium`, `pandas.read_html()`.

## Slide 4: Bases de Datos (SQL vs NoSQL)
- **SQL:** Estructurado (e.g., PostgreSQL). Ideal para transacciones ACID y reportes estructurados.
- **NoSQL:** Semi-estructurado (e.g., MongoDB, Redis). Escalabilidad horizontal y esquemas flexibles.
- **Python:** `SQLAlchemy` para SQL y `pymongo` para NoSQL.

## Slide 5: CSV (Comma-Separated Values)
- **Estructura:** Estructurado (tabular).
- **Usos:** Datasets de Machine Learning, exportación simple.
- **Limitaciones:** Sin tipos de datos nativos, ineficiente para archivos masivos.
- **Python:** `pd.read_csv()` y `to_csv()`.

## Slide 6: Parquet (Apache Parquet)
- **Estructura:** Estructurado (almacenamiento columnar).
- **Usos:** Data Lakes (AWS S3, Azure), Hadoop, Spark.
- **Ventajas:** Compresión ~10x superior a CSV, optimizado para consultas analíticas masivas.
- **Python:** `pyarrow`, `fastparquet`.

## Slide 7: Comparativa General
- **Mejor para Scraping:** HTML + JSON.
- **Mejor para Big Data:** Parquet + NoSQL.
- **Más Universal:** CSV.
- Rendimiento: Parquet y NoSQL lideran en velocidad y escalabilidad.

## Slide 8: Conclusiones
- No hay formato perfecto; la elección depende del volumen y la velocidad.
- Python es el ecosistema líder para procesar todos estos formatos mediante librerías como `pandas`, `BeautifulSoup` y `pyarrow`.
---
This presentation was created with [Bobr AI](https://bobr.ai) — an AI presentation generator.