Cómo obtener estructura a partir de datos no estructurados

Estamos en medio de una revolución de datos no estructurados: es probable que el 80 % de los datos no estén estructurados para 2025, según IDC. El auge de la analítica avanzada y, en particular, de la inteligencia artificial/aprendizaje automático (AI/ML) ha permitido obtener inteligencia de la vasta reserva de texto libre, imágenes, grabaciones de voz, etc., que antes eran opacos y que las organizaciones conservan en grandes volúmenes.

Por supuesto, cierta estructura está presente en los metadatos que acompañan a cualquier archivo. Pero con el procesamiento AI/ML, se pueden derivar campos de datos estructurados adicionales a partir de un conjunto de datos.

Entonces, por ejemplo, una organización podría ejecutar AI/ML contra un conjunto de imágenes de anuncios de alquiler de apartamentos y buscar mapear patrones visuales a la cantidad de clics. Eso implica el análisis de datos de imágenes no estructurados para crear campos estructurados que se pueden unir a los datos existentes para su análisis y, en última instancia, para impulsar la toma de decisiones editoriales.

En este artículo, veremos algunas de las formas en que se accede a los datos no estructurados como si estuvieran estructurados o estructurados por S3 Select y Snowflake, y productos similares a bases de datos como MongoDB.

SQL, resumen estructurado

S3 Select: S3 cumple con SQL

Copo de nieve: agregando orden con tablas de directorio

Google BigQuery: AI/ML crea tablas de objetos

MongoDB