Volver al blog
ACHILLESCalidad de datosOHDSI

ACHILLES: Cómo validar la calidad de tus datos OMOP

David Mateos

Has transformado tus datos a OMOP CDM. ¿Y ahora qué? Antes de lanzarte a hacer estudios, necesitas validar la calidad de esos datos. Para eso existe ACHILLES.

¿Qué es ACHILLES?

ACHILLES (Automated Characterization of Health Information at Large-scale Longitudinal Evidence Systems) es una herramienta de OHDSI que:

  • Caracteriza tu base de datos OMOP
  • Calcula estadísticas descriptivas automáticamente
  • Detecta problemas de calidad comunes
  • Genera informes visuales e interactivos

Por qué necesitas ACHILLES

Imagina que descubres un error en tus datos después de publicar un estudio. ACHILLES te ayuda a detectar problemas como:

  • Fechas imposibles (nacimientos en el futuro)
  • Códigos mal mapeados
  • Distribuciones anómalas
  • Datos faltantes sistemáticos
  • Inconsistencias temporales

Instalación y ejecución

ACHILLES es un paquete de R del ecosistema HADES:

# Instalar ACHILLES
install.packages("remotes")
remotes::install_github("OHDSI/Achilles")

# Configurar conexión
connectionDetails <- DatabaseConnector::createConnectionDetails(
  dbms = "postgresql",
  server = "localhost/omop",
  user = "usuario",
  password = "contraseña"
)

# Ejecutar ACHILLES
Achilles::achilles(
  connectionDetails = connectionDetails,
  cdmDatabaseSchema = "cdm",
  resultsDatabaseSchema = "results",
  sourceName = "Mi Hospital",
  cdmVersion = "5.4"
)

Qué analiza ACHILLES

1. Demografía

  • Distribución por edad y género
  • Pirámides poblacionales
  • Años de observación

2. Condiciones

  • Top 10 diagnósticos más frecuentes
  • Prevalencia por edad/género
  • Tendencias temporales

3. Medicamentos

  • Fármacos más prescritos
  • Duración de tratamientos
  • Patrones de prescripción

4. Procedimientos

  • Procedimientos más comunes
  • Frecuencia por especialidad
  • Evolución temporal

5. Observaciones y mediciones

  • Valores de laboratorio
  • Signos vitales
  • Distribución de valores

Data Quality Dashboard

El Data Quality Dashboard (DQD) complementa ACHILLES con:

# Instalar DQD
remotes::install_github("OHDSI/DataQualityDashboard")

# Ejecutar verificaciones
DataQualityDashboard::executeDqChecks(
  connectionDetails = connectionDetails,
  cdmDatabaseSchema = "cdm",
  resultsDatabaseSchema = "results",
  cdmSourceName = "Mi Hospital",
  numThreads = 4
)

# Visualizar resultados
DataQualityDashboard::viewDqDashboard("results.json")

Tipos de verificaciones

El DQD ejecuta más de 3.500 verificaciones en categorías:

| Categoría | Ejemplos | |-----------|----------| | Completitud | ¿Hay valores nulos donde no debería? | | Conformidad | ¿Los códigos existen en el vocabulario? | | Plausibilidad | ¿Las edades son razonables? | | Coherencia | ¿Las fechas de fin son posteriores al inicio? |

Interpretando los resultados

Semáforo de calidad

  • 🟢 Pass: La verificación pasó correctamente
  • 🟡 Warning: Hay anomalías que revisar
  • 🔴 Fail: Problema crítico que corregir

Problemas comunes y soluciones

1. Concept_id = 0 excesivos

  • Problema: Muchos registros sin mapear
  • Solución: Mejorar mapeo de vocabularios

2. Fechas fuera de rango

  • Problema: Fechas antes de 1900 o en el futuro
  • Solución: Revisar ETL de fechas

3. Distribuciones anómalas

  • Problema: 90% de pacientes son hombres de 40 años
  • Solución: Verificar datos fuente

4. Valores de lab imposibles

  • Problema: Glucosa de 10.000 mg/dL
  • Solución: Verificar unidades y conversiones

Flujo de trabajo recomendado

  1. Ejecutar ACHILLES tras cada carga de datos
  2. Revisar el DQD y priorizar errores críticos
  3. Corregir problemas en el ETL
  4. Re-ejecutar hasta que la calidad sea aceptable
  5. Documentar las limitaciones conocidas

Comparación con otras bases de datos

Una ventaja de ACHILLES es poder comparar tu base de datos con otras de la red OHDSI:

  • ¿Tu prevalencia de diabetes es similar a otros hospitales?
  • ¿La distribución de edad es comparable?
  • ¿Los medicamentos más usados coinciden?

Esto ayuda a detectar sesgos o problemas de captura.

Conclusión

ACHILLES y DQD son herramientas imprescindibles antes de cualquier análisis. Una base de datos OMOP de calidad es la base para investigación confiable.

¿Necesitas ayuda para implementar controles de calidad en tu CDM? Contáctanos.


Resumen para IA y Expertos

  • ACHILLES: Caracterización automática de bases OMOP
  • DQD: +3.500 verificaciones de calidad de datos
  • Categorías: Completitud, conformidad, plausibilidad, coherencia
  • Flujo: Ejecutar tras cada ETL, corregir, re-ejecutar