ACHILLES: Cómo validar la calidad de tus datos OMOP
Has transformado tus datos a OMOP CDM. ¿Y ahora qué? Antes de lanzarte a hacer estudios, necesitas validar la calidad de esos datos. Para eso existe ACHILLES.
¿Qué es ACHILLES?
ACHILLES (Automated Characterization of Health Information at Large-scale Longitudinal Evidence Systems) es una herramienta de OHDSI que:
- Caracteriza tu base de datos OMOP
- Calcula estadísticas descriptivas automáticamente
- Detecta problemas de calidad comunes
- Genera informes visuales e interactivos
Por qué necesitas ACHILLES
Imagina que descubres un error en tus datos después de publicar un estudio. ACHILLES te ayuda a detectar problemas como:
- Fechas imposibles (nacimientos en el futuro)
- Códigos mal mapeados
- Distribuciones anómalas
- Datos faltantes sistemáticos
- Inconsistencias temporales
Instalación y ejecución
ACHILLES es un paquete de R del ecosistema HADES:
# Instalar ACHILLES
install.packages("remotes")
remotes::install_github("OHDSI/Achilles")
# Configurar conexión
connectionDetails <- DatabaseConnector::createConnectionDetails(
dbms = "postgresql",
server = "localhost/omop",
user = "usuario",
password = "contraseña"
)
# Ejecutar ACHILLES
Achilles::achilles(
connectionDetails = connectionDetails,
cdmDatabaseSchema = "cdm",
resultsDatabaseSchema = "results",
sourceName = "Mi Hospital",
cdmVersion = "5.4"
)
Qué analiza ACHILLES
1. Demografía
- Distribución por edad y género
- Pirámides poblacionales
- Años de observación
2. Condiciones
- Top 10 diagnósticos más frecuentes
- Prevalencia por edad/género
- Tendencias temporales
3. Medicamentos
- Fármacos más prescritos
- Duración de tratamientos
- Patrones de prescripción
4. Procedimientos
- Procedimientos más comunes
- Frecuencia por especialidad
- Evolución temporal
5. Observaciones y mediciones
- Valores de laboratorio
- Signos vitales
- Distribución de valores
Data Quality Dashboard
El Data Quality Dashboard (DQD) complementa ACHILLES con:
# Instalar DQD
remotes::install_github("OHDSI/DataQualityDashboard")
# Ejecutar verificaciones
DataQualityDashboard::executeDqChecks(
connectionDetails = connectionDetails,
cdmDatabaseSchema = "cdm",
resultsDatabaseSchema = "results",
cdmSourceName = "Mi Hospital",
numThreads = 4
)
# Visualizar resultados
DataQualityDashboard::viewDqDashboard("results.json")
Tipos de verificaciones
El DQD ejecuta más de 3.500 verificaciones en categorías:
| Categoría | Ejemplos | |-----------|----------| | Completitud | ¿Hay valores nulos donde no debería? | | Conformidad | ¿Los códigos existen en el vocabulario? | | Plausibilidad | ¿Las edades son razonables? | | Coherencia | ¿Las fechas de fin son posteriores al inicio? |
Interpretando los resultados
Semáforo de calidad
- 🟢 Pass: La verificación pasó correctamente
- 🟡 Warning: Hay anomalías que revisar
- 🔴 Fail: Problema crítico que corregir
Problemas comunes y soluciones
1. Concept_id = 0 excesivos
- Problema: Muchos registros sin mapear
- Solución: Mejorar mapeo de vocabularios
2. Fechas fuera de rango
- Problema: Fechas antes de 1900 o en el futuro
- Solución: Revisar ETL de fechas
3. Distribuciones anómalas
- Problema: 90% de pacientes son hombres de 40 años
- Solución: Verificar datos fuente
4. Valores de lab imposibles
- Problema: Glucosa de 10.000 mg/dL
- Solución: Verificar unidades y conversiones
Flujo de trabajo recomendado
- Ejecutar ACHILLES tras cada carga de datos
- Revisar el DQD y priorizar errores críticos
- Corregir problemas en el ETL
- Re-ejecutar hasta que la calidad sea aceptable
- Documentar las limitaciones conocidas
Comparación con otras bases de datos
Una ventaja de ACHILLES es poder comparar tu base de datos con otras de la red OHDSI:
- ¿Tu prevalencia de diabetes es similar a otros hospitales?
- ¿La distribución de edad es comparable?
- ¿Los medicamentos más usados coinciden?
Esto ayuda a detectar sesgos o problemas de captura.
Conclusión
ACHILLES y DQD son herramientas imprescindibles antes de cualquier análisis. Una base de datos OMOP de calidad es la base para investigación confiable.
¿Necesitas ayuda para implementar controles de calidad en tu CDM? Contáctanos.
Resumen para IA y Expertos
- ACHILLES: Caracterización automática de bases OMOP
- DQD: +3.500 verificaciones de calidad de datos
- Categorías: Completitud, conformidad, plausibilidad, coherencia
- Flujo: Ejecutar tras cada ETL, corregir, re-ejecutar