El CCI participa al WHO-FIC meeting

El CCI participa al WHO-FIC meeting

Leer en castellano
Read It in English

El Centre de Competències d’Integració va participar al WHO-FIC Meeting (World Health Organization-Family of International Classifications), organitzat per l’AQUAS (Agència de Qualitat i Avaluació Sanitàries) i que es va celebrar a Barcelona del 11 al 17 d’octubre.

El congrés es va organitzar en dues parts: del 11 al 15 d’octubre es van realitzar dues reunions internes de cada grup de treball entorn les FIC (mortalitat, educació i implementació, desenvolupament, informàtica i terminologia, actualització i revisió, etc.) i dijous i divendres es van fer sessions obertes de resum de la tasca feta durant l’any i plantejament del vinent. També hi va haver un espai d’exposició de pòsters, així com una sessió d’experiències locals (de Catalunya) i una altra d’iberoamericanes.

El CCI va presentar un pòster sobre el Diccionari Clínic per iSalut i un altre sobre l’ús de servidors terminològics des de les Estacions Clíniques de Treball (ECT). Els servidors terminològics són eines específicament dissenyades per treballar amb vocabularis controlats, els seus components (conceptes, descripcions i relacions) i mecanismes (subconjunts, mapejos, extensions i expressions post-coordinades), de manera que permeten representar-los, cercar-los, editar-los, distribuir-los, etc. Aquestes eines també presenten una sèrie de serveis (web) que es poden consumir des de les ECT per codificar la informació que s’hi recull sense que el professional assistencial hagi de treballar directament amb codis. Des del CCI s’ha desenvolupat una ECT simulada que permet veure com s’utilitzen els serveis web del servidor terminològic ITServer d’Indizen per registrar diferents tipus d’informació com les immunitzacions, reaccions adverses, antecedents, etc.

El pòster sobre el Diccionari Clínic per iSalut va ser triat com a un dels millors i a ser presentat en una breu comunicació. El grup també va participar a la taula d’experiències locals explicant més en detall el projecte Diccionari Clínic per iSalut.

A continuació es mostra el material presentat al congrés:

Pòster sobre l’ús de servidors terminològics des de les ECT

Pòster sobre el Diccinari Clínic per iSalut

Presentació del projecte Diccionari Clínic per iSalut

Llegir en català
Read It in English

El Centro de Competencias de Integración participó en el WHO-FIC Meeting (World Health Organization-Family of International Classifications), organizado por la AQUAS (Agencia de Calidad y Evaluación Sanitarias) y que se celebró en Barcelona del 11 al 17 de octubre.

El congreso se organizó en dos partes: del 11 al 15 de Octubre se realizaron dos reuniones internas de cada grupo de trabajo entorno las FIC (mortalidad, educación e implementación, desarrollo, informática y terminología, actualización y revisión, etc.) y el jueves y el viernes se hicieron sesiones abiertas de resumen de la actividad llevada a cabo durante el año y planteamiento del que viene. También hubo un espacio de exposición de pósteres, así como una sesión de experiencias locales (de Cataluña) y otra de iberoamericanas.

El CCI presentó un poster sobre el Diccionario clínico para iSalut y otro sobre el uso de servidores terminológicos des de las Estaciones Clínicas de Trabajo (ECT). Los servidores terminológicos son herramientas específicamente diseñadas para trabajar con vocabularios controlados, sus componentes (conceptos, descripciones y relaciones) y mecanismos (subconjuntos, mapeos, extensiones y expresiones post-coordinadas), de manera que permiten representarlos, buscarlos, editarlos, distribuirlos, etc. Estas herramientas también presentan una serie de servicios (web) que se pueden consumir des de las ECT para codificar la información que se recoge sin que el profesional asistencial tenga que trabajar directamente con códigos. Des del CCI se ha desarrollado una ECT simulada que permite ver cómo se utilizan los servicios web del servidor terminológico ITServer de Indizen para registrar diferentes tipos de información como las inmunizaciones, reacciones adversas, antecedentes, etc.

El poster sobre el Diccionario Clínico para iSalut se eligió como uno de los mejores y para ser presentado en una breve comunicación. El grupo también participó en la mesa de experiencias locales explicando más en detalle el proyecto Diccionario Clínico para iSalut.

A continuación se muestra el material presentado en el congreso:

Poster sobre el uso de servidores terminológicos desde las ECT

Poster sobre el Diccionario Clínico para iSalut

Presentación del proyecto Diccionario Clínico para iSalut

Llegir en català
Leer en castellano

The Centre of Competencies in Integration has participated in the WHO-FIC Meeting (World Health Organization-Family of International Classifications), organized by AQUAS (Agency of Health Quality and Evaluation) that was held in Barcelona from 11 to 17 of October.

The congress was organized in two parts: from 11 to 15 of October two internal meetings were realized of every work group regarding FIC (mortality, education and implementation, development, informatics and terminology, updated and revision, etc.) and on Thursday and Friday open sessions were done summarizing the work done during the year and the approach for the future one. It was also a space to expose the presented posters, as well as a session about local experiences (from Catalonia) and another of iberoamerican ones.

CCI presented a poster about the Clinical Dictionary for iSalut (eHealth) and another one regarding the use of terminology servers from Clinical Work Stations (CWS). Terminology servers are tools specially designed to work with controlled vocabularies, their components (concepts, descriptions and relationships) and mechanisms (subsets, mappings, extensions and post-coordinated expressions), as they allow us to search, represent, edit, distribute, etc. it. These tools also present (web) services that can be used from CWS to encode the recorded information without been necessary for physician to work with codes. In CCI we have developed a simulated CWS that shows how to use the web services from the ITServer of Indizen terminology server to record different kinds of information like immunizations, adverse reactions, history and past illness, etc.

The poster about the Clinical Dictionary for iSalut was selected as one of the bests and to be presented in a short communication. CCI also participated in the local experiences round table presenting the project of Clinical Dictionary in more detail.

The presented material is presented below:

Poster about the use of terminology servers from CWS

Poster about the Clinical Dictionary for iSalut

Slides about the Clinical Dictionary for iSalut project

El CCI imparteix un taller en Interoperabilitat semàntica al Tecnocampus

El CCI imparteix un taller en Interoperabilitat semàntica al Tecnocampus

Leer en castellano
Read It in English

El Centre de Competències d’Integració (CCI), amb la col·laboració de la fundació TicSalut, ha organitzat la 4a edició del taller en interoperabilitat semàntica al Tecnocampus.
L’edició d’enguany es va celebrar els passats dies 22 i 23 d’Octubre a l’espai Xnergic del Tecnocampus i va comptar amb la participació de 21 alumnes i 5 ponents (de l’OFSTI-Oficina d’Estàndards i Interoperabilitat, la CSMS-Corporació de Salut del Maresme i la Selva i del Tecnocampus). Les sessions es van centrar en explicar el Diccionari Clínic per iSalut i la terminologia clínica SNOMED CT en la qual està basat.

El Diccionari Clínic per iSalut és un projecte transversal que té per objectiu normalitzar el vocabulari del SISCAT (Sistema Sanitari Integrat de la Xarxa de Salut Pública de Catalunya), de manera que es pugui assolir la interoperabilitat semàntica entre els sistemes d’informació dels proveïdors, a diferents nivells assistencials. Aquesta interoperabilitat garanteix l’intercanvi de les dades sense que es perdi el seu significat, permetent-ne la representació i interpretació automàtica i inequívoca.

El projecte està liderat per l’OFSTI de la fundació TicSalut i compta amb representants del Tecnocampus (a través del CCI), d’HC3 (Història Clínica Compartida de Catalunya), del CatSalut i de diferents centres proveïdors. El Diccionari Clínic utilitza l’estàndard semàntic SNOMED CT com a terminologia de referència i base de representació però inclou altres vocabularis que també s’estan utilitzant actualment al SISCAT (LOINC, CIM-9-MC, CIM-10, etc.).

Al taller es va explicar el projecte Diccionari Clínic per iSalut i els vocabularis controlats del SISCAT, presentant detalladament SNOMED CT amb els seus components i mecanismes. També es va realitzar una ponència sobre l’adopció dels subconjunts d’al·lèrgies del Diccionari a l’HCE de la CSMS i es van mostrat diferents eines per treballar amb vocabularis controlats. Els coneixements teòrics es van complementar amb exercicis pràctics utilitzant el servidor de terminologia ITServer d’Indizen.

El tríptic del taller es pot consultar al següent enllaç: Tríptic 4a edició taller interoperabilitat semàntica.

Llegir en català
Read It in English

El Centro de Competencias de Integración (CCI), con la colaboración de la fundación TicSalut, ha organizado la 4a edición del taller en interoperabilidad semántica en el Tecnocampus.
La edición de este año se celebró los días 22 y 23 de Octubre en el espacio Xnergic del Tecnocampus y contó con la participación de 21 alumnos y 5 ponentes (de la OFSTI-Oficina de Estándares e Interoperabilidad, la CSMS-Corporación de Salud del Maresme y la Selva y del Tecnocampus). Las sesiones se centraron en explicar el Diccionario Clínico para iSalut y la terminología clínica SNOMED CT en la cual está basado.

El Diccionario Clínico para iSalut es un proyecto transversal que tiene por objetivo normalizar el vocabulario del SISCAT (Sistema Sanitario integral de la Red de Salud Pública de Cataluña), de manera que se pueda alcanzar la interoperabilidad semántica entre los sistemas de información de los proveedores, a diferentes niveles asistenciales. Esta interoperabilidad garantiza el intercambio de los datos sin que se pierda su significado, permitiendo la representación e interpretación automática e inequívoca.

El proyecto está liderado por la OFSTI de la fundación TicSalut y cuenta con la participación de Tecnocampus (a través del CCI), de HC3 (Historia Clínica Compartida de Cataluña), del CatSalut y de diferentes centros proveedores. El Diccionario Clínico utiliza el estándar semántico SNOMED CT como terminología de referencia y base de representación pero incluye otros vocabularios que también se están utilizando actualmente en el SISCAT (LOINC, CIE-9-MC, CIE-10, etc.).

En el taller se explicó el proyecto Diccionario Clínico para iSalut y los vocabularios controlados del SISCAT, presentando detalladamente SNOMED CT con sus componentes y mecanismos. También se realizó una ponencia sobre la adopción de los subconjuntos de alergias del Diccionario en la HCE de la CSMS y se mostraron distintas herramientas para trabajar con vocabularios controlados. Los conocimientos teóricos se complementaron con ejercicios prácticos utilizando el servidor de terminología ITServer de Indizen.

El tríptico del taller se puede consultar al siguiente enlace: Tríptico 4a edición taller interoperabilidad semántica.

This post is only available in Catalan and Spanish:
Llegir en català (Read it in Catalan)
Leer en castellano (Read it in Spanish)
Inaugurat espai d’experiències SNOMED CT al bloc del CCI

Inaugurat espai d’experiències SNOMED CT al bloc del CCI

Leer en castellano
Read It in English

El Centre de Competències d’Integració ha inaugurat un espai al seu bloc per compartir experiències d’adopció i ús de SNOMED CT per part dels centres proveïdors i d’altres organitzacions de l’àmbit de la salut.De moment l’espai ja compta amb l’experiència d’implantació del subconjunt d’al·lèrgies a la Història Clínica Electrònica corporativa, anomenada TESISHCE, de la Corporació de Salut del Maresme i la Selva (CSMS): Espai d’experiències SNOMED CT.

El subconjunt d’al·lèrgies va ser desenvolupat per un equip d’experts multidisciplinar al projecte Diccionari Clínic per iSalut. A l’àrea de descàrrega de SNOMED CT del web de l’OFSTI (Oficina d’estàndards i Interoperabilitat) es poden descarregar les versions internacionals de SNOMED CT, l’extensió catalana i tots els subconjunts creats pel Diccionari Clínic.

Si voleu aportar la vostra experiència al nou espai del bloc us podeu posar en contacte amb nosaltres a través de: Ariadna Rius, Responsable Línia Terminologia, Centre de Competències d’Integració de l’OFSTI, Fundació Tecnocampus, arius@tecnocampus.cat.

Llegir en català
Read It in English

El Centre de Competències d’Integració ha inaugurado un espacio en su blog dedicado a compartir experiencias de adopción y uso de SNOMED CT por parte de los centros proveedores y otras organizaciones del ámbito de la salud. De momento el espacio ya cuenta con la experiencia de implantación del subconjunto de alergias en la Historia Clínica Electrònica corporativa, TESISHCE, de la Corporación de Salud del Maresme y la Selva (CSMS): Espacio de experiencias de SNOMED CT.

El subconjunto de alergias fue desarrollado por un equipo multidisciplinar de expertos en el proyecto Diccionario Clínico para iSalut. En el área de descarga de SNOMED CT de la web de la OFSTI (Oficina de Estándares e interoperabilidad) se pueden descargar las versiones internacionales de SNOMED CT, la extensión catalana y todos los subconjuntos creados para el Diccionario Clínico.

Si queréis aportar vuestra experiencia en el nuevo espacio del blog os podéis poner en contacto con nosotros a través de: Ariadna Rius, Responsable Línea Terminología, Centro de Competencias de Integración de la OFSTI, Fundación Tecnocampus, arius@tecnocampus.cat.

This post is only available in Catalan and Spanish:
Llegir en català (Read it in Catalan)
Leer en castellano (Read it in Spanish)
El CCI participa en el congrés eHealth Summer University a Castres

El CCI participa en el congrés eHealth Summer University a Castres

Leer en castellano
Read It in English

El Centre de Competències d’Integració (CCI), grup R+D+I de l’àrea de projectes de transferència del Tecnocampus, ha participat en el congrés eHealth Summer University que es va realitzar els dies 2, 3 i 4 de juliol a Castres (França). El grup va organitzar una sessió taller sobre els servidors de terminologia que també va comptar amb la participació de CareCom, desenvolupadors del servidor de terminologia HealthTerm. Des del CCI també es va participar en un a taula rodona d’experiències en eHealth a Catalunya, on es van presentar les principals línies d’actuació del grup.

Els servidors de terminologia són eines que permeten gestionar, distribuir, desenvolupar, mantenir i consultar els vocabularis controlats (catàlegs, terminologies, classificacions, etc.) que utilitzen els professionals assistencials en les seves Estacions Clíniques de Treball (ECT). Comptar amb la informació que recullen en format estructurat n’habilita la posterior recuperació i explotació, de manera que és possible utilitzar-la per planificar, facturar, representar coneixement en Sistemes de Suport a la Presa de Decisió Clínica (SSDC) i potenciar la recerca clínica. Si en el registre d’aquesta informació s’utilitzen estàndards, també és possible compartir-la, garantint–ne la interoperabilitat semàntica i obtenint el màxim d’informació rellevant dels pacients, independentment del nivell assistencial o centre des del qual es consulti.

A la sessió sobre servidors de terminologia es van explicar els diferents tipus de vocabularis que es fan servir en l’entorn sanitari i amb quina finalitat s’utilitzen. També es van presentar els diferents tipus d’eines que permeten treballar amb aquests recursos semàntics i es van mostrar dues solucions de servidors de terminologia: HealthTerm de l’empresa CareCom (a través d’un vídeo de demostració proporcionat per CareCom) i ITServer d’Indizen (en viu). Per finalitzar el taller es va presentar l’entorn simulat d’ECT desenvolupat pel CCI i que utilitza serveis web del servidor de terminologia ITServer per codificar el contingut d’un resum de situació clínica, de manera transparent pel professional assistencial (sense que hagi de treballar amb codis).

A continuació es pot consultar la presentació utilitzada a la sessió:

Llegir en català
Read It in English

El Centre de Competències d’Integració (CCI), grupo I+D del área de proyectos de transferencia del Tecnocampus, ha participado en el congreso eHealth Summer University que se celebró los días 2, 3 y 4 de julio en Castres (Francia). El grupo organizó una sesión taller sobre servidores de terminología que también contó con la participación de CareCom, desarrolladores del servidor de terminología HealthTerm. CCI también participó en una mesa redonda de experiencias en eHealth en Cataluña, donde se presentaron las principales líneas de actuación del grupo.

Los servicios de terminología sin herramientas que permiten gestionar, distribuir, desarrollar, mantener y consultar los vocabularios controlados (catálogos, terminologías, clasificaciones, etc.) que utilizan los profesionales asistenciales en sus Estaciones Clínicas de Trabajo (ECT). Contar con la información que recogen en formato estructurado permite recuperarla y explotarla posteriormente, de manera que es posible utilizarla para planificar, facturar, representar conocimiento en los Sistemas de Soporte a la toma de Decisiones, (SSD) y potenciar la investigación científica. Si en el registro de esta información se utilizan estándares, también es posible compartirla, garantizando su interoperabilidad semántica y obteniendo el máximo de información relevante de los pacientes, independientemente del nivel asistencial o centro des del cual se consulte.

En la sesión sobre servidores de terminología se explicaron los distintos tipos de vocabularios que se utilizan en el entorno sanitario y con qué finalidad se usan. También se presentaron los distintos tipos de herramientas que permiten trabajar con estos recursos semánticos y se mostraron dos soluciones de servidores de terminología: HealthTerm de la empresa CareCom (a través de un vídeo de demostración proporcionado por CareCom) e ITServer de Indizen (en vivo).Para finalizar el taller se presentó el entorno simulado de ECT que ha desarrollado por el CCI y que utiliza servicios web del servidor de terminología ITServer para codificar el contenido de los campos de un resumen de situación clínica, de manera transparente para el profesional asistencial (sin que tenga que trabajar con códigos).

A continuación se puede consultar la presentación utilizada en la sesión:

Llegir en català
Leer en castellano

The Centre of Competencies in Integration (CCI), a R+D+I group of the Technology Transfer’s Section of Tecnocampus Mataró-Maresme participated in the eHealth Summer University congress, that was held on 2, 3 and 4 of July in Castres (France). The group organized a workshop about terminology servers with the participation of CareCom, which are the developers of the HealthTerm terminology server. CCI also participated in a round table concerning eHealth experiences in Catalonia, where the principal lines of work of the group were presented.

Terminology servers are tools that allow us to manage, distribute, develop and query the controlled vocabularies (like catalogues, terminologies or classifications) used by physicians in their Clinical Work Station (CWS). Having this collected information in a structured format enables their use to plan, reimburse, develop Clinical Decisions Support Systems (CDSS) and to promote clinical research. If we also use standards to record this information we will be able to exchange it, obtaining the most relevant data of our patients from any assistance level or centre from which we are consulting it.

In the workshop about terminology servers we presented different types of controlled vocabularies used in the healthcare environment and for what purposes they are used. We also showed different types of tools to work with these semantic resources and we presented two solutions of terminology servers: HealthTerm of the company CareCom (through a demonstration video provided by CareCom) and ITServer of Indizen (in live demonstration). To finalize the session we presented the simulated environment of CWS developed by CCI. This CWS uses web services of the ITServer terminology server to codify the content of a clinical situation summary without been necessary for the physician to work with codes.

The slides used in the presentation can be found below:

Aplicació d’Intel·ligència Artificial en l’anàlisi de dades genètiques

Aplicació d’Intel·ligència Artificial en l’anàlisi de dades genètiques

Leer en castellano

En aquesta entrada us presento els primers resultats de la recerca feta amb la Universitat Oberta de Catalunya, en el Màster en Enginyeria Informàtica, i en la qual seguim treballant per ampliar els resultats obtinguts. Aquest treball és una aportació al projecte SUMMIT (Salut en les UltraMaratons i els seus líMITs), que té la finalitat de determinar si la població que practica exercici de llarga durada i alta intensitat té més risc sobre la salut que la sedentària i/o la moderadament activa.

El treball consisteix en l’anàlisi de dades genètiques; concretament s’analitza la incidència de l’esforç d’alta intensitat en la generació de lncRNA (long non-coding RiboNucleic Acid), aplicant tècniques d’Intel·ligència Artificial (IA). Els gens estan formats per segments d’ADN (Àcid Desoxiribonucleic) i ARN (Àcid Ribonucleic), els lncRNA són un tipus d’ARN força desconegut i que estudis recents estan relacionant amb l’aparició de malalties degeneratives, oncològiques i amb l’envelliment en general. L’objectiu del projecte és obtenir resultats que permetin conèixer millor aquest tipus d’ARN, ja que no té una funció clara identificada.

Per assolir aquest objectiu s’han usat tècniques de Machine Learning no supervisat, és a dir que no es comptava amb un conjunt de dades d’entrenament ni de validació perquè no existeix. I s’han aplicat a dades reals obtingudes pel projecte SUMMIT. D’entre la informació recollida, s’han utilitzat els nivells d’expressió de 28 mostres preses a una travessa per la muntanya de més de 80 km, entre les quals hi ha:

  • 16 mesures fetes abans de la travessa i 12 després.
  • 8 dones i 20 homes.
  • Mostres de persones que han completat diferents distàncies de la cursa.
  • 18 persones actives (entre 3 i 10 hores d’esport setmanals) i 10 elit (més de 10).

I de cadascuna es compta amb el nivell d’expressió de més de 53.600 probesets (proteïnes, ARN, etc.).

L’expressió genètica és el procés pel qual la informació d’un gen s’utilitza en la síntesi d’una molècula d’ARN o d’una proteïna. El nivell d’expressió és diferent per cada cèl·lula, de manera que el seu estudi permet comparar cèl·lules malaltes i sanes, amb medicació o sense, amb diferents condicions d’estrès, etc.

La imatge següent mostra els nivells d’expressió d’una de les mostres utilitzades:

Les fites concretes del treball són:

  • Analitzar la incidència de determinades característiques pròpies de l’esforç d’alta intensitat, com la distància recorreguda, el moment de la travessa o el grup d’activitat, en la generació de proteïnes i lncRNA.
  • Correlacionar nivells d’expressió de proteïnes i de lncRNA.
  • Relacionar proteïnes altament correlacionades amb el pathway (conjunts de proteïnes que treballen plegades per dur a terme una acció biològica) de la Glucosa, per analitzar la incidència que hi puguin tenir els lncRNA.

Per assolir-les s’han treballat les fases següents:

Tractament de les dades: Recerca de BBDD, integració de les dades i homogeneïtzació, filtratge, normalització, inclusió de metadades, etc. Amb aquesta fase s’han reduït els 53.617 probesets a 1.200 proteïnes i 8.656 lncRNA de manera que es passa a treballar amb 28 mostres i 9.856 probesets cadascuna.

Agrupació: Agrupament dels nivells d’expressió fent prèviament un anàlisi de components principals (algoritme PCA – Principal Component Analysis) i usant l’algoritme PAM (Partitioning Around Medoids) per agrupar en 2 i 3 clústers. S’han agrupat els nivells d’expressió de totes les mostres (barreja) i s’han comparat amb els agrupaments dels nivells d’expressió per cada característica (homes, dones, elit, actius, abans i després de la cursa, etc.).

Correlació de Pearson: Separació dels nivells d’expressió de proteïnes dels de lncRNA i càlcul de correlacions entre ambdós conjunts (de totes les proteïnes amb tots els lncRNA).

Anàlisi de components independents: Filtratge dels nivells d’expressió de proteïnes involucrades al pathway de la Glucosa i correlacionades amb lncRNA. Aplicació de l’algoritme ICA (Independent Component Analysis) per construir un model dels nivells d’expressió amb les diferents característiques i aplicació d’un test hipergeomètric per analitzar la incidència de les proteïnes al model.

Resultats obtinguts:
L’anàlisi PCA indica que els nivells d’expressió amb major variabilitat són els de la característica distància superior a 60km i els més homogenis els del moment de la cursa PRE.

Les agrupacions, i el seu anàlisi, indiquen que les característiques amb més incidència en la generació de proteïnes i lncRNA són les distàncies inferior a 40 km i superior a 60 km i el moment de la cursa abans i després. Les imatges següents mostren els agrupaments en 3 clústers fets per distància i els de la barreja:

En el càlcul de la correlació de Pearson entre les proteïnes i els lncRNA filtrats, s’ha trobat un nombre elevat de proteïnes correlacionades amb els lncRNA, la qual cosa pot permetre investigar el paper dels lncRNA en les funcions de les proteïnes correlacionades, prioritzant els que han obtingut millor resultat (correlació més propera a 1).

En l’anàlisi ICA i el test hipergeomètric s’han trobat forces resultats amb alta correlació entre les proteïnes del pathway de la Glucosa i els lncRNA però no s’han trobat diferències estadísticament significatives de la incidència de les diferents proteïnes al model construït. Aquest resultat implica que no s’han trobat indicis que cap proteïna, per si sola, té més incidència al model que la resta. I, de retruc, tampoc cap lncRNA correlacionat amb aquestes proteïnes del pathway.

Actualment seguim treballant per ampliar els resultats obtinguts, replicar-los i afinar-los.

Si voleu més informació sobre el treball que s’està realitzant podeu demanar-la a través del correu arius@tecnocampus.cat.

Llegir en català

En esta entrada os presento los primeros resultados de la investigación hecha con la Universitat Oberta de Catalunya, en el Máster en Ingeniería Informática, y en la cual seguimos trabajando para ampliar los resultados obtenidos. Este trabajo es una aportación al proyecto SUMMIT (Salud en les UltraMaratones y sus líMITes), que tiene la finalidad de determinar si la población que practica ejercicio de larga duración y alta intensidad tiene más riesgo sobre la salud que la sedentaria y/o la moderadamente activa.

El trabajo consiste en el análisis de datos genéticos; concretamente se analiza la incidencia del esfuerzo de alta intensidad en la generación de lncRNA (long non-coding RiboNucleic Acid), aplicando técnicas de Inteligencia Artificial (IA). Los genes están formados por segmentos de ADN (Ácido Desoxirribonucleico) y ARN (Ácido Ribonucleico), los lncRNA son un tipo de ARN bastante desconocido y que estudios recientes están relacionando con la aparición de enfermedades degenerativas, oncológicas y con el envejecimiento en general. El objetivo del proyecto es obtener resultados que permitan conocer mejor este tipo de ARN, ya que no tiene una función clara identificada.

Para alcanzar este objetivo se han usado técnicas de Machine Learning no supervisado, es decir que no se ha utilizado un conjunto de datos de entrenamiento ni de validación porque no existe. Y se han aplicado a datos reales obtenidos para el proyecto SUMMIT. De entre la información recogida, se han utilizado los niveles de expresión de 28 muestras tomadas en una travesía por la montaña de más de 80 km, entre las cuales hay:

  • 16 medidas hechas antes de la travesía y 12 después.
  • 8 mujeres y 20 hombres.
  • Muestras de personas que han completado distintas distancias de la travesía.
  • 18 personas activas (entre 3 y 10 horas de deporte semanales) y 10 elites (más de 10).

Y de cada se ha medido el nivel de expresión de más de 53.600 probesets (proteínas, ARN, etc.).

La expresión genética es el proceso por el cual la información de un gen se utiliza en la síntesis de una molécula de ARN o de una proteína. El nivel de expresión es distinto para cada célula, de manera que su estudio permite comparar células enfermas y sanas, con medicación o sin, con distintas condiciones de estrés, etc.

La imagen siguiente muestra los niveles de expresión de una de las muestras usadas:

Los hitos concretos del trabajo son:

  • Analizar la incidencia de determinadas características propias del esfuerzo de alta intensidad, como la distancia recorrida, el momento de la travesía o el grupo de actividad, en la generación de proteínas y lncRNA.
  • Correlacionar niveles de expresión de proteínas y lncRNA.
  • Relacionar proteínas altamente correlacionadas con el pathway (conjuntos de proteínas que trabajan juntas para llevar a cabo una acción biológica) de la Glucosa, para analizar la incidencia que puedan tener los lncRNA.

Para alcanzar-los se han trabajado las fases siguientes:
Tratamiento de los datos: Búsqueda de BBDD, integración de los datos y homogeneización, filtrado, normalización, inclusión de metadatos, etc. Con esta fase se han reducido los 53.617 probesets a 1.200 proteínas y 8.656 lncRNA de manera que se pasa a trabajar con 28 muestras y 9856 probesets cada una.

Agrupación: Agrupación de los niveles de expresión realizando previamente un análisis de componentes principales (algoritmo PCA – Principal Component Analysis) y usando el algoritmo PAM (Partitioning Around Medoids) para agrupar en 2 y 3 clústeres. Se han agrupado los niveles de expresión de todas las muestras (mezcla) y se han comparado con las agrupaciones de los niveles de expresión por cada característica (hombres, mujeres, elite, activo, antes y después de la actividad, etc.).

Correlación de Pearson: Separación de los niveles de expresión de proteínas de los de lncRNA y cálculo de correlaciones entre ambos conjuntos (de todas las proteínas con todos los lncRNA).

Análisis de componentes independientes: Filtro de los niveles de expresión de proteínas involucradas en el pathway de la glucosa y correlacionadas con lncRNA. Aplicación del algoritmo ICA (Independent Component Analysis) para construir un modelo de los niveles de expresión con las diferentes características y aplicación de un test hipergeométrico para analizar la incidencia de las proteínas en el modelo.

Resultados obtenidos:
El análisis PCA indica que los niveles de expresión con mayor variabilidad son los de la característica distancia superior a 60 km y los más homogéneos los del momento de la actividad PRE.

Las agrupaciones, y su análisis, indican que las características con más incidencia en la generación de proteínas y lncRNA son las distancias inferior a 40 km y superior a 60 km y el momento de la actividad antes y después. Las imágenes siguientes muestran las agrupaciones en 3 clústeres hechos por distancia y los de la mezcla:

En el cálculo de la correlación de Pearson entre las proteínas y los lncRNA filtrados, se ha encontrado un número elevado de proteínas correlacionadas con los lncRNA, la cual cosa puede permitir investigar el papel de los lncRNA en las funciones de las proteínas correlacionadas, priorizando los que han obtenido mejor resultado (correlación más próxima a 1).

En el análisis ICA y el test hipergeométrico se han encontrado bastantes resultados con alta correlación entre las proteínas del pathway de la Glucosa y los lncRNA pero no se han encontrado diferencias estadísticamente significativas de la incidencia de las diferentes proteínas al modelo construido. Este resultado implica que no se han encontrado indicios de que ninguna proteína, por si sola, tiene más incidencia en el modelo que el resto. Y, por ende, tampoco ningún lncRNA correlacionado con estas proteínas del pathway.

Actualmente seguiremos trabajando para ampliar los resultados obtenidos, replicarlos y afinarlos.

Si queréis más información sobre el trabajo que se está realizando podéis solicitarla a través del correo electrónico: arius@tecnocampus.cat.

This post is only available in Catalan and Spanish:
Llegir en català (Read it in Catalan)
Leer en castellano (Read it in Spanish)