Pgmd: una base de dades farmacogenòmica curada manualment | la revista farmacogenòmica

Pgmd: una base de dades farmacogenòmica curada manualment | la revista farmacogenòmica

Anonim

Temes

  • Biologia computacional i bioinformàtica

Resum

La base de dades PharmacoGenomic Mutation (PGMD) és una completa base de dades de farmacogenòmica curada manualment. Dues fonts principals de dades sobre PGMD són la literatura revisada per iguals i les etiquetes de medicaments per a l’administració d’aliments i drogues (FDA) i les etiquetes de medicaments de l’Agència Europea de Medicaments (EMA). Els curadors PGMD capturen informació sobre la ubicació genòmica exacta i els canvis de seqüència, sobre el fenotip resultant, els medicaments administrats, la població de pacients, el disseny de l'estudi, el context de la malaltia, la importància estadística i altres propietats de les variants farmacogenòmiques reportades. Les variants s'anoten en categories funcionals en funció de la seva influència en farmacocinètica, farmacodinàmica, eficàcia o resultat clínic. El llançament actual de PGMD inclou més de 117 000 observacions farmacogenòmiques úniques, que cobreixen les 24 superclasses de malaltia i gairebé 1400 medicaments. Més de 2800 gens han associat variants farmacogenòmiques, inclosos els gens en proximitat a variants intergèniques. PGMD s’optimitza per utilitzar-lo en l’anotació de dades de seqüenciació de propera generació proporcionant coordenades genòmiques per a totes les variants cobertes, inclosos polimorfismes de nucleòtids únics (SNPs), insercions, supressions, haplotips, diplomotips, repeticions de tàndem de nombre variable (VNTR), variacions de números de còpia i estructurals variacions.

Introducció

A mesura que el seqüenciament de nova generació (NGS) es torna més assequible, eficaç i complet, la medicina personalitzada s’acosta més a la implementació pràctica. No obstant això, l’ús clínic rutinari de dades de NGS encara afronta diversos reptes en la regulació, la integració en sistemes d’informació clínica, la gestió de dades i en la interpretació de resultats de seqüenciació per identificar variants genètiques actuables. Hi ha dues categories principals d’aquestes variants que sovint se solapen: variants responsables de l’estat del pacient i variants que afecten la resposta al medicament. Les aberracions genètiques pertanyents a la primera categoria de variants de malalties causals han estat el focus principal de la investigació i de les comunitats clíniques. Com a resultat, hi ha diversos recursos disponibles per avaluar la probabilitat que una lesió determinada sigui inofensiva o patògena. Tot i que difereixen per l’abast, la deposició i les polítiques d’accés, els recursos notables de les variants de malalties curades inclouen les següents: la base de dades de mutació de gèneres humans curada manualment, 1 que actualment representa la font d’informació més completa sobre mutacions causants de malalties germinals i polimorfismes associats a la malaltia. ; Herència Mendeliana en Línia (OMIM) en línia (semblant a l’àmbit de la base de dades de mutacions de gèneres humans, però incloent significativament menys variants, 2 ); ClinVar (un arxiu públic d’informes relativament nou que enumera les relacions entre variacions humanes i fenotips amb evidència de suport 3 ); Catàleg de mutacions somàtiques en càncer (COSMIC); 4 i múltiples bases de dades específiques del locus.

La segona categoria, potencialment més accionable de les variants genètiques, aquelles que afecten la resposta al fàrmac i, per tant, directament aplicables per a la determinació d’estratègies de tractament personalitzades, no estan incloses a més pels recursos de dades disponibles actualment. Dos recursos, la base de dades d’interacció de gens de fàrmacs 5 i la base de dades comparativa de Toxicogenòmica, 6 informació agregada sobre les relacions entre gens, malalties i fàrmacs o productes químics, però tampoc no considera com l’alteració genètica específica pot afectar la resposta a un medicament o producte químic. La base de coneixement de farmacogenòmica (ref. 7), un recurs curat manual que conté informació sobre variants farmacogenòmiques en centenars de gens i medicaments relacionats, resums sobre farmacògens importants i vies farmacogenòmiques considera l'efecte d'alteracions genètiques específiques. Tot i això, tot i que el seu abast i amplitud de la informació és àmpliament reconegut a la comunitat farmacogenòmica, no es pot fer referència fàcilment a les dades de NGS a causa de la manca de coordenades genòmiques per a moltes de les variants descrites. Diversos factors addicionals, incloent la presentació incompleta de genotips complexos i al·lels estrella, la falta d'informació sobre el desequilibri de vinculació i l'èmfasi en els farmacògens establerts, deixen espai per a esforços independents de curació i presentació de dades. Aquí presentem la base de dades de mutació de PharmacoGenomic (PGMD), una base de dades curada manualment de variants de resposta de fàrmacs. L’objectiu d’aquesta base de dades és proporcionar un recurs complet per a totes les variants que s’hagi informat que tinguin un efecte farmacogenòmic en estudis humans i descriure aquestes variants mitjançant la ubicació genòmica exacta i les alteracions de la seqüència per aplicar-les a l’anàlisi de dades de NGS. La base de dades està dissenyada per contenir informació àmplia com a evidència d’aquestes associacions, incloent informació sobre fenotip resultant, medicaments administrats, població de pacients, disseny d’estudi, context de malaltia, importància estadística i procedència d’aquesta informació. L’accés en línia a PGMD és gratuït per als usuaris registrats d’institucions acadèmiques. L’accés per a usuaris comercials i una varietat d’opcions de descàrrega estan disponibles mitjançant subscripció de pagament.

Materials i mètodes

Adquisició de contingut

La font principal de contingut PGMD és la literatura científica revisada per iguals. Els articles rellevants s’identifiquen mitjançant una combinació de selecció manual i consulta automatitzada de PubMed. La versió actual (2014.4) conté 5904 referències. Una font secundària de contingut prové de les associacions farmacogenòmiques que els fabricants de medicaments han informat a la FDA i a l'EMA. El contingut rellevant s'extreu de les etiquetes farmacèutiques FDA i EMA. 8

Un equip de comissaris científics són curats manualment per dades. Per garantir una alta fidelitat entre el contingut de publicació original i el que s'informa a PGMD, les dades s'introdueixen mitjançant un procés de curació semidual. Valors de dades bàsics com el genotip, la importància estadística i la resposta específica a fàrmacs (fenotip) s’introdueixen de forma independent per part de dos científics de cura especials abans de ser comparats i compilats per un editor científic. Un dels parells de comissaris és identificat per l'ètnia, l'edat, els medicaments i la malaltia administrats i posteriorment revisats pel mateix editor científic. Per assegurar l'estandardització entre els registres, es capturen la majoria de les categories de dades, inclòs el fenotip, els títols de l'assumpte mèdic (MeSH), les drogues (DrugBank, PubChem, MeSH) i molts detalls justificatius, que es capturen mitjançant vocabularis controlats.

Els curadors PGMD determinen manualment la nomenclatura de la Human Genome Variation Society (HGVS) a associar-se a cada variació genètica, o bé recopilen aquesta informació a la base de dades de variacions genètiques curtes del Centre Nacional d’Informació Biotecnològica (NCBI) (dbSNP). 9 La informació crucial per fer referència a les anotacions farmacogenètiques a les dades de NGS sovint només es troba parcialment a la literatura i s'ha de resoldre manualment assignant el conjunt de referència humana mitjançant NCBI. En els estudis en què falta informació crucial per identificar la ubicació genòmica, la política és comunicar-se personalment amb els autors per obtenir els detalls necessaris per facilitar el mapeig a les coordenades genòmiques.

Resultats

Àmbit de contingut

La unitat bàsica de PGMD és la variant o haplotip, que es representa en el model de lliurament en línia com a Informe Variant o Informe Haplotip. Es proporciona informació general sobre cada variant, quan és possible, incloent el tipus i classe de variants, al·lel de referència, freqüència d'al·lel i molt més. A la informació general se segueix la llista d’estudis farmacogenòmics curats per a la variant o l’haplotip. Cada estudi es desglossa en un conjunt d’observacions, amb cada observació incloent cinc camps bàsics de dades: un genotip, un haplotip, un diplotip, etc. per a variants més complexes; un fenotip; el medicament administrat; significació estadística de l'associació; i la font de les dades. Es capturen camps de dades addicionals quan estan disponibles, incloent detalls del tractament i la font de mostra, estat de malaltia, detalls de població dels pacients, mida total de l'estudi i molt més. A la taula complementària es proporciona una llista completa dels camps de dades. Quan estiguin disponibles, es proporcionen dades de desequilibri d’enllaç de HapMap 10 com a puntuacions D ′ i r 2 basades en la població que proporcionen una visió detallada de variants causals potencialment enllaçades.

Les tendències de dades PGMD, que es fan visibles mentre es consulten la base de dades completa, posen de manifest la naturalesa imparcial del procés d’adquisició de contingut i l’ampli abast de les dades. Les variants trobades a PGMD s'anoten en diverses categories funcionals. Un total de 13 454 variants tenen un paper farmacodinàmic, on la variació en el lloc o l’haplotip donat ha comportat un impacte alterat d’un medicament sobre el pacient, inclosos els esdeveniments adversos; Les variants de 1950 tenen un paper farmacocinètic, on la variació en el lloc o haplotip donat ha comportat una absorció, distribució, metabolisme i excreció diferencials del fàrmac; 2865 variants alteren els resultats clínics observats dels tractaments. L'avaluació del resultat clínic és complexa i pot incloure quatre tipus de mesures: el resultat reportat pel pacient, el resultat reportat pel metge, el resultat de l'observador i el resultat del rendiment segons la classificació de la FDA. Un petit subconjunt de dades que es troben en PGMD (671 variants) entra dins de la categoria de "assaig molecular", on un paràmetre només es podia mesurar in vitro i, per tant, és l'únic grup de variants PGMD que no es basa en estudis humans in vivo .

La manca de parcialitat o preferència en el cribratge de referència per a la indicació de la malaltia d’un medicament, una malaltia específica dins d’un estudi o el presumpte paper del gen associat en un procés patològic o en el metabolisme del fàrmac han propiciat un ampli àmbit de cobertura per part de PGMD. Dins de la base de dades, es cobreixen un total de 480 malalties, que representen les 24 superclasses de malalties MeSH 11 (taula 1) reconegudes per l'Associació Mèdica Americana. Es van capturar un total de 1390 fàrmacs per a les diverses indicacions de malaltia especificades, incloses les drogues en procés d'aprovació de la FDA, etapes 2-4. L’informe del medicament de PGMD proporciona informació completa sobre cada medicament, inclosos els enzims metabolitzadors de cada medicament, els objectius coneguts de cada medicament i els assajos clínics relacionats.

Taula completa

No restringit a les variants en els gens claus Absorció, Distribució, Metabolisme i Excretion, 12 que reben una gran atenció de la comunitat científica i estan ben coberts per panells de seqüenciació gènica orientats proporcionats per venedors principals, PGMD també capta variants d’estudis farmacogenòmics en altres gens i intergènics. regions que proporcionen cobertura a les regions menys estudiades del genoma per a la investigació de marcadors farmacogenòmics menys establerts.

Tenint en compte la cobertura imparcial d’associacions farmacogenètiques molt estudiades i poc estudiades, PGMD té cobertura d’una àmplia varietat de gens. Un total de 2802 gens contenen variants farmacogenòmiques reportades; entre ells, 689 codifiquen objectius medicaments i 121 pertanyen a vies metabolitzants de medicaments. Això exclou moltes variants que queden completament fora de les regions genètiques, que estan associades de manera diferenciada amb els gens que envolten aquestes variants. La versió actual de PGMD conté 3796 gens que es classifiquen com a gens propers per a variants intergèniques. Al proporcionar els gens circumdants per a variants intergèniques, PGMD facilita l'exploració d'hipòtesis relacionades amb els rols potencials de regulació gènica d'una variant.

Lliurament

PGMD està disponible a través d’una interfície en línia i com a descàrrega a través d’una base de dades MySQL o com a conjunt de fitxers plans. PGMD també s’incorpora a Genome Trax, una base de dades d’anotacions i anàlisis genòmiques. 13

La interfície PGMD (figura 1) permet cercar variants farmacogenòmiques individualment o a granel mitjançant coordenades genòmiques, identificadors o canvis d'aminoàcids. Les categories que es poden cercar i que es poden penjar inclouen gens, proteïnes i miRNAs que contenen les variants, així com malalties afectades i fàrmacs de resposta diferent. Podeu trobar exemples de cerca de termes i instruccions diferents per descarregar els resultats de la cerca al tutorial complementari. La interfície en línia de PGMD s'ha integrat amb la interfície de bases de dades PROTEOME i TRANSFAC, 14, 15 que permeten una transició intuïtiva per a usuaris experimentats i referència creuada a milions d'entrades d'aquests recursos, incloent-hi informes relacionats amb gens, malalties, fàrmacs, vies., variants i molt més. Les cerques de les entitats esmentades a través de bases de dades individuals o les seves combinacions generen informes amb enllaços que proporcionen accés des de l'informe d'una entitat al següent; tanmateix, l’accés al contingut de PROTEOME i TRANSFAC requereix una subscripció a aquestes bases de dades.

Image

Interfície en línia de la base de dades PharmacoGenomic Mutation Mutation (PGMD). ( a ) Es poden obtenir variants farmacogenòmiques mitjançant malalties enfocades, fàrmacs, gens o variants particulars. ( b ) Captura de pantalla d'una part de l'informe variant que mostra una de les anotacions associades a l'haplotip rs1799853 – rs1057910.

Imatge a mida completa

  • Descarregueu la diapositiva de PowerPoint

A més de les dades de PGMD, Genome Trax inclou dades de diverses pistes d’anotació addicionals, incloses les bases de dades de mutació de gèneres humans, ClinVar, COSMIC, TRANSFAC, PROTEOME i molt més. L’addició de PGMD permet als usuaris afegir intuïtivament variants farmacogenòmiques a un genoma d’interès i realitzar un filtratge de les variants que coincideixen amb el seu tema en funció de la malaltia, els medicaments administrats, l’ètnia, la importància estadística i més (Figura 2, Taula complementària 1).

Image

Anotació farmacogenòmica de dades de seqüenciació de propera generació de Genome Trax mitjançant pista d'anotació PGMD. Es mostra un subconjunt de 61 camps de dades disponibles (taula suplementària 1) per a cadascuna de les variants anotades, i es poden afegir camps addicionals a la vista mitjançant les columnes Mostrar / ocultar .

Imatge a mida completa

  • Descarregueu la diapositiva de PowerPoint

Moltes institucions acadèmiques, clíniques o comercials han desenvolupat els seus propis pipelines d’anàlisi de dades NGS, creats per a l’alineació, trucades de variants, control de qualitat de trucades, anotació de conjunts de dades públiques i privades i altres funcions avançades com ara anàlisis de cohort i trio. És necessària una base de dades descarregable per a la integració de dades farmacogenòmiques en aquests conductes d’anàlisi. PGMD ofereix dues opcions d’aquest tipus; un és una base de dades MySQL que inclou totes les variants farmacogenòmiques disponibles a través de l’opció en línia, a més de dades addicionals com ara al·lels de referència del Genome Reference Consortium Human Builds, freqüències d’al·lel de fonts com HapMap, el 1000 Genomes Project 16 i el Projecte de seqüenciació d’Exome, 17 i dades sobre desequilibri d’enllaç correlacionant amb variants farmacogenòmiques. Els usuaris també tenen l'opció d'un fitxer pla en forma de valors separats per fitxa, en què se separen variants simples com SNPs i Indels en un sol fitxer amb totes les columnes de dades rellevants, i variants més complexes com ara haplotips, repeticions i estructurals. s’han inclòs variacions en un segon fitxer (Taula suplementària 2).

Discussió

El PGMD és un recurs únic que ha agregat la literatura sobre la resposta a fàrmacs en pacients en una base de coneixement fàcilment accessible. Permetent que l'usuari superposi ràpidament les correlacions observades anteriorment, hem fet possible donar significat al genoma del pacient en un context clínic, ajudant tant a assaigs clínics com a tractament potencial de fàrmacs possiblement nocius. La interfície d’usuari en línia permet que la base de dades es pugui cercar fàcilment per fàrmacs, malalties, gens, haplotips o variacions i també proporciona informació sobre els SNP que tenen un desequilibri en relació amb les variants farmacogenòmiques reportades. Per fer la base de dades útil per a la detecció d’exoma o de genoma complet, hem desenvolupat algoritmes que permeten fer coincidir les entrades de la base de dades amb les variants d’un subjecte mostrejat, tenint en compte que, en molts casos, cal que es corresponguin haplotips exactes. S’han de considerar canvis de nucleòtids i s’han de resoldre adequadament els al·lels d’estrelles complexes.

Tenim previst continuar els nostres esforços per seguir desenvolupant PGMD en diverses direccions. Per exemple, l’àmbit actual de PGMD no cobreix els informes de variants poc significatives, és a dir, les variants informades a la literatura revisada per iguals per no tenir efectes farmacogenòmics significatius. Tenim previst ampliar la nostra cura per incloure aquests informes, especialment en casos d’evidència clínica controvertida, on contradiuen una “troballa significativa” inclosa en PGMD.

La interfície web basada en PGMD permet cercar les variants basades en el gen que es troba dins, els medicaments que es van administrar als pacients de l'estudi i la malaltia que patien els pacients en l'estudi. Per tant, una cerca de malalties no identifica totes les variants estudiades relacionades amb tots els fàrmacs que tracten (o poden tractar) una indicació determinada. És un altre objectiu de futur ampliar la cerca d’ontologia de PGMD per incorporar relacions entre malalties i fàrmacs i cercar en conseqüència.

En aquest moment, no s'ha realitzat cap metaanàlisi sobre variants trobades dins de PGMD. Aquesta característica permetria a un usuari fer una valoració sobre el millor règim de tractament per a un pacient, donades (possiblement conflictives) associacions trobades per a un fàrmac, mitjançant un algoritme de ponderació que té en compte les mides de la mostra, la importància estadística de cada observació, pacient i estudi. detalls de la població, etc. L’algoritme d’anàlisi descrit “sobre la marxa” seria especialment beneficiós per als informes clínics. Tot i que no tenim plans immediats de desenvolupament d’eines de metaanàlisi per a la interfície web PGMD o Genome Trax, la futura integració amb l’anàlisi de variacions d’Ingenuity, així com amb la propera aplicació de suport a la decisió clínica, cobriran aquest desfasament. Les aplicacions possibles de la integració inclouen l’anotació de variants, l’anotació d’haplotips i l’agregació de múltiples troballes, possiblement en conflicte, en una conclusió decisiva sobre el millor tractament possible.

Informació complementària

Documents de paraula

  1. 1.

    Taula suplementària 1

  2. 2

    Taula complementària 2

Fitxers PDF

  1. 1.

    Tutoria complementària

    La informació complementària acompanya el document al lloc web de la revista The Pharmacogenomics (//www.nature.com/tpj)