Ús de la combinació de marcador de parella i particions recursives en una exploració farmacogènica a tot el genoma | la revista farmacogenòmica

Ús de la combinació de marcador de parella i particions recursives en una exploració farmacogènica a tot el genoma | la revista farmacogenòmica

Anonim

Resum

L’objectiu de la investigació farmacogenètica és identificar un marcador genètic, o un conjunt de marcadors genètics, que puguin predir com respondrà una persona determinada a un determinat medicament. Per cercar combinacions de marcadors que siguin predictives d’esdeveniments adversos de fàrmacs, hem desenvolupat i aplicat dos mètodes complementaris a un estudi farmacogenètic de la reacció d’hipersensibilitat (HSR) associada al tractament amb abacavir, un medicament que s’utilitza per tractar pacients infectats pel VIH. . Els nostres resultats mostren que tots dos mètodes es poden utilitzar per descobrir combinacions de marcadors predictius potencialment útils. El mètode de combinació de marcadors en parella va produir una col·lecció de parells de marcador que presentaven un espectre de sensibilitats i especificitats. Els resultats de particions recurrents van conduir a la delimitació genètica de diverses categories de risc, incloses aquelles amb un risc extremadament alt i extremadament baix de HSR. Aquests mètodes es poden aplicar fàcilment en estudis de gens candidats farmacogenètics, així com en exploracions a tot el genoma.

Introducció

El primer objectiu d’un estudi farmacogenètic d’una reacció adversa als medicaments és demostrar una associació estadística entre l’esdeveniment advers i un o més marcadors genètics. 1, 2, 3 Tot i que aquesta constatació és en si mateixa remarcable, una pregunta important important és si un assaig predictiu basat en els marcadors genètics seria clínicament útil. 4, 5, 6 S’han de tenir en compte diversos factors una mica subjectius per respondre aquesta pregunta, incloent la gravetat de l’esdeveniment advers, la freqüència de la seva aparició, la gravetat de la malaltia o la condició a tractar i l’efectivitat de les teràpies alternatives, si es disposa. . 7, 8, 9 A més, hi ha mesures de rendiment estàndard i objectives per a proves diagnòstiques clíniques.

Normalment, les proves clíniques estan dissenyades per distingir les persones amb malaltia, "casos", de persones lliures d'aquesta malaltia, "controls". Després de l'administració del test, el resultat de cada individu és determinat com a "positiu" o "negatiu". Si es considera que es tracta de casos els individus que experimenten una reacció adversa als fàrmacs i els que no experimenten cap esdeveniment advers, es definirà una mesura del rendiment de la prova, la sensibilitat, com el percentatge de casos que es mostren positius. Una mesura d'acompanyament, l'especificitat, es defineix com el percentatge de controls que proven negativament.

L’ideal és que sigui útil un assaig predictiu basat en genètica, tant la seva sensibilitat com l’especificitat han de ser el més properes al 100%. Per exemple, si un marcador genètic predictiu d’una reacció adversa als fàrmacs té alta sensibilitat però baixa especificitat, en realitat, molts amb proves positives no correran el risc de l’esdeveniment advers. Si se'ls negués el tractament a aquells amb proves positives, molts d'aquests individus no obtindrien els possibles beneficis del medicament, tot i que, de veritat, no tindrien risc de produir-los. D'altra banda, si un marcador genètic presentava una alta especificitat però baixa sensibilitat, pot ser que, entre els que posseeixin proves negatives, hi hagi alguns individus que corren risc d'esdeveniment advers. El que es pugui considerar un nivell adequat de sensibilitat i especificitat dependrà de la particular medicació i dels esdeveniments adversos que s’està avaluant.

La sensibilitat i l’especificitat es poden utilitzar per comparar la utilitat potencial de diversos assajos clínics. Per entendre quin impacte pot tenir un assaig basat en genètica en la pràctica clínica, és útil estimar els seus valors predictius. En el context d’un assaig basat en genètica per a una reacció adversa als medicaments, el valor predictiu positiu (PPV) es pot definir com el percentatge d’individus, entre tots els que són positius per a l’assaig, que experimenten un esdeveniment advers. De la mateixa manera, el valor predictiu negatiu (VNV) és el percentatge d’individus, entre tots els que són negatius per a l’assaig, que no tenen la reacció adversa als medicaments. Aquestes mesures es poden utilitzar per respondre a qüestions importants plantejades pels pacients amb els seus metges. "Si el resultat del meu assaig és negatiu, indicant que és segur que prengui el medicament, quina és la probabilitat que tingui cap esdeveniment advers?" La resposta és 100% menys el VNV. "Si el resultat del meu assaig és positiu, quina és la possibilitat que pogués prendre el medicament i que no tingués el cas advers?" La resposta és 100% menys el PPV. Es pot estimar el PPV i el VNV d’un assaig basat en la genètica si es coneix la prevalença de l’esdeveniment advers i la sensibilitat i l’especificitat de l’assaig.

Com que les reaccions adverses als medicaments són probablement el resultat de múltiples factors genètics, i també ambientals, pot ser que per assolir les característiques de prova desitjables, molts assaigs genètics s’hauran de basar en múltiples marcadors genètics en lloc d’un marcador únic. Per tant, un repte important per als investigadors farmacogenètics és identificar i aplicar mètodes estadístics útils per trobar aquestes combinacions de marcadors predictius. Aquest treball descriu dos enfocaments per identificar combinacions i com es van aplicar aquests enfocaments a les dades d'una exploració a tot el genoma de marcadors potencialment predictors de la reacció d'hipersensibilitat (HSR) en pacients infectats pel VIH-1 després del tractament amb abacavir (ABC).

L’ABC és un medicament antiretroviral eficaç utilitzat per tractar la infecció pel VIH-1. Aproximadament un 2-9% dels pacients tractats amb ABC desenvolupen un HSR que en rares ocasions s’ha mostrat fatal. 10, 11, 12 Per identificar marcadors genètics associats a la HSR, es van utilitzar enfocaments d’exploració del gen i candidats. 13, 14, 15 Els estudis van comparar la freqüència de variants genètiques en subjectes que van desenvolupar presumptament HSR amb aquells que no ho van fer. Es van trobar trenta-vuit marcadors associats ( P <0.05) amb HSR en blancs en dos estudis retrospectius de control de casos. Entre aquests marcadors replicats, HLA-B * 5701 posseïa les característiques de rendiment més altes, amb una sensibilitat del 56, 4% i una especificitat del 99, 1%. Mallal et al. També es va associar fortament a aquest marcador amb ABC HSR . 16 i de Hughes et al. 17 Tot i que l’especificitat era força alta, la sensibilitat només era moderada. Com a resultat, es van realitzar anàlisis de combinació de marcadors per intentar identificar un conjunt de marcadors amb prou sensibilitat i especificitat per ser clínicament útils.

Els dos enfocaments que es van fer servir van ser la combinació de marcador a parella i la partició recursiva (RP). 18, 19 Les descripcions detallades d’aquests enfocaments es proporcionen a la secció Mètodes. El mètode de combinació de marcadors a parella es va utilitzar per considerar combinacions de genotips per a tots els parells de marcadors i determinar si la sensibilitat i l'especificitat d'una combinació de dos marcadors representaven una millora respecte a les característiques dels marcadors que contribueixen. RP, un procediment d’explotació de dades que té la capacitat de descobrir la interacció estadística entre un gran nombre de variables, es va utilitzar per avaluar combinacions de tres o més marcadors respecte a la seva utilitat per estimar el risc d’HSR. Aquests mètodes es poden aplicar fàcilment no només en les exploracions a tot el genoma, sinó també en estudis de gen candidats farmacogenètics.

Resultats

Anàlisi de la combinació de marcador paral·lel

El conjunt de dades analitzat constava de 118 casos i 231 controls i 38 marcadors replicats. A partir de l’anàlisi d’un sol marcador es va crear una combinació positiva de dos marcadors basada en genotips de “risc més elevat” (el genotip més freqüent en casos que en controls). Es van utilitzar tres combinacions lògiques, 'I', 'O' i 'O EXCLUSIVA' per combinar genotips per a una parella de marcador (vegeu la secció de mètodes estadístics per a definicions). Es van avaluar set-cents tres (703) parells de marcadors (tots els parells possibles entre els 38 marcadors replicats) per a la seva associació amb HSR. Per a cada parell de marcadors, es va identificar la configuració amb el valor P més baix. Les estimacions de sensibilitat i especificitat d’aquests parells de marcador es van comparar amb les dels marcadors individuals, amb l’objectiu d’identificar un parell de marcadors que tingués millor sensibilitat i especificitat que qualsevol dels marcadors individuals.

Entre els marcadors replicats, HLA-B * 5701 va mostrar l’associació més forta amb HSR, amb una especificitat del 99, 1% i una sensibilitat del 56, 4%. La figura 1 mostra la sensibilitat davant l’especificitat de HLA-B * 5701 (quadrat gran), els altres 37 marcadors replicats individualment (quadrats petits), la combinació de HLA-B * 5701 i un marcador de proteïnes de xoc tèrmic (HSPA1L) reportats anteriorment per Martin et al. 20 (cercle gran) i els altres 702 parells de marcador (cercles petits).

Image

Sensibilitat i especificitat: població d’anàlisi de replicació blanca CNA30032.

Imatge a mida completa

La trama il·lustra que els marcadors individuals i les parelles de marcadors presenten una varietat de sensibilitats i especificitats; tanmateix, van mostrar una relació inversa. És a dir, els parells de retoladors i marcadors amb alta sensibilitat tendien a tenir una baixa especificitat i viceversa. La trama és una mica asimètrica perquè sembla que hi havia una proporció més alta de parells de marcadors que mostraven una alta especificitat (> 95%) i una sensibilitat baixa / moderada (20-60%). Entre els 703 parells de marcadors, 355 parells de marcadors van mostrar més sensibilitat i 45 parells de marcadors van mostrar una especificitat més alta que HLA-B * 5701 sols, però cap parella de marcadors tenia millor sensibilitat i especificitat que HLA-B * 5701.

S’ha informat que la combinació de marcadors HLA-B * 5701 – HSPA1L tenia una sensibilitat del 94, 4% i una especificitat del 99, 6% en un estudi de 18 casos i 230 controls de 248 pacients tractats amb ABC a l’Oest d’Austràlia. 20 A l’anàlisi del conjunt de dades de replicació blanca molt més gran CNA30032 (115 casos, amb 227 controls), la sensibilitat i l’especificitat d’aquest parell de marcador van ser del 47, 8% i el 99, 6%, respectivament (taula 1).

Taula completa

Les especificitats observades per a la combinació HLA-B * 5701 – HSPA1L eren les mateixes per als dos estudis, però la sensibilitat observada en l’estudi CNA30032 de GlaxoSmithKline (GSK) fou només aproximadament la meitat de la observada en l’estudi de Martin et al. , 20 que suggereixen la possibilitat de diferències importants entre les dues poblacions d'estudi. Destaquen les diferències en l'assignació de l'estat del cas entre els dos estudis. La constatació de casos a la cohort de Austràlia Occidental va ser feta per un únic metge en una població de pacients limitada geogràficament en un sol centre clínic. Les avaluacions clíniques originals es van complementar posteriorment amb estimulació ex vivo dels limfòcits i proves de pegat de pell ABC. Aquest procés es diferencia de l'assignació de l'estat del cas en els estudis GSK, que es van realitzar de manera retrospectiva i sense proves de pedaç de pell. A més, es van reclutar participants en els estudis GSK PGx a 142 centres clínics de 12 països diferents. Una altra explicació per a les diferències en les característiques de rendiment de HLA-B * 5701 entre les dues poblacions d'estudi pot ser la precisió en la identificació dels metges de ABC HSR i la inclusió de subjectes en les poblacions de cas de GSK. En diversos assajos clínics de doble cec que van incloure ABC, la incidència de HSR HSC clínicament sospitosa va ser del 2-3% en els braços de tractament que no van incloure ABC, cosa que suggereix que la sobreinformació de la ABC HSR es produeix en la prova de clínica per VIH amb experiència. clínics. Aquestes dades suggereixen que la col·lecció de casos de HSC ABC de GSK per a la seva investigació farmacogènica pot incloure “casos” que no presentaven HSC ABC. La inclusió de "no casos" comprometria la capacitat de GSK d'identificar marcadors farmacogenètics associats amb ABC HSR i afectaria negativament les característiques de rendiment dels marcadors farmacogenètics, inclòs, però sense limitar-se a HLA-B * 5701 que s'identifiquen.

Partició recursiva

Es van generar mil arbres aleatoris mitjançant dades de 349 subjectes blancs, incloent 118 casos i 231 controls (vegeu la secció Mètodes per a la descripció de la metodologia RP de les mostres de temes). Les característiques del rendiment dels cinc arbres RP més predictius es resumeixen a la taula 2.

Taula completa

Cap dels arbres va produir característiques de rendiment amb alta sensibilitat i alta especificitat. Tot i això, tots els arbres, excepte l’arbre III, van donar com a resultat unes prestacions lleugerament millors que HLA-B * 5701 soles, que tenien una sensibilitat del 56, 4% i una especificitat del 99, 1%.

Tal com es mostra a la figura 2, els quatre marcadors inclosos a l'arbre I van repartir subjectes en sis nodes terminals. Aquests quatre marcadors eren (1) marcador núm. 10019338, un polimorfisme que es correspon a diverses localitzacions, incloent-ne un a l’intró 1 del gen de factor α de necrosi tumoral, (2) HLA-B * 5701 (marcador núm. 2791186), (3) marcador del cromosoma 9 núm. 4072881 (dins del gen FLJ31810 per a una proteïna rica en leucines neuronals) i (4) marcador del cromosoma 6 núm. 3854120 (un marcador sense associació gènica establerta que es troba lluny de la regió cromosòmica HLA-B del cromosoma 6). La combinació de genotips que corresponien a cadascun d'aquests nodes terminals es va designar com a "positiva", cosa que suggereix que els subjectes inclosos en aquest node tenien un risc més elevat de patir HSR o "negativa", cosa que implica que els subjectes inclosos en aquest node tenien un risc disminuït. per HSR. D’aquesta manera, es podria crear una taula de contingència 2 × 2 amb subjectes classificats creuadament com a “casos” o “controls” i “positius” o “negatius” per avaluar el bé que aquestes combinacions podrien discriminar entre casos i controls. Per a Tree I, la sensibilitat composta resultant va ser del 57, 1% i l’especificitat del composite del 99, 1%.

Image

Arbre I. Anàlisi RP de HSR al conjunt de dades de replicació blanca CNA30032. Vegeu la secció Mètodes estadístics per a una descripció general dels arbres de P. El node més alt s'anomena "node arrel" i representa totes les observacions del conjunt de dades. Per a tots els nodes, n = nombre d’observacions al node, u = el valor mitjà de la variable dependent (en aquesta anàlisi, la proporció de casos en el node), i N ### és l’identificador del node. Per a nodes que no són arrels, es visualitza l’identificador de marcador i el genotip (s) que caracteritzen el node. Per a cada node que s'ha particionat, es mostra el valor P (p) per a la partició indicada.

Imatge a mida completa

Assumint una taxa de HSR del 5% en pacients blancs, es va estimar les freqüències de les combinacions de genotips del marcador representades pels nodes d’aquest arbre. També es va estimar el risc de HSR per a individus que serien membres de cada node terminal (tal com es descriu a la secció Mètodes). Aquestes estimacions es mostren a la taula 3, ordenades per si el node era terminal i després per augment del risc de HSR.

Taula completa

Si aquests resultats es validessin mitjançant la replicació en una mostra independent i s’aplicessin a una població de pacients tractats amb ABC blanc, es calcula que el 17, 4% dels pacients estarien assignats a un grup amb un 0, 2% de risc de HSR. Un 75, 0% addicional (63, 6 + 11, 4%) seria assignat a un grup amb un 2, 7% de risc de HSR. El 3, 6% restant dels pacients tindria un risc de HSR del 21, 3% o superior, inclòs el 2, 5% de tots els pacients el risc estimat dels quals seria del 100%. A diferència de les proves diagnòstiques tradicionals que classifiquen típicament els pacients en un dels dos grups, aquests resultats de RP van identificar diversos grups caracteritzats genèticament amb un risc HSR associat entre molt baix i molt alt.

Discussió

A l’hora d’utilitzar combinacions de marcadors per identificar un assaig diagnòstic potencialment útil, hem aplicat enfocaments de marcadors de parella i aproximacions de RP. Aquests dos mètodes són complementaris entre si. En essència, es pot considerar el mètode de combinació de marques parells com un primer enfocament ampli. Intenta trobar un assaig basat en combinacions de genotips de marcador de dos locus que puguin aplicar-se a tota la població. En canvi, la RP es pot considerar com un primer enfocament en profunditat. Funciona dividint les dades en grups i, per tant, pot ser la base per a assajos predictius específics del grup.

L’estratègia d’anàlisi que vam prendre va ser realitzar anàlisis de combinació de marcadors utilitzant només els marcadors replicats. Es va analitzar un conjunt de dades per descobrir marcadors associats al presumpte HSR i es va utilitzar un segon conjunt de dades independent per verificar l’associació inicial. Enfocaments similars s'han adoptat en altres estudis d'associació genètica a gran escala. 21, 22, 23 Creiem que la replicació de les conclusions inicials en un segon conjunt de dades independent és crucial per a la validació de les conclusions de l’associació. 24, 25, 26, 27 Això és especialment important per a les anàlisis de combinació de marcadors, ja que el nombre de troballes falses positives augmentaria exponencialment amb el nombre de marcadors considerats. S’han proposat mètodes dissenyats per cercar interaccions genètiques pures. 28, 29, 30 Tot i això, hem decidit buscar combinacions entre marcadors que tinguin associació demostrable amb HSR en lloc de considerar tots els marcadors disponibles. Com que només hem utilitzat marcadors replicats en les nostres anàlisis, és possible que haguéssim pogut faltar marcadors que no mostrin un efecte fort per si mateixos, però, tot i així, associats al tret mitjançant la interacció amb un o més altres marcadors. La RP és una eina útil per descobrir i explorar les interaccions entre els marcadors genètics. A més, treballs recents de Bastone et al. 31 ha demostrat que la RP és un mètode més general per a la detecció d'associació genotip-fenotip d'alt ordre. El seu treball ha demostrat que el MDR (reducció de la dimensionalitat multifactorial), un mètode especialitzat en detectar interaccions gen-gen, és de fet un cas especial de RP.

Per al mètode de combinació de marcadors a parells, es poden calcular límits a les característiques d’un assaig compost donades les característiques de prova de dos marcadors individuals. Quan un marcador amb alta sensibilitat i relativament baixa especificitat es combina amb un altre marcador d’alta especificitat i relativament baixa, l’assaig compost basat en aquests dos marcadors no seria capaç d’aconseguir alta sensibilitat i alta especificitat. En el cas que s'utilitza la combinació lògica 'AND', la sensibilitat del assaig compost està delimitada per la sensibilitat inferior dels dos marcadors. Així mateix, quan dos marcadors es combinen amb l'operador lògic 'OR' o 'exclusiu O', el límit superior de l'especificitat del assaig compost seria l'especificitat inferior dels dos marcadors.

RP es va desenvolupar expressament per explorar les interaccions entre un conjunt de variables predictores. Per això, és molt útil per a explorar l'epistasi (gen-gen) entre un gran conjunt de marcadors genètics. La interacció entre genotips de dos marcadors significa que quan tots dos estan presents en un mateix individu, es veu un efecte únic, com per exemple, una major susceptibilitat a un esdeveniment advers per exemple. El resultat final de combinar genotips de marcadors d'aquesta manera serà un assaig compost la sensibilitat del qual no serà superior a la més baixa entre els marcadors que contribueixen a la combinació. L'especificitat composta d'aquestes combinacions no serà inferior al màxim entre les especificitats individuals. Així, quan un arbre RP es transformi en un sistema de classificació de dues categories, tal com hem fet, tendirà a presentar una sensibilitat composta similar a la del marcador que aporta menys sensibilitat i una especificitat composta similar a la del més marcador específic de contribució. Malauradament, no és possible acabar amb una sensibilitat i especificitat composta que superin la sensibilitat i l’especificitat de qualsevol marcador indicat en la combinació.

Tot i que la RP pot no donar lloc a un sistema millorat de classificació de dues categories per a l'aplicació farmacogenètica, però presenta una altra opció potencialment útil. Com es mostra a la taula 3, la RP pot identificar subconjunts d’una població de pacients per als quals el risc estimat pot ser extremadament baix (en el cas de predicció d’esdeveniments adversos, un efecte protector) o molt elevat. Tot i que aquest enfocament pot no ser capaç de classificar tots els pacients en categories extremes, pot ser que pugui fer-ho per a una part important de la població de pacients. Es reconeix que, si s’implementa clínicament, la interpretació dels resultats d’aquest enfocament podria ser difícil. No obstant això, s'ha de discutir la utilitat clínica d'aquest tipus d'avaluació perquè, per a alguns esdeveniments adversos, és possible que no es pugui descotomitzar completament tota una població en grups de risc i baix risc.

Com en qualsevol descobriment genètic, la necessitat de replicació de qualsevol resultat de combinació de marcadors no es pot subratllar. Això és especialment cert en el context d’intentar desenvolupar un assaig predictiu d’una reacció adversa als fàrmacs.

En el nostre estudi sobre ABC HSR, no hi va haver cap combinació de genotips marcadors que presentessin una sensibilitat i una especificitat superiors a les de HLA-B * 5701 solament. Tot i això, els dos enfocaments que hem aplicat a aquestes dades representen estratègies pràctiques que es poden utilitzar per descobrir combinacions de marcadors útils en estudis farmacogenètics. Hi ha una necessitat continuada d’investigar i avaluar aquests i altres mètodes dissenyats per descobrir combinacions de marcadors genètics predictius.

Materials i mètodes

Mostres

Dos estudis retrospectius de control de casos, CNA30027 i CNA30032, es van realitzar per investigar polimorfismes genètics en subjectes infectats pel VIH-1 que van desenvolupar presumptament HSR després del tractament amb ABC. Tant en CNA30027 com en CNA30032, el diagnòstic d’hipersensibilitat a l’ABC va ser realitzat per l’investigador o clínic tractant i després revisat per un metge del projecte GSK per aconseguir coherència amb la definició acordada d’un presumpte cas d’hipersensibilitat. Es van inscriure com a controls els subjectes infectats pel VIH que van tolerar ABC almenys 6 setmanes sense proves de HSR.

Als participants en estudis clínics se'ls demana que designin el seu origen ètnic com a 'negre', 'blanc', 'asiàtic' o 'altre'. Aproximadament el 73% dels subjectes de CNA30027 i CNA30032 es van classificar com a “blancs”. Estudiar una mostra ètnicament heterogènia pot conduir a l’aparició d’associacions genètiques fals-positives. Per evitar aquesta possibilitat, hem analitzat subjectes de diferents orígens ètnics per separat. Aquest treball resumeix les anàlisis realitzades mitjançant dades dels subjectes blancs, que constituïen el grup ètnic més gran.

Les dades de temes dels dos estudis van contribuir a fer "descobriment" conjunts de mostres sobre les quals es van realitzar les exploracions del genoma. A partir del CNA30027 130 subjectes blancs van contribuir a conjunts de descobriments. D’aquests subjectes, 121 (93%) eren homes i la seva edat mitjana era de 42 anys. Van contribuir a descobrir conjunts de CNA30032 368 subjectes blancs, 307 (el 83%) dels quals eren homes i l’edat mitjana dels 42 anys. Es va utilitzar un conjunt de "replicació" de 349 subjectes blancs CNA30032 (el 76% masculí, l'edat mitjana de 42 anys) per avaluar les associacions trobades mitjançant els conjunts de descobriment. Els casos del conjunt de replicació van satisfer la definició de cas "restrictiva" perquè van ser designats com a casos definits o probables durant una segona revisió dels seus registres mèdics per metges de GSK i cap no s'havia tractat mai amb un inhibidor de transcriptasa inversa no nucleòsida, un fàrmac. classe coneguda per provocar reaccions a la pell similars a les que caracteritzen la HSC ABC. Cap dels 349 subjectes del conjunt de dades de replicació no va ser inclòs en cap conjunt de descobriments.

Marcadors genètics

Es van realitzar exploracions a tot el genoma incloent genotips d'alta densitat d'aproximadament 105.000 polimorfismes de nucleòtids únics (SNPs) en subjectes de CNA30027 ( n = 60, 42 casos, 18 controls) i CNA30032 ( n = 210, 99 casos, 104 controls) i aproximadament. 1, 7 milions de SNP en mostres agrupades de CNA30032 ( n = 369, 200 casos, 169 controls). A partir d’aquestes anàlisis, es van seleccionar 1659 marcadors per a l’anàlisi i l’anàlisi en una mostra única, més gran, a partir de CNA30027 ( n = 177, 71 casos, 106 controls) i CNA30032 ( n = 499, 263 casos, 236 controls). Entre els 1659 marcadors, 814 marcadors es van associar estadísticament amb HSR en subjectes blancs ( P <0.05 en anàlisi d'associació al·lotípica o genòtica). Els 814 marcadors es van avaluar a continuació en un conjunt independent de mostres (el conjunt de replicació) reservat a subjectes blancs en CNA30032 ( n = 349, 118 casos, 231 controls) i, quan es van avaluar per a l'associació amb HSR, els resultats per a 32 d'ells van ser estadísticament significant.

Els 32 marcadors resultants de la replicació de descobriments d’exploració del genoma, a més de sis marcadors trobats durant els estudis gènics candidats, van ser escollits com a contribuents potencials als efectes poligènics o epistàtics que condueixen a la susceptibilitat a l’ABC HSR. Quan es va triar el conjunt de marcador per a l'anàlisi de combinació, es va prendre la decisió d'utilitzar només els marcadors que mostren associació tant en els conjunts de temes de descobriment com en la replicació.

Mètodes estadístics

Anàlisi de la combinació de marcador paral·lel

Quan es van analitzar marcadors individualment, es va determinar el genotip (o parell de genotips) que va donar lloc a la estadística d’associació més gran i que era més freqüent en casos que en els controls i es va denominar el genotip de “risc més elevat”. Als altres genotips (o genotip) se'ls coneixia com a genotip de "menor risc". La idea darrere de l'enfocament de la combinació de marques parells és avaluar sistemàticament les combinacions dels grups de risc a partir de dos marcadors. L'objectiu és identificar combinacions de marcadors que puguin tenir millor sensibilitat i especificitat que els marcadors individuals. Per a dos marcadors, hi ha quatre combinacions possibles d'aquests grups de risc, tal com es mostra a la taula 4.

Taula completa

De les formes en què es poden configurar genotips de risc més alt i menor en grups positius i negatius, es van considerar les combinacions lògiques 'I', 'O' i 'O exclusiu'.

  • 'I' Positiu = Genotip de risc més alt per al marcador 1 i marcador 2 Negatiu = Genotip de menor risc per al marcador 1 o marcador 2

  • 'O' Positiu = Genotip de risc més alt per al marcador 1 o marcador 2 (o ambdós) Negatiu = Genotip de menor risc per al marcador 1 i marcador 2

  • "O exclusiu" Positiu = Genotip de risc més alt per al marcador 1 o marcador 2 (però no tots dos) Negatiu = Genotip de risc més baix per al marcador 1 i marcador 2 o genotip de risc més alt per al marcador 1 i marcador 2

Així, per a cada parell de marcador, es van avaluar tres taules de contingència i es va identificar i resumir la configuració amb el valor P més baix per a l’associació amb HSR. En termes genètics, "I" correspondria a la interacció genètica, mentre que "OR" i "OR exclusiu" correspondrien a l'heterogeneïtat genètica.

Partició recursiva

RP és una eina d’explotació de dades per a la identificació automàtica d’interaccions i grups homogenis mitjançant l’aplicació repetida (recursiva) d’una prova estadística a les dades. El test contrasta el valor d'una variable dependent ( Y ) entre dues o més classes d'una de les variables de predicció ( X i ). Tal com s’aplica aquí, la variable dependent, Y , era la classificació binària de cada subjecte com a cas o control, les variables predictores eren els 38 marcadors replicats i les classes de cada marcador eren els genotips de risc més alt i menor. La prova estadística aplicada es va basar en les estadístiques de Pearson χ 2 . Si el resultat de la prova indica que la distribució de la variable dependent varia entre les classes de, per exemple, X 1, el conjunt de dades es reparteix en dos subconjunts. El procediment es repeteix dins de cadascun dels subconjunts definits per les classes de X 1. Si, dins d’un d’aquests subconjunts, es podria utilitzar una altra variable de predicció, per exemple, X 2, per dividir les dades, la prova d’associació entre Y i X 2 estaria condicionada als valors de X 1 . Si X 1 i X 2 influeixen conjuntament en la distribució de Y , l'associació de X 2 i Y podria ser altament significativa. Quan és possible dividir més les dades, el procediment es repeteix utilitzant una tercera variable de predicció, etc., fins que s'esgoti la mida de la mostra o no hi hagi cap dependència entre la distribució de Y i qualsevol predictor. El programari HelixTree 32 (Golden Helix Inc., Bozeman, MT, EUA) es va utilitzar per realitzar anàlisis de RP. A la figura 3 es mostra la sortida d'exemple d'una anàlisi RP.

Image

Un exemple d’arbre RP. Cada quadre s’anomena “node” i representa un subconjunt d’observacions a tot el conjunt de dades. Per a cada node, es mostren diverses estadístiques descriptives que inclouen, el nombre d’observacions ( n ) i el valor mitjà de la variable dependent (u). Quan els casos es codifiquen com a "1" i es controla com a "0", la mitjana del node és igual a la proporció de casos del node. El node superior s'anomena "node arrel" i representa totes les observacions del conjunt de dades. Per a cada node que s'ha particionat, es mostra el valor P (p) per a la partició indicada. Cada node particionat ("pare") està connectat als seus "nus filla" mitjançant línies semblants al pedigrí. A la part superior de cada node filla, es mostra la variable (en aquest exemple, números d'identificació del marcador genètic) utilitzats per particionar les dades i el valor de la variable que defineix el node. A menys que faltin dades per a la variable de particions, la suma de les observacions dels nodes fils és igual a les observacions del node pare. El conjunt de nodes que no són particionats s'anomenen "nodes terminals". Cada node terminal es pot caracteritzar per una combinació única de genotips de marcadors. El node N22 consta dels 56 subjectes amb el genotip C_T o C_C per al marcador 3911370 i que porten un o dos al·lels 5701+ per al marcador 2791186. Aquests subjectes van tenir una resposta mitjana de 0, 98, molt superior a la mitjana total de 0, 34.

Imatge a mida completa

El programari és capaç de realitzar anàlisis mitjançant un algoritme automàtic en què la variable de predicció més significativa s'utilitza per a particionar cada node, a més de crear arbres "guiats per l'usuari" en els quals l'usuari pot especificar la variable de divisió, X i . a tots els nivells de particions de dades. No obstant això, la seva capacitat per generar múltiples arbres aleatoris va ser la característica principal utilitzada en aquesta anàlisi. En aquest mode, la partició d'un determinat node es realitza mitjançant un predicdor que es selecciona aleatòriament entre els que resulten en una estadística de prova significativa. L'avaluació de molts arbres "aleatoris" generats d'aquesta forma condueix a la comprensió de quines variables de predicció interaccionen o es correlacionen entre elles. El modelatge de RP es va realitzar en les següents condicions: (1) les dades es van repartir només si el valor P associat era de 0, 10 o menys, (2) es van generar 1000 taules aleatòries i (3) es va seleccionar de forma aleatòria entre tots els predictors. 10 predictors més significatius.

Una mesura del bé que un conjunt de particions predictores un conjunt de dades comença amb el càlcul de la variància de mostreig per a cadascun dels nodes terminals. L’arrel quadrada de la mitjana ponderada de les variacions de mostreig del node terminal es coneix com a error de quadrat (RMS) de l’arrel de l’arbre. Els més predictius entre un conjunt d’arbres generats aleatòriament són aquells amb menor error de RMS. Després d’identificar arbres d’interès (aquells amb baix error d’RMS), es va avaluar cadascun d’ells com a base d’un assaig predictiu. La combinació de genotips que caracteritzava un node terminal es considerava "positiva" (que indica un risc augmentat de HSR) si la proporció de casos era superior a la proporció de casos en el node arrel i "negativa" si fos el contrari. Es va crear una taula 2 × 2 que reflecteix el nombre de casos i controls que es classificarien en positius i negatius i es van calcular les característiques de prova i els valors predictius corresponents. La taula 5 mostra com es resumiria l'arbre representat a la figura 3.

Taula completa

Tot i que no es van fer mostres a l’atzar de casos i controls, es pot calcular la probabilitat que un individu corri el risc de HSR, atès el seu genotip multilocus, utilitzant els resultats de l’arbre RP, tal com mostren Zaykin i Young. 33 Els individus que comprenen un determinat node en un arbre RP representen els que porten una combinació específica de genotips marcadors. La combinació es defineix traçant el node de còpia de seguretat a través de l'arbre fins al node arrel. Si els nodes al llarg d'una branca es numeraran des del zero inicial amb el node arrel, el risc HSR per a individus al node i es dóna per

Image
on ω és la prevalença HSR entre tots els pacients tractats, n i el nombre d'individus que compren el node i , u i la proporció d'individus en node i que són casos, m i el nombre d'individus que compren el node germana, i v i és la proporció d'individus del node germana que en són casos.

Per exemple, per a l’arbre que es mostra a la figura 2, el risc d’HSR del node N22 es calcula indexant el node N2 com a node 1 ( i = 1), el node N22 com a node 2 ( i = 2) i assumint la prevalença HSR en el la població general ( ω ) és de 0, 05.

Image
La freqüència de les combinacions del genotip del marcador, tal com es defineix per un node RP específic, es pot estimar en una mostra de casos i controls no aleatoris. Deixem N i u , respectivament, la mida de la mostra i la proporció de casos en el node arrel i, com anteriorment, deixem n i i u i denotem la mida de la mostra i la proporció de casos en qualsevol altre node de l'arbre. La freqüència de població d'un node pot ser estimada com
Image
on ω es defineix com anterior.

Informació complementària

Documents de paraula

  1. 1.

    Informació complementària

    Dualitat d’interès

    Cap declarat.

    La informació complementària acompanya el document al lloc web de la revista The Pharmacogenomics (//www.nature.com/tpj)