Gene Ontology

Projecte que descriu les funcions gèniques amb un llenguatge controlat i jerarquitzat

La Gene Ontology (que es podria traduir al català com Ontologia Gènica, GO) és un projecte que es va desenvolupar l'any 1998 amb l'objectiu d'organitzar les anotacions funcionals en el genoma de diferents espècies. Abans que es desenvolupés aquesta iniciativa, les diferents funcions dels gens estaven anotades en el genoma de diverses formes, sense una organització que relacionés els diferents termes en un de sol. El projecte Gene Ontology ha desenvolupat un vocabulari controlat per tal d'anomenar les funcions dels productes gènics on cada funció està determinada per un número i aquestes s'organitzen de forma jeràrquica.

Infotaula de lloc webGene Ontology
URLhttp://geneontology.org/ Modifica el valor a Wikidata
Nom curtGO Modifica el valor a Wikidata
Tipusontologia Modifica el valor a Wikidata
Temagen, producte gènic, procés biològic, component cel·lular i funció molecular Modifica el valor a Wikidata
LlicènciaCC BY 4.0 Modifica el valor a Wikidata
Part deOpen Biomedical Ontologies Modifica el valor a Wikidata
Desenvolupador webGene Ontology Consortium (en) Tradueix Modifica el valor a Wikidata
MantenidorSuzi Aleksander (en) Tradueix Modifica el valor a Wikidata

X: news4go Mastodon: go@genomic.social Modifica el valor a Wikidata
Logo Gene Ontology. Cedit pel Gene Ontology Consortium.[1]

La Gene Ontology té tres línies principals: una línia que especifica la funció molecular del gen, una altra que descriu el procés biològic del qual forma part i el component cel·lular on actua.

Història

modifica

La Gene Ontology va ser creada al 1998 com una col·laboració entre tres bases de dades d’organismes model: FlyBase (base de dades de Drosophila), la Saccharomyces Genome Database (base de dades de Saccharomyces cerevisiae) i la Mouse Genome Informatics (base de dades del ratolí de laboratori). Moltes altres bases de dades d'organismes model s'han anat unint al Consorci de la Gene Ontology per tal d'aportar no només dades d’anotacions, sinó també contribuint al desenvolupament de les ontologies i de les eines per visualitzar i aplicar les dades.[2]

Va sorgir de la necessitat d’organitzar i anotar rigorosament les propietats biològiques dels productes gènics. La quantitat d'informació biològica no deixa de créixer, motiu pel qual va esdevenir important descriure i classificar objectes biològics, per tal que els biòlegs poguessin utilitzar la informació emmagatzemada en diferents bases de dades. És per això que el consorci Gene Ontology es va formar per desenvolupar vocabularis compartits i estructurats per a l’anotació de característiques moleculars entre organismes.[2]

Tot i això, també es va fer evident que el conjunt combinat d’anotacions dels grups d’organismes model podria proporcionar un recurs útil per a tota la comunitat científica. Per tant, a més de desenvolupar vocabularis estructurats, el projecte GO va desenvolupar un recurs de base de dades que proporciona accés no només als vocabularis, sinó també a aplicacions d’anotació i consulta i a conjunts de dades especialitzades resultants de l’ús dels vocabularis a l’anotació de gens i/o productes gènics.[2]

El juliol de 2019, la GO contenia 44.945 termes i 6.408.283 anotacions de 4.467 diferents organismes vius. Avui dia, la GO és una eina estàndard reconeguda a l’àrea de la bioinformàtica.

Ontologia

modifica

Aspectes generals

modifica

Una ontologia és una representació formal d’un conjunt de coneixements dins d’un domini determinat. Les ontologies solen consistir en un conjunt de classes (o termes o conceptes) amb relacions que operen entre elles. La Gene Ontology (GO) descriu el nostre coneixement del domini biològic respecte a tres aspectes:[3]

  • Funció molecular: Activitats de nivell molecular realitzades per productes gènics. No especifiquen on, quan o en quin context té lloc l'acció. Les funcions moleculars corresponen generalment a activitats que poden realitzar productes gènics individuals (és a dir, una proteïna o ARN), però algunes activitats les realitzen complexos moleculars compostos per múltiples productes gènics. Exemples de termes funcionals amplis són activitat catalítica i activitat transportadora; exemples de termes funcionals més concrets són l’activitat de l'adenilat ciclasa o lligant de receptor de tipus Toll. Per evitar confusions entre els noms de productes gènics i les seves funcions moleculars, les funcions moleculars de GO sovint s'afegeixen amb la paraula "activitat" (una proteïna-cinasa tindria l'activitat de proteïna-cinasa de funció molecular GO).[3]
  • Component cel·lular: Les ubicacions relatives a les estructures cel·lulars en què un producte gènic realitza una funció, ja sigui compartiments cel·lulars (per exemple, mitocondri) o complexos macromoleculars estables dels quals formen part (per exemple, el ribosoma). A diferència dels altres aspectes de GO, les classes de components cel·lulars no es refereixen a processos sinó a una anatomia cel·lular.[3]
  • Procés biològic: Els processos més globals, realitzats per múltiples activitats moleculars. Exemples de processos biològics són la reparació d’ADN o la transducció de senyals. Exemples de termes més específics són el procés biosintètic de pirimidina o el transport transmembrana de glucosa. S'ha de tenir en compte que un procés biològic no equival a una via.[3]

El vocabulari GO està dissenyat per ser vàlid en totes les espècies i inclou termes aplicables a procariotes i eucariotes, així com a organismes simples i pluricel·lulars.

En un exemple d'anotació GO, el producte gènic "citocrom c" es pot descriure per la funció molecular de l'activitat oxidoreductasa, el procés biològic de fosforilació oxidativa i la matriu mitocondrial del component cel·lular.

Termes GO

modifica

Les classes GO, també anomenades termes GO, estan compostes per diferents elements essencials i també poden tenir elements opcionals.

Elements essencials

modifica
  • Identificador únic: identificador únic de set dígits prefixat per GO.
  • Nom: nom del terme comprensible per l'usuari.
  • Aspecte: indica a quina de les tres subontologies (component cel·lular, procés biològic o funció molecular) pertany el terme.
  • Definició: una descripció textual del que representa el terme, més referències a la font de la informació.
  • Relació amb altres termes: com es relaciona el terme amb altres termes de l’ontologia. Tots els termes tenen una relació de subclasse amb un altre terme; per exemple, el transport transmembrana de glucosa (GO: 1904659) és un transport de monosacàrids (GO: 0015749).[4]

Elements opcionals

modifica
  • Identificadors secundaris: els identificadors secundaris es produeixen quan dos o més termes tenen un significat idèntic i es combinen en un terme únic. Es conserven tots els identificadors de termes de manera que no es perdi cap informació.
  • Sinònims: paraules o frases alternatives relacionades amb el nom del terme, amb una indicació de la relació entre el nom i el sinònim donada per l’abast del sinònim: exactes, amplis, estrets o relacionats.
  • Referències a altres bases de dades: enllaç a objectes idèntics o molt similars en altres bases de dades.
  • Comentari: qualsevol informació addicional sobre el terme i el seu ús.
  • Subconjunt: Indica que el terme pertany a un subconjunt de termes designat.
  • Etiqueta obsoleta: Indica que el terme ha quedat obsolet i no s’ha d’utilitzar. Un terme GO queda obsolet quan està fora d’abast, es denomina o defineix de manera enganyosa o descriu un concepte que estaria millor representat d’una altra manera i que s’ha d’eliminar de l’ontologia publicada. En aquests casos, el terme i la ID encara persisteixen a l’ontologia, però el terme s’etiqueta com a obsolet i s’eliminen totes les relacions amb altres termes. S'afegeix un comentari al terme que detalla el motiu de l'absolució i se suggereixen termes de substitució, si és possible.[4]
Exemple de terme (traduït al català) Text original
id: GO:0000016 id: GO:0000016
nom: activitat lactasa name: lactase activity
ontologia: funció_molecular ontology: molecular_function
def: "Catàlisis de la reacció: lactosa+H2O = D-glucosa + D-galactosa" [EC:3.2.1.108] def: "Catalysis of the reaction: lactose + H2O=D-glucose + D-galactose" [EC:3.2.1.108]
sinònim: "Activitat lactasa-florizina hidrolasa" AMPLI [EC:3.2.1.108] synonim: "Lactase-phlorizin hydrolase activity" BROAD [EC:3.2.1.108]
sinònim: "Activitat lactosa galactohidrolasa" EXACTE [EC:3.2.1.108] synonim: "Lactose galactohydrolase activity" EXACT [EC:3.2.1.108]
xref: EC:3.2.1.108 xref: EC:3.2.1.108
xref: MetaCyc:LACTASE-RXN xref: MetaCyc:LACTASE-RXN
xref: Reactome:20536 xref: Reactome:20536
is_a: GO:0004553 ! activitat hidrolasa, hidrolitzant compostos O-glicosils is_a: GO:0004553 ! hydrolase activity, hydrolyzing O-glycosyl compounds
 
Diagrama de flux termes GO. Exemple de relacions jeràrquiques entre els diferents termes GO referents a la síntesi d'hexoses.[3]

Gràfic GO

modifica

L'estructura de GO es pot descriure en un gràfic, on cada terme GO és un node, i les relacions entre els termes són arestes entre els nodes.[3]

Elements del gràfic GO

modifica
  • Node: es refereix a un terme GO.
  • Terme parental: fa referència al node més proper a les arrels del gràfic.
  • Terme fill: fa referència a termes més propers als nodes finals del gràfic.
  • La punta de la fletxa indica la direcció de la relació.
  • Les línies de punts representen una relació inferida, és a dir, que no s’ha expressat expressament a l’ontologia.

GO és poc jerarquitzat: els termes fills són més especialitzats que els termes parental, però a diferència d'una jerarquia estricta, un terme pot tenir més d'un terme pare. Per exemple, el terme del procés biològic de la biosíntesi d'hexoses té dos termes pare: procés metabòlic de l’hexosa i procés biosintètic d'un monosacàrid. Això reflecteix el fet que el procés biosintètic és un subtipus del procés metabòlic i que l’hexosa és un subtipus de monosacàrid.[3]

Com suggereix el diagrama anterior, els tres dominis GO (component cel·lular, procés biològic i funció molecular) estan representats cadascun per un terme d’ontologia d’arrel separat. Els tres nodes arrel no estan relacionats i no tenen un node pare comú i, per tant, GO es pot interpretar com un conjunt de tres ontologies. Alguns programes basats en gràfics poden requerir un únic node arrel; en aquests casos, es pot afegir un terme "fals" com a pare dels tres nodes arrel existents.[5]

Relacions entre termes

modifica

Els nodes en el gràfic GO poden tenir qualsevol nombre i tipus de relació amb altres nodes. Les principals relacions que es representen al gràfic són:

Relació Descripció Utilitat
is a Relació bàsica del gràfic GO. Si diem que A és B, volem dir que el node A és un subtipus del node B. Per exemple, el cicle cel·lular mitòtic és un cicle cel·lular o l’activitat de la liasa és una activitat catalítica. És segur utilitzar-lo per agrupar anotacions. Per exemple, si un producte gènic X s’anota com que té activitat tirosina-cinasa i l’ontologia registra que l’activitat tirosina-cinasa és una activitat (tipus) de quinasa, podem concloure amb seguretat que el producte gènic X té activitat quinasa.[5]
part of S'utilitza per representar relacions parcials. Indica que B és necessàriament part d'A (la presència de B implica la presència de A). Tanmateix, donada l’aparició de A, no podem dir amb certesa que B existeixi. És segur utilitzar-lo per agrupar anotacions. Per exemple, si un producte genètic X s’anota com "localitzat a la membrana mitocondrial interna" i l’ontologia registra una relació entre la membrana mitocondrial interna i el mitocondri, podem concloure amb seguretat que X es troba en un mitocondri.[5]
has part Complement de la relació "part of". Representa la relació part-whole des de la perspectiva del terme parental. A sempre té B com a part. No és correcte utilitzar-lo per agrupar anotacions. Per exemple, podríem afirmar en l'ontologia que una activitat del receptor tirosina-cinasa té una part activitat cinasa. Tanmateix, no seria correcte agrupar totes les anotacions a l'activitat de la cinasa sota l'activitat del receptor tirosina-quinasa.[5]
regulates Descriu que un procés afecta directament la manifestació d’un altre procés (per exemple, la regulació d'una via) o qualitat (per exemple, la mida de les cèl·lules), és a dir, el primer regula el segon. Indica que, si hi ha tant A com B, B sempre regula A, però A no sempre està regulat per B. És a dir, tots els B regulen A; algunes A estan regulades per B. Si el producte gènic X s’anota com a implicat en un procés que regula la glicòlisi, no seria correcte concloure que X participa en la glicòlisi. No obstant això, algunes eines utilitzen aquesta relació per agrupar anotacions. Els conjunts de gens resultants inclouen gens que participen en processos relacionats causalment amb el terme d’agrupament.[5]

GO com una ontologia dinàmica

modifica

GO pretén representar l'estat actual del coneixement en biologia, per tant, es revisa i amplia constantment a mesura que s’acumula coneixement biològic. Els canvis es fan setmanalment (tot i que la majoria de canvis són relativament menors). Les revisions a l’ontologia són gestionades per un equip d’editors amb una àmplia experiència tant en representació de coneixement biològic com computacional. Aquestes actualitzacions es fan de forma col·laborativa entre l'equip d'ontologia del Gene Ontology Consortium i científics que sol·liciten les actualitzacions.[3]

Anotacions

modifica

Una anotació GO és una definició sobre la funció d'un gen concret. Les anotacions GO es creen associant un gen o producte gènic a un terme GO. Per tant, les anotacions GO defineixen com funciona un gen a nivell molecular, on funciona a la cèl·lula i en quins processos biològics (vies, programes) està involucrat.

Una anotació GO inclou, com a mínim:[6]

  • Producte gènic (pot ser una proteïna, un ARN, etc.)
  • Terme GO
  • Referència
  • Evidència científica

Principis generals de les anotacions GO

modifica
  • Les anotacions representen les funcions normals dels productes genètics.
  • Un producte gènic es pot anotar a cap o a diversos termes de cada ontologia.
  • Cada anotació està secundada per uns Codis d'Evidència i una referència.
  • Els productes genètics s'anoten en el terme de l'ontologia que està recolzat per l'evidència disponible.
  • Pel principi de transitivitat, una anotació a un terme GO implica una anotació a tots els seus pares.
  • Les anotacions GO estan destinades a reflectir la visió més actualitzada del paper d'un producte genètic en biologia.
  • A causa que el coneixement biològic canvia, les anotacions per a un producte genètic donat poden canviar per reflectir canvis en el coneixement i/o canvis en l'ontologia.
  • En cas que la funció d'un producte gènic es desconegui, no es trobarà anotat.

Qualificadors d’anotacions

modifica

Algunes de les anotacions són modificades i se'ls assigna qualificadors, que tenen un significat específic. Aquests qualificadors són:

Qualificador NOT

modifica

NOT s’utilitza per informar que s’ha demostrat experimentalment que o bé un producte genètic no pot dur a terme una activitat concreta o bé s’ha demostrat que presenta pèrdues de funció al llarg de l'evolució. Això és particularment important en els casos en què s'ha d'evitar l'associació d'un terme GO amb un producte gènic. Per tant, qualificar una anotació amb el qualificador NOT permet als anotadors afirmar que un determinat producte genètic no està associat amb un terme GO concret. S'utilitza quan es podria esperar que un terme GO s'apliqui a un producte gènic, però un experiment, anàlisi de seqüències, etc. demostra el contrari. Per exemple, si una proteïna té similitud de seqüència amb un enzim (l’activitat de la qual és GO: nnnnnnn), però s’ha demostrat experimentalment que no té l’activitat enzimàtica, s’anota com NOT GO: nnnnnnn.[6]

Qualificador contributes_to

modifica

Contributes_to apareix en una anotació GO quan s'ha anotat una funció a un complex proteic, però alguna de les subunitats del complex no realitza directament aquesta funció. Aquest qualificador pot ser útil per a anotar funcions moleculars en els casos en què un complex té una activitat, però no totes les subunitats que el conformen la fan. Per exemple, en un complex pot haver-hi una subunitat catalítica coneguda i una o més subunitats addicionals. Quan s'anota la funció molecular de les subunitats individuals que treballen com a complexos en els quals cap de les subunitats individuals té l'activitat s'ha d'incloure aquest qualificador a l'anotació.[6]

Qualificador colocalizes_with

modifica

Colocalizes_with apareix en una anotació quan es vol indicar una associació transitòria de la proteïna amb un orgànul o complex. També es pot utilitzar en aquells casos en què no està suficientment clar si el producte gènic és un component de l'orgànul o complex. Per exemple, la despolimerasa de microtúbuls KIF2A es localitza dinàmicament als pols del fus mitòtic, regulant la degradació dels microtúbuls durant la progressió mitòtica. Per tant, KIF2A està anotat a GO: 0000922: spindle pole usant el qualificador colocalizes_with.[6]

Totes les anotacions GO es basen en la literatura científica, directament o indirectament. A GO, l'evidència de suport es presenta en forma de Codis d’Evidència de GO i una referència publicada o una descripció de la metodologia utilitzada per crear l’anotació. Els Codis d’Evidència de GO descriuen el tipus d’evidència i indiquen fins a quin punt coincideix l’afirmació anotada amb l'evidència experimental directa, i si aquesta evidència va ser revisada per un expert.[7]

Els Codis d'Evidència es divideixen en 6 categories:

  • Proves experimentals: indica que hi ha proves d’un experiment que recolza directament l’anotació del gen.
  • Evidència filogenètica: cal tenir en compte que els principis filogenètics proporcionen una manera poderosa d’obtenir informació sobre la funció dels gens, ja que reconstrueixen esdeveniments evolutius que permeten inferir relacions entre gens. Les anotacions basades en la filogenètica es deriven d’un model explícit de guany i pèrdua de la funció gènica en branques específiques d’un arbre filogenètic. Per cada anotació inferida es pot rastrejar les anotacions experimentals directes que s'han utilitzat com a base per a aquesta afirmació.
  • Proves computacionals: indica que l’anotació es basa en una anàlisi in silico de la seqüència gènica i / o altres dades.
  • Afirmacions d'autor: indica que l’anotació s’ha fet a partir d’una declaració feta per l’autor o autors de la referència que se cita.
  • Declaracions curatorials: indica una anotació feta sobre la base d’un judici curatorial que no s’adapta a cap de les altres classificacions del codi de proves.
  • Anotacions generades automàticament: aquelles que no són revisades manualment. Es basen en última instància en l'homologia i / o en una altra informació experimental o de seqüència, però generalment no es poden rastrejar a una font experimental.[7]
Exemple d'annotació (traduït al català) Text original[8]
Producte gènic: Actina, alfa-múscul cardíac 1, UniProtKB: P68032 Gene product: Actin, alpha cardiac muscle 1, UniProtKB:P68032
Terme GO: contracció cardíaca ; GO:0060047 (procès biològic) GO term: heart contraction ; GO:0060047 (biological process)
Codi d'evidència: Deduït del fenotip mutant (IMP) Evidence code: Inferred from Mutant Phenotype (IMP)
Referència: PMID 17611253 Reference: PMID 17611253
Assignat per: UniProtKB, 6 de Juny de 2008 Assigned by: UniProtKB, June 6, 2008

El projecte Gene Ontology també ofereix una sèrie d'eines a l'usuari mitjançant les quals poder utilitzar les dades proporcionades. Aquestes eines poden ser utilitzades on-line o descarregar-les. Les dues eines principals a les quals dona suport el Consorsi Gene Ontology són AmiGO i OBO-Edit.

AmiGO és una aplicació on-line que permet als usuaris consultar, navegar i visualitzar ontologies i dades d'anotació de productes gènics. També té una eina BLAST i una interfície per consultar directament la base de dades GO. Es pot accedir a AmiGO des de la pàgina web de GO per tal d'accedir a les dades del Consorci on-line o es pot descarregar i instal·lar per fer-ne un ús local. És un programari de codi obert gratuït i està disponible com a part de la distribució de programari go-dev.[9]

OBO-Edit

modifica

OBO-Edit és un editor d’ontologia de codi obert que va ser desenvolupat pel Gene Ontology Consortium. S'implementa a Java i utilitza un enfocament gràfic per mostrar i editar ontologies. OBO-Edit inclou una completa interfície de cerca i filtre, amb l'opció de representar subconjunts de termes per fer-los diferents visualment.[10] Tot i que va ser desenvolupat per a ontologies biomèdiques, OBO-Edit es pot utilitzar per veure, cercar i editar qualsevol ontologia. Es pot descarregar gratuïtament.

Referències

modifica
  1. «Gene Ontology Resource». [Consulta: 20 desembre 2020].
  2. 2,0 2,1 2,2 Consortium, The Gene Ontology «Creating the Gene Ontology Resource: Design and Implementation». Genome Research, 11, 8, 8-2001, pàg. 1425–1433. DOI: 10.1101/gr.180801. ISSN: 1088-9051. PMID: 11483584.
  3. 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 «Gene Ontology overview». [Consulta: 18 desembre 2020].
  4. 4,0 4,1 «GO term elements». [Consulta: 19 desembre 2020].
  5. 5,0 5,1 5,2 5,3 5,4 «Relations in the Gene Ontology». [Consulta: 18 desembre 2020].
  6. 6,0 6,1 6,2 6,3 «Introduction to GO annotations». [Consulta: 18 desembre 2020].
  7. 7,0 7,1 «Guide to GO evidence codes». [Consulta: 18 desembre 2020].
  8. Gene Ontology Consortium. «AmiGO 2: Gene Product Details for UniProtKB:P68032» (en anglès). [Consulta: 19 desembre 2020].
  9. «AmiGO 2 - GO Wiki». [Consulta: 19 desembre 2020].
  10. Day-Richter, J.; Harris, M. A.; Haendel, M.; The Gene Ontology OBO-Edit Working Group; Lewis, S. «OBO-Edit an ontology editor for biologists» (en anglès). Bioinformatics, 23, 16, 15-08-2007, pàg. 2198–2200. DOI: 10.1093/bioinformatics/btm112. ISSN: 1367-4803.

Enllaços externs

modifica