Unified Medical Language System

El Sistema de Llenguatge Mèdic Unificat (en anglès, Unified Medical Language System, UMLS) és un compendi de molts vocabularis controlats de les ciències biomèdiques, creat el 1986.[1]

Infotaula de lloc webUnified Medical Language System
URLhttp://www.nlm.nih.gov/research/umls/ Modifica el valor a Wikidata
Tipusontologia i compendi Modifica el valor a Wikidata

L'UMLS consisteix en fonts de coneixement (bases de dades) i un conjunt d'eines de programari; el sistema està destinat a ser utilitzat principalment per desenvolupadors de sistemes d'informàtica biomèdica. També proporciona la base per al processament del llenguatge natural; proporciona una estructura de mapatge entre aquests vocabularis i, per tant, permet traduir paraules entre els diferents sistemes de terminologia. També es pot considerar un tesaurus i un diccionari d'ontologia integral de conceptes biomèdics.

L'UMLS va ser dissenyat i és mantingut per la Biblioteca Nacional de Medicina dels Estats Units (US National Library of Medicine), que l'actualitza trimestralment i es pot utilitzar de forma gratuïta. El projecte va ser iniciat el 1986 per Donald A.B. Lindberg, Doctor en Medicina, quan era Director de la Biblioteca de Medicina.

Propòsit i aplicacions modifica

El nombre de recursos biomèdics disponibles per als investigadors és enorme. Sovint, això és un problema quan es busca informació entre la literatura mèdica causa del gran volum de documents existent. L'objectiu de l'UMLS és millorar l'accés a aquesta literatura, facilitant el desenvolupament de sistemes informàtics que entenguin el llenguatge biomèdic. Això s'aconsegueix superant dues barreres importants:

  • la varietat de formes en què s'expressen els mateixos conceptes en diferents fonts llegibles per la màquina i per diferents persones.
  • la distribució d'informació útil entre moltes bases de dades i sistemes dispars.

Llicències modifica

Els usuaris del sistema han de signar un «UMLS agreement» (d'acord amb l'UMLS) i presentar informes breus d'ús anual.

Els usuaris acadèmics poden utilitzar gratuïtament l'UMLS amb finalitats de recerca i investigació.

L'ús comercial o de producció requereix llicències de drets d'autor per a algunes de les fonts dels vocabularis incorporats.

Fonts de coneixement modifica

Metathesaurus modifica

El Metathesaurus forma la base de l'UMLS i comprèn més d'1 milió de conceptes biomèdics i 5 milions de noms conceptuals, tots ells derivats dels més de 100 vocabularis i sistemes de classificació controlats incorporats. Alguns exemples dels vocabularis controlats incorporats són ICD-10, MeSH, SNOMED CT, DSM-IV, LOINC, WHO Adverse Drug Reaction Terminology, UK Clinical Terms, RxNorm, Gene Ontology i OMIM.

El Metathesaurus s'organitza per concepte, i cada concepte té atributs específics que defineixen el seu significat i estan vinculats als noms de conceptes corresponents en els diferents vocabularis de la font. Es representen nombroses relacions entre els conceptes, per exemple, jeràrquics com «is-a» per a les subclasses i «són part de» per a les subunitats, i els associatius com «són causats per» o «en la literatura es produeix gairebé sovint» (aquesta última es deriva de MEDLINE).

L'abast del Metathesaurus està determinat per l'abast dels vocabularis d'origen. Si diferents vocabularis utilitzen noms diferents per al mateix concepte, o si utilitzen el mateix nom per a diferents conceptes, aquest serà representat fidelment en el Metathesaurus. Tota la informació jeràrquica dels vocabularis d'origen es conserva al Metathesaurus. Els conceptes del Metathesaurus també es poden enllaçar a recursos fora de la base de dades, per exemple, a la bases de dades de seqüència de gens.

Semantic Network modifica

A cada concepte en el Metathesaurus s'assigna a un o més tipus semàntics (categories), que estan vinculats entre ells a través de relacions semàntiques.[2] El Semantic Network (xarxa semàntica) és un catàleg d'aquests tipus i relacions semàntiques. Aquesta és una classificació bastant àmplia; en total hi ha 127 tipus semàntics i 54 relacions.

Els principals tipus semàntics són «organismes», «estructures anatòmiques», «funció biològica», «productes químics», «esdeveniments», «objectes físics» i «conceptes o idees». Els vincles entre els tipus semàntics defineixen l'estructura de la xarxa i mostren relacions importants entre les agrupacions i els conceptes. El vincle principal entre els tipus semàntics és l'enllaç «is-a», que estableix una jerarquia de tipus. La xarxa també té cinc categories principals de relacions no jeràrquiques (o associatives), que constitueixen els restants 53 tipus de relació. Aquests són «relacionats físicament», «relacionats en l'espai», «relacionat temporalment amb», «relacionat funcionalment amb» i «relacionat conceptualment amb».[2]

La informació sobre un tipus semàntic inclou un identificador, una definició, exemples, informació jeràrquica sobre el(s) tipus semàntic(s) que abasta i les relacions associatives. Les relacions associatives dins del Semantic Network són molt febles. Capten com a màxim les relacions «alguns-alguns»; per exemple, capta el fet que algunes de les instàncies del primer tipus poden estar connectades per la relació més destacada a alguna instància del segon tipus. De manera diferent, capten el fet que una afirmació relacional corresponent és significativa (tot i que no cal ser veritat en tots els casos). Un exemple de relació associativa és «pot causar», aplicat als termes (fumar, càncer de pulmó): fumar «pot causar» càncer de pulmó.

SPECIALIST Lexicon modifica

L'SPECIALIST Lexicon conté informació sobre vocabulari en anglès bàsic de termes biomèdics, termes trobats en MEDLINE i termes trobats en l'UMLS Metathesaurus. Cada entrada conté sintaxi (com es combinen les paraules per crear significats), morfologia (forma i estructura) i ortografia (escriptura correcta).

Un conjunt de programes Java utilitza el lèxic per a treballar a través de les variacions en els textos biomèdics relacionant paraules entre les seves parts del llenguatge, que poden ser útils en cerques web o en cerques a través d'una història clínica informatitzada.

Les entrades poden ser termes d'una paraula o de moltes paraules. Els registres contenen quatre parts:

  • forma bàsica (per exemple, «executar» per a «executant»);
  • parts del discurs (de les quals l'especialista reconeix «onze»);
  • un identificador únic;
  • qualsevol variant ortogràfica disponible.

Per exemple, una consulta per a «anestèsia» retornaria el següent:[3]

{ base=anestèsia
spelling_variant=anestèsia
entry=E0008769
cat=noun
variants=reg
}
{ base=anestèsia
spelling_variant=anestèsia
entry=E0008770
cat=adj
variants=inv
position=attrib(3)
}

El SPECIALIST Lexicon està disponible en dos formats:

  • el format «unitat de registre» es pot veure a dalt, i inclou slots (ranures) i fillers (omplidors). Un slot és l'element (per exemple, base = o spelling variant =) i els fillers són els valors que s'afegeixen com a entrades a als slots,
  • el format «taula relacional» encara no està normalitzat i conté una gran quantitat de dades redundants als fitxers.

Inconsistències i altres errors modifica

Donada la mida i la complexitat de l'UMLS i la seva política permissiva sobre la integració de termes, els errors són inevitables.[4] Els errors inclouen l'ambigüitat i la redundància, els cicles de relació jeràrquica (un concepte és alhora un avantpassat i un descendent), mancança d'avantpassats (els tipus semàntics de conceptes de pare/fill no estan relacionats) i la inversió semàntica (la relació de pare/fill amb els tipus semàntics és no coherent amb els conceptes).[5]

Aquests errors es detecten i es resolen mitjançant l'auditoria de l'UMLS. Les auditories manuals poden ser molt lentes i costoses. Els investigadors han intentat abordar el tema a través de diverses maneres. Les eines automatitzades es poden utilitzar per buscar aquests errors.

Per a les inconsistències estructurals (com ara bucles), funcionaria una solució trivial basada en l'ordre. Tanmateix, aquesta solució on es pot aplicar quan la inconsistència es troba en el terme o al nivell de concepte (un significat específic d'un terme en un terme).[6] Això requereix una estratègia de recerca informada (representació del coneixement).

Suport d'eines de programari modifica

A més de les fonts de coneixement, la Biblioteca Nacional de Medicina també proporciona eines de suport:

  • MetamorphoSys - personalitza el Metathesaurus per a aplicacions específiques, per exemple excloent certs vocabularis d'origen.
  • lvg - un programa que utilitza el lèxic SPECIALIST per generar variants lèxiques d'un determinat terme i per recolzar l'anàlisi del text del llenguatge natural.
  • MetaMap - eina en línia que, quan es dona un text arbitrari, troba i retorna els conceptes rellevants de Metathesaurus.
  • MetaMap Transfer (MMTx) - Implementació de Java de MetaMap (ja no és compatible).
  • Knowledge Source Server - accés als vocabularis basat en web (retirat el 2010).[7]

Programari de tercers modifica

Referències modifica

  1. Unified Medical Language System, 1996. 
  2. 2,0 2,1 National Library of Medicine. «Chapter 5 - Semantic Networks». A: UMLS Reference Manual. Bethesda, MD: U.S. National Library of Medicine, National Institutes of Health, 2009. 
  3. Browne, McCray and Srinivasan (2000). The Specialist Lexicon. Lister Hill National Center for Biomedical Communications, National Library of Medicine, Bethesda, MD, p. 1.
  4. Morrey, CP; Geller, J; Halper, M; Perl, Y «The Neighborhood Auditing Tool: A hybrid interface for auditing the UMLS». Journal of Biomedical Informatics, 42, 3, 2009, pàg. 468–489. DOI: 10.1016/j.jbi.2009.01.006. PMC: 2891659. PMID: 19475725.
  5. Geller, J; Morrey, CP; Xu, J; Halper, M; Elhanan, G; Perl, Y; Hripcsack, G «Comparing Inconsistent Relationship Configurations Indicating UMLS Errors». AMIA Annu Symp Proc, 2009, 2009, pàg. 193–197. PMC: 2815406. PMID: 20351848.
  6. Zhu, Xinxin; Fan, Jung-Wei; Baorto, David M.; Weng, Chunhua; Cimino, James J. «A review of auditing methods applied to the content of controlled biomedical terminologies». Journal of Biomedical Informatics, 42, 3, 2009, pàg. 413–425. DOI: 10.1016/j.jbi.2009.03.003. PMC: 3505841. PMID: 19285571.
  7. «Unified Medical Language System® (UMLS®) News: Revised License Agreement, New UMLS Terminology Services and Browser, Discontinued UMLSKS, and API Changes». NLM Technical Bulletin. U.S. National Library of Medicine, 29-07-2010.

Bibliografia modifica

Enllaços externs modifica