Aprenentatge semi-supervisat

paradigma en l'aprenentatge automàtic

En ciències de la computació, l'aprenentatge semi-supervisat consta d'un conjunt de tècniques d'aprenentatge automàtic que utilitza dades d'entrenament tant etiquetades com no etiquetades: normalment utilitza una petita quantitat de dades etiquetades juntament amb una gran quantitat de dades no etiquetades. L'aprenentatge semi-supervisat es troba entre l'aprenentatge no supervisat (sense dades d'entrenament etiquetats) i l'aprenentatge supervisat (amb totes les dades d'entrenament etiquetades).

Els investigadors del camp de l'aprenentatge automàtic han descobert que les dades no etiquetades, quan es fan servir juntament amb una petita quantitat de dades etiquetades, poden millorar de manera considerable l'exactitud de l'aprenentatge. L'adquisició de dades etiquetades per resoldre un problema sol requerir un agent humà (p. ex., per transcriure un segment d'àudio) capacitat per classificar manualment els exemples d'entrenament o un experiment físic (p. ex., determinar l'estructura 3D d'una proteïna o determinar si hi ha oli en un lloc en particular). El cost associat al procés d'etiquetatge pot fer que un conjunt d'entrenament totalment etiquetat sigui inviable, mentre que l'adquisició de dades sense etiquetar és relativament poc costosa. En aquests casos, l'aprenentatge semi-supervisat pot ser molt útil. L'aprenentatge semi-supervisat també és d'interès teòric a l'aprenentatge automàtic i com a model per a l'aprenentatge humà.

Es processa un conjunt d'exemples distribuïts de manera independent i idèntica amb etiquetes corresponents i exemples sense etiquetar . L’aprenentatge semi-supervisat es pot referir tant al aprenentatge transductiu com a l'aprenentatge inductiu. L’objectiu de l’aprenentatge transductiu consisteix únicament en inferir les etiquetes correctes de les dades sense etiquetar . L’objectiu de l’aprenentatge inductiu tracta en inferir el correcte mapeig de a .

Un exemple de tècnica que utilitza aprenentatge semi-supervisat és el co-entrenament, on s'entrenen dos o més sistemes cadascun en un conjunt d'exemples, però de manera que cada sistema utilitza un conjunt de característiques diferents (i idealment independents) per a cada exemple.

Un enfocament alternatiu consisteix a modelar la distribució de la probabilitat conjunta de les característiques i les etiquetes. Les dades no etiquetades poden ser tractades com a 'dades que falten'. S'utilitza de forma comuna a l'algorisme EM per maximitzar la similitud del model.

Intuïtivament, el problema d'aprenentatge es pot veure com un examen i les dades etiquetades com a problemes de mostra que el mestre resol per a la classe com a ajuda per resoldre un altre conjunt de problemes. A l'escenari transductiu, aquests problemes sense resoldre actuen com a preguntes d'examen. A l'entorn inductiu, es converteixen en problemes de pràctica del tipus que constituiran l'examen.

Supòsits modifica

Per poder utilitzar dades no etiquetades, ha d'existir alguna relació amb la distribució subjacent de dades. Els algoritmes d'aprenentatge semi-supervisat utilitzen com a mínim un dels següents supòsits:[1]

Supòsit de continuïtat modifica

Els punts més propers entre ells tenen més possibilitats de compartit una etiqueta. Això generalment també s’assumeix en l’aprenentatge supervisat i dóna una preferència per a límits de decisió geomètricament simples. En el cas de aprenentatge semi-supervisat, el supòsit de suavitat a més dóna una preferència per límits de decisió en regions de baixa densitat, molt pocs punts estan propers entre ells però en diferents classes.

Supòsit de clúster modifica

Les dades tendeixen a formar clústers discrets, on els punts dins d’aquests tenen més possibilitats de compartir una etiqueta (encara que dades que comparteixen etiquetes és poden estendre en múltiples clústers). Això és un cas especial del supòsit de suavitat i dona lloca a un aprenentatge de característiques amb algoritmes de clústers.

Supòsit de varietat modifica

Les dades es troben aproximadament en una varietat de dimensió molt més baixa que en l’espai d’entrada. En aquest cas aprendre la varietat utilitzant tant les dades etiquetades com les no etiquetades por evitar la maledicció de la dimensió. Després l’aprenentatge pot seguir utilitzant distàncies i densitats definides en la varietat.

El supòsit de varietat és molt pràctic quan les dades generades per un procés són d’alta dimensió i difícils de modelar directament, però que té pocs graus de llibertat. Per exemple, la veu humana és controlada per unes poques cordes vocals,[2] i imatges de diferents expressions facials són controlades per uns pocs músculs. En aquests casos, distàncies i suavitat en l’espai natural del problema generat, és superior considerant l’espai de totes les possibles ones acústiques o imatges, respectivament.

Història modifica

L'enfocament heurístic d'autoformació (també conegut com a autoaprenentatge o autoetiquetatge) és històricament l'enfocament més antic per a l'aprenentatge semisupervisat, amb exemples d'aplicacions que comencen a la dècada de 1960.[3]

El marc d'aprenentatge transductiu va ser presentat formalment per Vladimir Vapnik a la dècada de 1970.[4] L'interès en l'aprenentatge inductiu utilitzant models generatius també va començar a la dècada del 1970. Ratsaby i Venkatesh van demostrar al 1995[5] un límit d'aprenentatge probablement aproximadament correcte (en anglès, probably approximately correct learning) per a l'aprenentatge semisupervisat d'una barreja gaussiana.

L'aprenentatge semisupervisat s'ha tornat recentment més popular i rellevant en la pràctica, degut a la varietat de problemes on es troben grans quantitats de dades no etiquetades disponibles, per exemple; text en llocs web, seqüències de proteïnes o imatges.[6]

Comparativa entre diferents tipus d'algorismes d'aprenentatge automàtic modifica

Els avantatges i desavantatges dels diferents tipus d'algorismes d'aprenentatge automàtic són:

  • Avantatges dels algorismes d'aprenentatge supervisat:
  • # Les dades d'entrenament són reutilitzables a menys que canviïn les característiques
  • # Les classes representen les característiques
  • Desavantatges dels algorismes d'aprenentatge supervisat
  • # Les classes no poden coincidir amb les classes espectrals.
  • # Coherència variable a les classes
  • # El cost i el temps estan involucrats en la selecció de dades de entrenament
  • Avantatges dels algoritmes d'aprenentatge automàtic no supervisats
  • # No es requereixen coneixements previs de l'àrea d'imatge.
  • # Es minimitza l'oportunitat d'error humà.
  • # Produeix classes espectrals úniques.
  • # Relativament fàcil i ràpid de dur a terme
  • Desavantatges dels algoritmes d'aprenentatge automàtic no supervisats
  • # Les classes espectrals no representen necessàriament les característiques
  • # No té en compte les relacions espacials en les dades.
  • # Es necessita temps per interpretar les classes espectrals.
  • Avantatges dels algoritmes d'aprenentatge automàtic semi-supervisats
  • # És fàcil d'entendre.
  • # Redueix la quantitat de dades anotades utilitzades.
  • # És senzill.
  • # Té una alta eficiència
  • Desavantatges dels algoritmes d'aprenentatge automàtic semi-supervisats
  • # Els resultats de la iteració no són estables.
  • # No és aplicable a les dades a nivell de xarxa.
  • # Té una precisió baixa.

Aplicacions modifica

L'aprenentatge semi-supervisat és aplicable per a quasi qualsevol problema aplicable per l'aprenentatge supervisat, pel fet que, els dos tenen el mateix objectiu de crear un predictor.

Algunes de les aplicacions són:

  • Processament del llenguatge natural
    • Desambiguació del sentit de les paraules
    • Categorització dels documents
    • Classificació d'entitats
    • Traducció automàtica
  • Classificació del contingut a Internet
    • Etiquetar cada pàgina web és un procés poc pràctic i útil i, per tant, s'utilitzen algoritmes d'aprenentatge supervisat. Un exemple seria l'algorisme de cerca de Google que fa ús d'una variant d'aprenentatge semi-supervisat per classificar la rellevància d'una pàgina web per una determinada cerca.
  • Computer Vision
  • Classificació de la secuencia de Proteínas
    • Gràcies al fet que les cadenes d'ADN solen tenir una gran mida, l'augment de la utilització de l'aprenentatge semi-supervisat ha sigut imminent en aquest camp.

Vegeu també modifica

Referències modifica

  1. Chapelle, Oliver Semi-Supervised Learning, 2006.
  2. Stevens, Kenneth N. Acoustic Phonetics (en anglès). Libro-e : Documento : Inglés (eng). Cambridge, Mass. : MIT Press ©1998. ISBN 0-585-08720-2. 
  3. Scudder, H. «Probability of error of some adaptive pattern-recognition machines». IEEE Transactions on Information Theory, 11, pàg. 363–371. DOI: 10.1109/TIT.1965.1053799. ISSN: 1557-9654.
  4. Vapnik, V.; Chervonenkis, A. Theory of Pattern Recognition (en rus). Moscow: Nauka, 1974.  cited in Chapelle, Schölkopf & Zienin 2006, p. 3
  5. ; Venkatesh, S.«Learning from a mixture of labeled and unlabeled examples with parametric side information». in Proceedings of the eighth annual conference on Computational learning theory - COLT '95. New York, New York, USA: ACM Press, 1995, p. 412–417. DOI 10.1145/225298.225348. ISBN 0-89791-723-5. . Cited in Chapelle, Schölkopf & Zienin 2006, p. 4
  6. Zhu, Xiaojin. «Semi-supervised learning literature survey», 2008.