Tema de Viquipèdia:La taverna/Propostes

Leptictidium (discussiócontribucions)

Aquests últims dies, he estat veient un grapat d'usuaris que afegien sistemàticament enllaços a pàgines arxivades de la Wayback Machine, tot i que en la grandíssima majoria dels casos, l'URL original continua estant disponible. Trobo que això és un problema important des de dos punts de vista:

  • la legibilitat i facilitat de navegació de les referències: costa bastant més orientar-se per les fonts si el 50% del text que apareix a la secció de Referències és una repetició ad nauseam de «Arxivat de l'original tal dia de tal mes de tal any».
  • la moral: em sembla poc ètic que aprofitem la feina dels autors de webs externes per referenciar articles i llavors els «robem» visites i visualitzacions apuntant a un mirror del seu contingut.

Per això, crec que hauríem de fer el següent:

  • que l'URL principal de la referència sigui l'original, no l'arxiu, sempre que l'URL original encara estigui en línia (|url-status=live), i que l'arxiu només aparegui com a URL principal quan l'URL original hagi caducat (|url-status=dead); de fet, és com ho fan a la Viquipèdia en anglès
  • que el text «Arxivat de l'original tal dia de tal mes de tal any» només aparegui quan sigui rellevant, és a dir, quan l'URL original hagi caducat, per evitar enfarfegar les seccions de Referències amb mil repeticions d'aquest text.
Leptictidium (discussiócontribucions)
Beusson (discussiócontribucions)
L'he fet servir una sola vegada per provar-lo (en 2 articles), ja que vaig trobar un article (ni recordo quin) just després de veure una conversa sobre el tema i vaig pensar de provar-lo. No crec que pugui tenir una opinió clara envers el seu ús.
Paucabot (discussiócontribucions)
Pere prlpz ha amagat aquest apunt (historial)
Pere prlpz (discussiócontribucions)
Leptictidium (discussiócontribucions)

Vull deixar clar que no em sembla pas malament la idea bàsica; simplement crec que 1) no hauríem de donar prioritat a l'URL de l'arxiu quan l'URL original encara es troba en línia; i 2) no hauríem de farcir la secció de Referències de «Arxivat de l'original tal dia de tal mes de tal any» quan les URL en qüestió segueixen vives. Si un dia les URL caduquen, sempre som a temps de posar-ho quan arribi el moment.

Pere prlpz (discussiócontribucions)

Compte que algunes pàgines no es moren però canvien, i aquestes costen de detectar. Tenir arxivada la versió que es va fer servir, o com a mínim una de prou propera, té sentit. A més, no sé quina és la vida mitjana de les pàgines que fem servir de referència però la meva impressió és que és molt més curta del que esperem que duri la Viquipèdia, de manera que la majoria d'enllaços que no han caducat és només que encara no han caducat, i no esperaria que ningú els anés revisant d'any en any per veure si són vius o morts.

Leptictidium (discussiócontribucions)

No cal que cap humà els vagi revisant d'any en any, ja tenim un bot que ho fa a diari.

Pel que fa a l'argument de les pàgines que no es moren però canvien, sé que treureu l'exemple de la GEC, però en un món que cada vegada té més permalinks, DOI i similars, no trobo que justifiqui «robar» sistemàticament visites a les fonts que emprem ni farcir la secció de Referències de dates d'arxiu.

Com a mínim hauria de ser opcional: que, si a algun usuari humà li sembla que en un cas molt concret és necessari prioritzar l'URL de l'arxiu per sobre de l'URL original viva, es pugui fer, però no sistemàticament, ni amb un bot, ni amb altres eines d'edició massiva.

Paucabot (discussiócontribucions)

Potser un problema és que tenim centenars de milers d'articles i que, al ritme que veig que es processa cada article, no crec que poguem fer-los tots. Quin seria, llavors, el criteri per triar a quins articles volem assegurar els enllaços externs?

Leptictidium (discussiócontribucions)

És ben senzill. Si el paràmetre url-status té el valor live, es prioritza l'URL original. Si té el valor dead, es prioritza l'URL de l'arxiu. No cal buscar-li tres peus al gat, és el que fan a les altres Viquipèdies i la manera de fer més respectuosa de la feina dels autors i propietaris de les fonts que emprem.

A més a més, l'InternetArchiveBot ja ho pot fer, això, no cal que cap humà es mengi «centenars de milers d'articles» per afegir manualment el valor de url-status.

Pere prlpz (discussiócontribucions)

Aleshores el que proposes és bàsicament una modificació de la plantilla ref-web i similars, no?

Leptictidium (discussiócontribucions)

Correcte.

Quetz72 (discussiócontribucions)

Digueu-me romàntic, però trobo que una cosa tan important com una referència a una font original no hauria de ser pervertida per una referència a una 'fotocòpia'. Fa més de 20 anys que personalment faig servir l'Internet Archive i lògicament és molt útil, però trobo que per a la Viquipèdia hauria de ser un recurs de recuperació més que no pas un recurs d'entrada. Si el bot que tenim per verificar la inactivitat d'una font és insuficient, sempre se'n poden fer més. A banda, i suposo que això és subjectiu, però quan em trobo tantes referències d'arxiu em transmet mala qualitat.

Quetz72 (discussiócontribucions)

I s'hi pot afegir que com a mínim duplica, o molt més, el temps de descàrrega de la font.

Xavier Dengra (discussiócontribucions)

Em sembla molt legítima i ben raonada la proposta d'en @Leptictidium. També pel fet que, sobretot en premsa i revistes especialitzades en català, cuidar i apuntar cap al nostre ecosistema tant si es fa amb ref-web o amb ref-publicacióés imprescindible. Per a nosaltres mateixos a la llarga, per a posicionament web en català (que també es basa en clics) i per a benefici de les fonts en qüestió ja que les citem i en alguns casos fins i tot més que una cita breu. Llengua viva, enllaços cap a fonts el més vives possibles.

KRLS (discussiócontribucions)

Molt d'acord amb el Lepti. Hi afegiria que el temps de càrrega a Wayback és sempre pitjor que la font original si encara és activa. Penso que ara mateix, donem una mala imatge.

Cataleirxs (discussiócontribucions)

Bon dia @Leptictidium i resta de participants de la conversa.

Primer, gràcies per les reflexions de tothom. Estic bastant d'acord en tot el que comenta en Leptic: s'hauria de donar preferència a l'enllaç original enlloc de a la còpia arxivada, per no restar visites ni penalitzar el temps de càrrega. Reconec també que la secció de referències queda atapeïda d'informació i pot resultar molest. Concordo amb tu i amb en Pere en que la solució passa per reformular les plantilles ref-web, etc. (aprofitaria per a proposar altres canvis). D'altra banda, fas menció al camp |url-status, però crec que no existeix en català o, com a mínim, no es mostra i no sé si actua.

Sobre l'InternetArchiveBot que passa automatitzat, no sé dir-te com funciona, però està clar que no passa sobre tots els articles (ni els nous, ni els editats recentment). Per tant, ara per ara, aquesta no és la solució al problema que vaig plantejar en el primer fil a la taverna (el que ha enllaçat en Pere). Aprofito per fer esment a la conversa d'aquesta setmana que ha enllaçat també en Pau, sobre una petició de marca de bot, assumpte del que no tinc cap noció.

Per acabar, sobre el darrer comentari d'en Krls: dona pitjor imatge tenir enllaços trencats.

Pere prlpz (discussiócontribucions)

Mirant per sobre el codi de la plantilla crec que l'equivalent al url-status deu ser un paràmetre "inactiu", que no surt a la documentació.

Potser hauríem de notificar els darrers editors de les plantilles i segurament també veure com es configura el bot perquè tingui en compte aquests paràmetres.

Paucabot (discussiócontribucions)

@Cataleirxs: Quins articles teniu pensat processar? Tots o només una part? Quin criteri de selecció heu agafat?

Potser estaria bé donar-li una estructura de viquiprojecte per tal de centralitzar la informació que ara està dispersa en diferents fils.

Cataleirxs (discussiócontribucions)

Les primeres proves vaig fer-les en articles dels 10.000. Després vaig encetar la primera consulta a la Taverna i com no hi va haver oposició, vaig passar el bot en tots els articles creats per mi o creats en viquiprojectes que vaig dirigir. Després n'he fet uns quants més dels 10.000 i ara els estava passant en articles dels 1000/CAT. A vegades agafo algun tema concret i m'hi dedico. Per exemple, articles relacionats amb el Procés, que tenen molts enllaços a notícies de premsa. Algun dia tocarà passar-lo en articles sobre el Covid19... Coses així.

Penseu que tot és manual, has d'anar demanant al bot que passi article per article, esperar que acabi un per demanar el següent...

Quetz72 (discussiócontribucions)

I pecant ara d'inculte en el tema, el bot és un giny vinculat a un sol usuari, o s'hi podria posar diversa gent voluntària a fer-lo anar també? Ho dic per ajudar i si convé com diu en @Paucabot fer-ne un Viquiprojecte. I un dubte addicional, la plantilla podria simplement ocultar l'enllaç d'arxiu mentre estigui actiu l'original? (tipus els tags 'nowiki' o similar).

Cataleirxs (discussiócontribucions)

El poden fer anar diversos usuaris simultàniament; però cada usuari té un límit de 5 peticions per minut. Només cal fer login un cop, ja que les edicions que fa el bot surten al teu nom. Prova'l: Internet Archive bot

Pere prlpz (discussiócontribucions)

I per canviar el comportament de la plantilla s'hauria d'editar Plantilla:Ref-web i les de la mateixa família, que és viable perquè encara és una plantilla de les antigues amb codi wiki (sense Lua).

El que ja no tinc clar és si amb els paràmetres que posa el bot ja n'hi hauria prou o si cal que posi a cawiki uns paràmetres com els que deia en Leptictidium que posa a enwiki.

Flamenc (discussiócontribucions)

En molts casos de «wayback» es pot tornar a trobar la font original, que ha canviat de lloc, que ha canviat de http a https o altres canvis menors.

AlbertRA (discussiócontribucions)

@Cataleirxs, pel que fa a Alcarràs (pel·lícula), amb l'#IABot s'han reformulat 92 de les 96 referències que conté l'article. He revisat les 10 primeres i totes segueixen actives. Nogensmenys, una setmana abans va passar pel seu compte l'#IABot i en va reformular 1, aquesta no activa. Per les raons exposades al llarg del fil proposo revertir la darrera edició.

Quetz72 (discussiócontribucions)

@Cataleirxs Estic d'acord amb l'@AlbertRA. Estem debatent justament sobre tot plegat, un AdQ no pot estar referenciat amb arxius d'originals perfectament actius. Et prego també que ho reverteixis tu mateix si us plau.

Quetz72 (discussiócontribucions)

D'altra banda, tot fent-lo córrer he observat que l'IABot (sense marcar la creació d'arxius per a tot) només detecta enllaços trencats del tot, no errors 404 ni altres redireccions, però no veig que això sol justifiqui l'erradicació massiva de les referències a fonts originals plenament actives. Centraria els esforços en mirar de treballar en poder solucionar això o demanar si es pot fer (detectar errors 404 o 403 no hauria de ser difícil tècnicament, altres ja no ho sé). També en mirar de trobar una solució amb la plantilla ref-web per evitar que sigui visible l'arxiu mentre funcioni la font original.

Cataleirxs (discussiócontribucions)

@AlbertRA No tinc inconvenient. La feina primordial, crear còpies de seguretat, ja està feta. Si alguna pàgina cau, l'IABot automatitzat la podrà recuperar.

Segueixo opinant que la millor opció seria reformular les plantilles de referències. Llàstima no saber com funcionen.

Quetz72 (discussiócontribucions)

@Cataleirxs L'IA Wayback no funciona així: el bot l'únic que pot fer és agafar un arxiu creat en el passat, no pot 'crear còpies de seguretat', i per això no cal fer passar l'IABot per tot arreu substituint les referències originals. És cert que l'IA Wayback permet demanar que s'arxivi una determinada URL a data d'avui (a data passada no té sentit perquè si no ho va fer no ho pot fer ara, l'aranya passa per on té definit a l'algorisme), però en la pràctica funciona quan i on li sembla o queda en alguna cua per fer-ho algun dia. Dubto però que l'IABot faci la feina de demanar un arxiu que no hi sigui. Per tant no veig necessari fer passar l'IABot per crear còpies de seguretat perquè no les fa o no cal fer-les perquè ja hi són per quan es vulguin recuperar.

Cataleirxs (discussiócontribucions)

No t'entenc. La virtut de l'IABot és que fa les còpies de seguretat que manquen.

Per exemple, el dia 11 vaig crear Bar Versalles. Un cop llest, vaig passar el bot manual. Va trobar les còpies de seguretat preexistents de les refs 2, 4, 7 i 8; a continuació va crear les còpies de seguretat que mancaven (refs 3, 5, 6 i 9); i va afegir-hi els enllaços de totes vuit. A Alcarràs (pel·lícula), com deia l'Albert, el bot manual va afegir 92 enllaços a còpies de seguretat. D'aquestes, 6 còpies van ser creades en aquell moment.

El bot automatitzat no sé ni on ni quan passa. Pel que he vist, l'únic que fa és trobar enllaços trencats, marcar-los com a morts i, si hi ha còpia de seguretat, l'afegeix.

Quetz72 (discussiócontribucions)

Vull dir que el bot de la VP no fa cap còpia de seguretat, mira a Internet Archive si hi ha alguna còpia passada, i les afegeix. Això però perjudica les fonts vives, que automàticament queden relegades a simple enllaç amb el text 'original', i dificulta la verificació perquè ja no saps quan és o no és una referència viva, i els arxius sempre triguen el carregar-se molt més. En resum, que la 'còpia de seguretat' hi seguirà sent a Internet Archive per quan la vulguem recuperar un cop sigui esborrada o deixi d'estar en línia.

Quetz72 (discussiócontribucions)

Per exemple, de l'invarquit, que no vas substituir per la còpia d'arxiu, IA en té una captura del 17 de gener de 2023. Si mai desapareix, l'IABot sempre la podrà recuperar. No es crea pas cap còpia o captura en el moment que es passa l'IABot. Espero haver-me explicat millor ara.

Cataleirxs (discussiócontribucions)

Aquesta ref està creada a través de la plantilla {{IPAC}}, per això el bot no la revisa (ni el manual ni l'automàtic) .

Quetz72 (discussiócontribucions)

D'acord, no ho sabia, en tot cas només ho posava com exemple que de còpia de seguretat n'hi ha igualment a Internet Archive Wayback (en aquest cas dolenta i incompleta, les bases de dades estrictes no les indexa ni captura sempre bé), i que en qualsevol cas aquesta còpia de seguretat no deixa de restar subjecta a que segueix actiu el projecte Internet Archive Wayback i no passi com p.e. amb l'índex Alexa.

Leptictidium (discussiócontribucions)

Volia intentar fer-ho a partir del codi de la Viquipèdia en anglès, però és un laberint d'invocacions d'altres plantilles.

Vriullop (discussiócontribucions)

Jo m'he perdut, què hauria de fer la plantilla? Ara mateix si existeix arxiuurl assumeix que l'url original està trencat. En els casos que s'hagi afegit arxiuurl sense estar trencat l'original, o bé es reverteix si és fàcil recuperar-ho més endavant o bé s'hi afegeix un nou paràmetre urlestat=actiu per ignorar l'arxiuurl. És possible recuperar tots aquests casos?

El paràmetre inactiu que comentava el Pere només és per afegir-hi l'avís {{enllaç no actiu}}, suposadament pendent de recuperar amb arxiuurl. Es podria reutilitzar com inactiu=no, o bé traslladant-lo a urlestat=inactiu.

Pere prlpz (discussiócontribucions)

Recuperant la primera intervenció d'en @Leptictidium, aquest paràmetre urlstat=actiu és el url-status=live de la Viquipèdia en anglès, i crec que és el que té més consens al llarg de la conversa.

Entenc que ara mateix els problemes són tècnics i els principals són:

  • Com afegir el paràmetre a la plantilla.
  • Com fer que el bot el faci servir.
  • Com identificar els casos en que s'ha posat la versió arxivada en enllaços actius sense fer servir aquest paràmetre, i corregir-les per posar-l'hi.

El primer problema segur que té solució, pel segon caldria veure com es configura el bot, i el tercer ja no ho sé.

Jo suggeriria aturar el bot mentre no resolguem el segon problema tècnic per tal d'evitar anar fent més gros el tercer.

Vriullop (discussiócontribucions)
Leptictidium (discussiócontribucions)
Pere prlpz (discussiócontribucions)
Vriullop (discussiócontribucions)

Prova-ho en una ref-web.

Pere prlpz (discussiócontribucions)

Ara sí. Amb urlestat=actiu la ref-web fa servir l'enllaç a l'original i no mostra l'enllaç arxivat. Gràcies.

Rellegint la conversa tinc clar que el comportament esperat és que l'enllaç utilitzat sigui l'original, però no tinc clar si havia de mostrar com a alternativa la versió arxivada. A veure què opinen els participants a la discussió.

Cataleirxs (discussiócontribucions)

Preferiria que es mostrés també l'enllaç a l'Internet Archive, com a 2a opció. Com s'havia comentat, a vegades l'enllaç "actiu" no funciona o la pàgina s'ha modificat substancialment i convé que el lector sàpiga que té disponible una alternativa.

Cataleirxs (discussiócontribucions)

Em descuidava un motiu també important: en ocasions, la pàgina activa té paywall, però la còpia arxivada no.

Leptictidium (discussiócontribucions)

De quin percentatge de casos estem parlant? Deuen ser molts pocs els casos en els quals:

  1. la referència actual sigui a un article amb mur de pagament;
  2. no sigui possible substituir la referència per una altra font fiable sense mur de pagament; i
  3. que la còpia que aparegui a la Wayback Machine inclogui el contingut sencer i no només la previsualització que apareix en el mur del pagament (exemple d'això últim)

Ho dic perquè, si hem de complicar la lectura i navegació del 100% (o gairebé) de les seccions de referències per uns casos límits que ocorren un 1% de les vegades o menys... No és un negoci gaire rodó.

Cataleirxs (discussiócontribucions)

M'he trobat amb un bon grapat de casos de diaris i revistes online del Brasil que posen paywall a notícies i reportatges de fa >5 anys. A Internet Archive la còpia (feta quan els murs de pagament no eren comuns) és íntegra. Segurament siguin menys de l'1%, però sempre és una alegria quan trobes amb algun.

Quetz72 (discussiócontribucions)

Cert, això de fer servir l'IA per passar-te un mur de pagament només m'ha funcionat amb El País... sempre que s'aturi la descàrrega de la pàgina al moment just i no més tard (ni més aviat perquè no s'hi veu res). En fi, que no seria argument en la majoria de casos a parer meu.

Leptictidium (discussiócontribucions)

Jo ho amagaria per defecte (si l'URL encara està activa), ja que una proliferació de «Arxivat de l'original tal dia de tal mes de tal any» enfarfega la secció de referències i en dificulta la lectura i la navegació a simple vista.

Quetz72 (discussiócontribucions)

Sigui com sigui, tot té pros i contres, i segons com no calia introduir el paràmetre urlestat. Una altra opció seria capgirar l'ordre dels enllaços sempre (comptant que sempre s'introduirien els arxius amb l'IABot). D'entrada es dóna prioritat a la font original, i en els casos que no funciona sempre podries anar a l'enllaç 'còpia arxivada'), això amb independència de si urlestat ocultés l'enllaç directe a la font original si ja no fos activa.

Cataleirxs (discussiócontribucions)

Quanta gent "llegeix" la secció de referències? Llegir en el sentit de mirar-les seguides, com si fos text., i que pugui fer-li nosa veure tants cops això de 'Arxivat a...'. Si he de triar, prefereixo evitar perjudicar a qui necessiti llegir una font concreta., per remota que sigui la possibilitat.

No obstant, se m'acut una alternativa (que no sé com implantar) i suposo que agradarà a totes les parts: podríem fer servir una icona que avisi que hi ha una còpia arxivada, que al passar-hi el ratolí per sobre informi de la data i que al clicar-la obri una pestanya cap a l'Internet Archive,

Quetz72 (discussiócontribucions)

És que pel que proposes, i de fet estàs/estaves fent, que és posar còpies arxivades arreu, no sé si li trobo massa sentit una complicació tècnica per poc valor afegit. Certament la secció referències en si, des que es va implantar l'script de previsualització, no la llegeixo pas massa, més aviat vaig consultant les referències a mesura que llegeixo l'article posant el ratolí a sobre del numeral de cita. No sé què deu fer la majoria, però si l'enllaç al títol de la referència sempre porta a la font original, amb l'opció al costat de visitar l'arxiu, em sembla l'opció més òptima pràctica.

Leptictidium (discussiócontribucions)

Una solució salomònica podria ser que, si l'URL original encara està viva, només aparegui el text «(arxiu)». I que el text «Arxivat de l'original tal dia de tal mes de tal any» només aparegui quan l'URL original estigui morta.

Quetz72 (discussiócontribucions)

Solució interessant.

Vriullop (discussiócontribucions)

Per si serveix, en anglès tenen:

  • urlestat=actiu (live): enllaç principal a l'original, secundari a l'arxiu. De forma abreujada "(arxiu)" em sembla bé.
  • urlestat=inactiu (dead), que podria ser tan obsolet (contingut canviat) o pàgina no trobada en un domini existent (potser l'han mogut de lloc): enllaç principal a l'arxiu, secundari a l'original. És el valor per defecte si existeix arxiuurl sense cap urlestat.
  • urlestat=inservible (unfit), entenc que el domini ja no existeix: enllaç principal a l'arxiu, l'original desapareix.
Cataleirxs (discussiócontribucions)

Em sembla correcte.

Xavier Dengra (discussiócontribucions)

També em sembla l'opció més raonable i cenyida a cada circumstància.

Vriullop (discussiócontribucions)

Ho he preparat a {{ref-web/proves}}. Proveu-ho en diferents situacions imaginables, canviant "ref-web" per "ref-web/proves", en previsualització sense desar.

Resposta a «Rescat (innecessari) de fonts»