Pages

16.6.25

KI (LLM) und Wikipedia, Archive für analoge Texte

 Die Wikipedia konnte so gute Fortschritte machen, weil in Lexika und der Vielfalt der Wikipedianer ein Thesaurus von Wissen vorlag, der genutzt wurde.

Ein wesentlicher Fortschritt wurde erreicht, als die Anbindung an analog-schriftliche Texte gefordert und mithilfe der Anmerkungen/Einzelnachweise technisch möglich wurde.

Die Wikipedia nutzte schon früh Bots (KI), um Fehlerquellen auszuschalten. Das ist den technikaffinen jungen Wikipedianern zu verdanken. Dank des so entstandenen Thesaurus lag den LLMs(aktuell die meist diskutierte Form von KI) eine frei benutzbar gut  geordnete Textmasse vor, die zusammen mit anderen Reservoiren das extrem hohe Lerntempo der LLMs ermöglichte. (Zur Arbeitsweise eines LLM sieh hier)

Aufgrund des hohen Lerntempos  der LLMs und der extrem beschleunigten Verbreitung solcher maschinell erstellten Texte scheint mir jetzt besonders wichtig, dass genügend noch analog erstellte Texte zum Vergleich mit den LLM-Texten zur Verfügung stehen.

Daraus ergibt sich für mich, dass die Aufbereitung analoger Texte für maschinelle Lesbarkeit noch wichtiger wird als ich vorher annahm. Ich sehe mich jetzt genötigt, viele ungelesene handschriftliche Materialien, die in meiner Familie über Generationen aufbewahrt wurden, zu entziffern, bevor sie wegen Unlesbarkeit fortgeworfen werden, oder sie an Institutionen  eiterzugeben, die darauf spezialisiert sind, Archivalien zu lagern.

Vor knapp 60 Jahren (um 1969) haben wir bei der Haushaltsauflosung meiner Mutter viele solcher Archivalien an das Staatsarchiv Marburg gegeben, von denen ich 1992 erfuhr, dass sie in Thüringen (dem Herkunftsort der Archivalien) schon genutzt worden waren.

Ungeordnete Briefe und Tagebücher werden von Staatsarchiven kaum genommen werden und die Lagerorte sollten im Internet auffindbar sein. Deshalb gebe ich z.B. Briefsammlungen u.ä. an die Landesschule Pforta und verweise bei Teilveröffentlichungen des Entzifferten im Internet auf den Platz, wo weitere analogen Materialien gesammelt sind. 

No comments: