Wikipedia Diskussion:WikiProjekt KI und Wikipedia/Archiv/2025

Automoderator

Letzter Kommentar: vor 7 Tagen15 Kommentare4 Personen sind an der Diskussion beteiligt

Digitaler Themenabend dazu am 10. Februar

Was bisher geschah

Es gibt ein Projekt der Foundation Automoderator
- Automoderator ist ein automatisches Anti-Vandalismus-Tool, das vom Moderator Tools-Team entwickelt wurde. Es ermöglicht Administratoren die Aktivierung und Konfiguration der automatischen Rückgängigmachung von schlechten Bearbeitungen auf der Grundlage der Bewertung eines maschinellen Lernmodells. Automoderator verhält sich ähnlich wie Anti-Vandalismus-Bots wie ClueBot NG, SeroBOT, Dexbot und Salebot, macht es aber für alle Sprachgemeinschaften verfügbar. Technische Details zur AutoModerator-Erweiterung finden Sie unter Erweiterung:AutoModerator.
Sam Walton hat sich hier an uns gewandt, ob wir es bei uns aktivieren können, um es weiterzuentwickeln. Es ist in Entwicklung - noch nicht fertig. Es wird aber nicht fertig bzw. bei uns funktionieren, wenn wir nicht helfen bzw. ein Feedback der Community geben.
Der DTS ist ergebnisoffen. Wir erfahren, was gedacht wird und Sam erhält ein Feedback aus einer grossen und kritischen Community.

Was bisher bekannt ist

Es läuft schon in einigen Projekten - auch grösseren wie z.B. der spanischsprachigen WP, Erfahrungen über Nutzen und Probleme sollten also vorliegen und uns sicher interessieren.
Es wird eine Testphase geben, bevor das dauerhaft implementiert wird.
- Dazu: Reverted es in der Testphase schon oder dokumentiert/loggt es nur, was es reverten würde - um Erfahrungen zu sammeln auch für eine Weiterentwicklung?
Anders als z.B. Huggle ist es kein individuelles Tool - es wird für das gesamte Projekt entweder an- oder abgeschaltet.
Admins haben Kontroll- und Modifikationsmöglichkeiten - welche genau?
Unklar ist noch, welche Art von "Vandalismus" zurückgesetzt wird (Beispiele?), welche es (noch) nicht erkennt und wie die Erkennung grundsätzlich funktioniert.
- Unklar ist noch, inwiefern es offenbar sprachunspezifisch entwickelt wird - dann trotzdem Sprachspezifik berücksichtigen soll.
Wie solle man das "professionell" evaluieren als Tabelle, bevor man das "scharf" verwenden kann. Die Divergenzen kann man zunächst einfach zählen - wenn man mehr wissen will, muss man inhaltlich prüfen. Einfache Prozentvergleiche (was fanden Mensch und Automoderator) reichen nicht.


Mensch ist "Benchmark", der aber irren kann. Typ und Check der Divergenzen ist notwendig		Automoderator hat erkannt
		ja	nein
Mensch hat erkannt und zurückgesetzt	ja	ok ("so gut wie ein Mensch")	übersehen (Check, ob Mensch irrt)
	ja	ok ("so gut wie ein Mensch")	richtig nicht erkannt, Mensch irrt (Check)
	nein	fälschlich erkannt, Mensch hat recht (Check)	ok ("so gut wie ein Mensch")
	nein	richtig erkannt, Mensch hat übersehen (Check)	ok ("so gut wie ein Mensch")

Laut der Tabelle hier (About Automoderator) findet er in diversen Wikipedien auch bei "schärfster" Einstellung nur einen geringen Prozentsatz der täglichen Reverts (englisch 884 gegenüber 14'600). Die deutsche Wikipedia ist als Resultat eines "brief internal testings" aufgeführt: 1670 täglich reverts, das Tool findet bei schärfster Einstellung nur 163.
Wie wurde in anderen Projekten entschieden, das testweise zu aktivieren? Es steht nur "Konsens" da. Wenn es um ein Testen ohne Intervention ginge, wäre die Sachlage wahrscheinlich eine andere (die Lizenz erlaubt grundsätzlich, dass jeder alle Texte und Aktionen auch analysieren kann). Wenn "brief internal testing" ohne Eingriff bei uns schon möglich war, wäre die Frage, was man eigentlich noch braucht.
Etwas unklar ist noch, ob es auch später quasi autonom handelt oder ob ein Mensch das bestätigen muss und ob man die fehlerhaften Aktionen zeitnah zurücksetzen kann. Dann wird es eine Ressourcenfrage, wie viel Betreuungskapazität dafür benötigt wird und ob sich Leute dafür finden - der ein Nutzen gegenüberstehen müsste.

Hello Sam , I'm sure you can translate that easily - also that the meeting will be constructive for all sides. I have taken these questions from the discussions so far. Perhaps you can address them in the presentation. I'm delighted that the meeting has been organised. --Wortulo (Disk. * KI-Projekt) 07:59, 31. Jan. 2025 (CET)

There is an Answer from Johannnes89 to these questions, so we are better prepared.

Ich fände es gut, wenn wir vorher unsere Fragen hier etwas präzisieren - damit Samwalton9 das schon in seinen Folien auf deutsch berücksichtigen kann. Ich werde auch das Wikipedia:WikiProjekt Vandalismusbekämpfung informieren, ob die bei der Ausarbeitung der Fragen helfen können. --Wortulo (Disk. * KI-Projekt) 09:15, 21. Dez. 2024 (CET) präzisiert: --Wortulo (Disk. * KI-Projekt) 11:30, 23. Dez. 2024 (CET)

Ich fände eine solche Testphase, natürlich ohne Änderungen durch die KI, durchaus interessant und sinnvoll. Die Frage nach dem MB ist aber nicht einfach. Ich glaube nicht, dass es eine Regel gibt, die ein Meinungsbild für einen derartigen Testlauf fordert, und natürlich besteht eine große Chance, dass ein solches MB einen Testlauf ablehnen wird. Eine Testphase ohne ein MB zu starten würde meines Erachtens aber ziemlich sicher dazu führen, dass sich der Widerstand gegen diese Verwendung von KI auf Jahre hinaus so stark werden würde, dass an ihre Einführung nicht zu denken sein wird. Tatsächlich würde es mich wundern, wenn der Testlauf in diesem Fall nicht abgebrochen werden würde. Dabei würde ich erwarten, dass dies umso wahrscheinlicher wird, je positiver die ersten Ergebnisse ausfallen. Aber vielleicht irre ich mich da auch. Und noch etwas: Nicht alles, was zu Recht zurückgesetzt wird, ist notwendigerweise Vandalismus. --Senechthon (Diskussion) 19:39, 21. Dez. 2024 (CET)

Ich bin dagegen. Unsere Community ist zum Glück gross und engagiert genug, wir brauchen keine KI zur Bekämpfung von Vandalismus und auch sonst für nichts. Gestumblindi 20:17, 21. Dez. 2024 (CET)

Präzisierung: Ich bin nicht dagegen, Sam Walton auftreten und das Projekt vorstellen zu lassen. "Ich bin dagegen" heisst, dass ich gegen den Einsatz von KI in unserem Projekt bin und mir auch schwer vorstellen kann, dass ich da zu einer anderen Ansicht gelangen werde. Gestumblindi 16:59, 22. Dez. 2024 (CET)

Anzumerken wäre noch, dass bei Vergleichen mit anderen Sprachversionen auch auf die Rahmenbedingungen, die dort herrschen, geachtet werden muss. Vandalismusbekämpfung ist nicht überall gleich organisiert und uns helfen z.B. die Gesichteten Versionen sehr, die es in der englischsprachigen Wikipedia gar nicht gibt (wie es in der spanischsprachigen ist, weiss ich gerade nicht). Gestumblindi 14:53, 22. Dez. 2024 (CET)

PS: Ich habe noch einiges dazu in einer Antwort auf Wortulo auf meiner Diskussionsseite geschrieben. Gestumblindi 14:58, 22. Dez. 2024 (CET)

Ich bin ebenfalls dagegen. Die Probleme, die es in der Kontrolle der "Recent Changes" gibt, würden dadurch noch bedeutend verschärft. Schon die menschliche Rücksetzung leidet unter dem Problem, dass die Rücksetzer kaum ansprechbar sind. Wenn das auf Botentscheidungen zurückgeht, wird diese Unansprechbarkeit auch noch technisch fixiert. Selbst für eine Testphase wäre ein Meinungsbild erforderlich. --Mautpreller (Diskussion) 10:55, 23. Dez. 2024 (CET)

Ich verstehe diese Fundamentalopposition nicht ganz. Erstens sehe ich formal keine Notwendigkeit, ein Meinungsbild für eine Testphase aufzusetzen. Praktisch gesehen wäre eine Testphase ohne Meinungsbild allerdings ein weit erfolgversprechenderes Argument gegen eine spätere Einbindung des Automoderators, als es selbst ein vollständiges Versagen der KI sein könnte. Daher ist das MB unbedingt zu empfehlen.

Zweitens können wir durch eine Testphase eigentlich nur lernen. Nicht nur bezüglich des Wertes der KI zu diesem Thema, sondern auch über den Wert unseres bisherigen Vorgehens. Zum Beispiel könnte die KI irgendwo einen blinden Fleck finden (ich habe natürlich keine Ahnung, ob es überhaupt einen gibt).

Allerdings müsste auch die Form der Testphase genauer definiert werden. Das, was oben dazu zu lesen ist, ermuntert tatsächlich nicht, einer zuzustimmen. So fände ich es wichtig, dass möglichst niemand weiß, ob die Testphase gerade läuft, weil das das Verhalten beim Zurücksetzen beeinflussen könnte. Danach sollte vor allem untersucht werden, was die KI zum Zurücksetzen vorgeschlagen hat, was aber tatsächlich nicht zurückgesetzt wurde (nur das sind die Punkte, bei denen der Automoderator helfen könnte). Dazu würde ich auch Begründungen vom Automoderator erwarten (also von der KI selbst, nicht von den Programmierern etc.), auch wenn die vermutlich ziemlich schwer nachvollziehbar sein werden. Erst wenn das alles zumindest vorläufig abgeschlossen ist, halte ich es für sinnvoll, die originale Liste der Vorschläge des Automoderators zu veröffentlichen. Selbstverständlich dürfen die Ergebnisses des Automoderators aus der Testphase in keinem Fall als Argument für eine Zurücksetzung herangezogen werden und auch nicht zur Validierung einer Zurücksetzung.

Übrigens können wir sowieso keine KI-freie Wikipedia versprechen. Ich würde Stand jetzt davon ausgehen, dass es mindestens eine vierstellige Anzahl von Artikeln gibt, die ganz oder in wesentlichen Teilen von KI geschrieben wurden, Tendenz steigend. --Senechthon (Diskussion) 20:56, 23. Dez. 2024 (CET)

Und wie genau kommst du auf diese "vierstellige Anzahl"? Gestumblindi 21:05, 23. Dez. 2024 (CET)

Du hast natürlich Recht, die Schätzung hätte ich mir sparen sollen. Die tatsächliche Faktenlage ist nicht ermittelbar und wird es in näherer Zukunft wohl auch nicht werden. Zwangsläufig ist da viel Bauchgefühl dabei.

Ich hatte früher immer wieder den Eindruck, eine automatisierte und nur minimal bis gar nicht überarbeitete Übersetzung vor mir zu haben. Dieser Eindruck war meist leicht zu verifizieren, einfach durch Kopieren des Textes (oder Teilen davon) einer geeigneten Sprachversion in den Googletranslator, der nach der Übersetzung ins Deutsche zumindest über längere Teile wortwörtlich inklusive der Übersetzungsfehler den Inhalt des deutschsprachigen Artikels ergab. Zumindest den einer früheren, noch nicht so sehr von anderen umformulierten Version.

Jetzt gibt es bereits seit mehr als einem Jahr die Möglichkeit, Artikel fast noch einfacher, dafür aber weit weniger auffällig und nur sehr schwer nachweisbar von einer KI zu erstellen zu lassen. Daher mag die Schätzung zwar grob falsch sein, ich kann mir aber kaum vorstellen, dass sie nennenswert zu hoch ist. --Senechthon (Diskussion) 00:51, 24. Dez. 2024 (CET)

Nun ja, bei aller Problematik der Studie würde man schon jetzt oder mindestens bald von vierstellig ausgehen können. Es geht auch nicht nur um ganze Artikel, sondern das jemand etwas KI-Recherchiertes als Teil ungeprüft ergänzt. Das "Verführungspotential" nimmt jedenfalls zu aus verschiedensten Motiven Ich habe das sehr neue Google Modell mal gefragt, was die Erkennbarkeit von KI betrifft Findet die Halluzinationen :-) Man muss weiter von einem abnehmenden Prozentsatz ausgehen, das Finden wird aber immer schwerer. Ich selber schreibe jedenfalls keine Artikel mehr, die ich nicht mehrere Modelle "gegenrecherchieren" lasse, ob ich was übersehe. Nicht nur wegen des Projektes. --Wortulo (Disk. * KI-Projekt) 09:23, 24. Dez. 2024 (CET)

Und wie ist deine Erfahrung? Findest du, dass du wirklich davon profitierst? Kannst du konkrete Beispiele nennen, in denen dir die KI verwertbare Hinweis gegeben hat? Gestumblindi 11:33, 31. Jan. 2025 (CET)

Einige wenige Beispiele sind ja sogar auf den Projektseiten, ich sammle natürlich noch mehr Erfahrung, ehe ich in Posaunen blasen will ;-) Es hat schon Dinge gefunden, die ich nicht kannte oder wusste - nicht nur in Bezug auf Wikipedia, praktisch nicht mehr zählbar. Ich käme aber nie auf die Idee, solche Texte eins zu eins im ANR einzustellen. Es ist eben Dialektik ;-) Ich denke, das muss jeder selber ausprobieren. Frag doch das nächste Mal statt Google klassisch Perplexity oder einen anderen Chatbot deiner Wahl, wenn du was nicht weisst. Nicht Wikipedia Artikel schreiben lassen ;-) Praktisch sind das im Unterschied zu Google klassisch aufbereitete Ergebnisse, die du im Klartext lesen kannst. Dann kannst du prüfen, ob das richtig bequellt ist, ob er das richtige ausgewählt hat oder halluziniert. Perplexity hat den Vorteil, dass er eben auch aufs Internet direkt zugreifen kann und das verarbeitet und nicht nur auf Trainingsmaterial von früher angewiesen ist. Aber ich will ja auch niemand missionieren. fang doch mal damit an, dass du Perplexity fragst: Kennst du den Benutzer Gestumblindi auf Wikipedia? ;-) Da kommt nur Gutes. Du kannst dann aber auch Anschlussfragen stellen, was ich nicht gemacht habe. Vielleicht kommt dann auch was kritisches. ;-) Es ist ein Assistent für mich, kein Ghostwriter ;-) und ich hab mich nie wirklich auf Assistenten verlassen und verlassen können im Leben…--Wortulo (Disk. * KI-Projekt) 13:15, 31. Jan. 2025 (CET)

Archivierung dieses Abschnittes wurde gewünscht von: --Wortulo (Disk. * KI-Projekt) 14:56, 12. Feb. 2025 (CET)