Wikifunctions:Forschung/Prüfung vorhandener Scribunto-Funktionen
Wichtige Module erhalten und ähnliche Module finden
- Werkzeug
- abstract-wiki-ds.toolforge.org
- Quelle
- GitHub: abstract-wikipedia-data-science
- Phabricator
- T263678
- Demo-Video (3 Minuten, YouTube)
- Datenwissenschaft der Abstrakten Wikipedia mit Outreachy-Demo
- Demo-Audio (41 Minuten)
Beschreibung
Scribunto-Module werden in Wiki-Projekten und Sprachversionen verwendet, um verschiedene Funktionen auszuführen. Mit dem Ziel der Abstrakten Wikipedia müssen wir nun alle von der Gemeinschaft erstellten Funktionen an einem Ort zusammenfassen, Redundanzen beseitigen und Funktionen nach Möglichkeit modularisieren. Dieses Werkzeug bietet Benutzern und Beitragenden die Möglichkeit, Wikifunktionen zu analysieren und zusammenzuführen, beginnend mit wichtigen Modulen und dann ähnliche Module zusammenzuführen oder umzugestalten.
Diese Aufgabe wurde als Outreachy-Praktikumsprojekt mit Liudmila Kalina und Aisha Khatun als Praktikanten begonnen. Lies die Blogbeiträge, die sie (und andere) während des Praktikumszeitraums in zweiwöchentlichen Berichten veröffentlicht haben.
Was es enthält
- Eine Liste wichtiger Module. Die Vorstellung von der Wichtigkeit kann je nach Aufgabe leicht unterschiedlich sein, daher stellen wir eine Methode zur Gewichtung von Funktionen bereit. Die Gewichtungen werden später normalisiert, sodass Benutzer eine beliebige Zahl in die Gewichtungseingaben eingeben können. Eine höhere Zahl gibt an, dass bestimmte Funktionen wichtiger sind.
- Filter für Wiki-Projekte (wähle einige oder alle Projekte wie Wikipedia, Wikibooks etc. aus)
- Sprachfilter.
- Beim Anklicken eines Moduls erhältst du eine Liste ähnlicher Module. Benutzer können damit beginnen, dazu beizutragen, diese Funktionen zusammenzuführen oder modularere Versionen dieser Funktionen zu erstellen.
Methode
Um die Aufgabe zu erfüllen, wichtige Module und einander ähnliche Module zu finden, wurden die folgenden Teilaufgaben der Reihe nach erledigt. All diese Arbeiten führten zum Endprodukt im GitHub-Repositorium.
- Sammeln des Quellcodes aller Module im Modul-Namensrsum mithilfe der MediaWiki-API (T270494).
- Sammeln der Daten zu diesen Modulen aus Replika-Datenbanken (T270492):
- Analyse der gesammelten Daten zur Identifizierung wichtiger Module (T272003):
- Clustering von Modulen, um ähnliche Module zu isolieren (T270827):
- Zusätzlich wurde versucht, Daten zu Seitenaufrufen zu sammeln (T271400): Notebook, PDF.