GuttenPlag Wiki

Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.

Prozentuale Anzahl der Plagiatzeilen pro Seite

Methode[]

Die abgefragten PlagiatsKategorien sind:

  • BauernOpfer
  • VerschärftesBauernOpfer
  • HalbsatzFlickerei
  • KomplettPlagiat
  • ShakeAndPaste
  • StrukturPlagiat
  • UnbekannteQuelle
  • Verschleierung
  • ÜbersetzungsPlagiat

Diese Kategorien wurden so abgefragt:

http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:

Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.


Methode2[]

Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20

Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.

Weitere Auswertungen[]

Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.

Gnuplot Skript: barcode_zeilen.gp[]

Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).

--- snip ---

set term png size 500,300
set out "out.png"

set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%"

unset key
set xtics 0,50 out nomirror
set mxtics 25

unset ytics
set border 5
set lmargin 0

set xlabel "\nStand: 27.03.2011 11:22 Uhr"
# set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr"

# plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
	"<(awk '$5 ==  1' prozente.list)" using 1:4 with impulses lc rgb "black",\
	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "red"	
#	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "black"	

--- snip ---

$ gnuplot barcode_zeilen.gp
$ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png