Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.
Methode[]
Die abgefragten PlagiatsKategorien sind:
- BauernOpfer
- VerschärftesBauernOpfer
- HalbsatzFlickerei
- KomplettPlagiat
- ShakeAndPaste
- StrukturPlagiat
- UnbekannteQuelle
- Verschleierung
- ÜbersetzungsPlagiat
Diese Kategorien wurden so abgefragt:
Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.
Methode2[]
Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:
Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.
Weitere Auswertungen[]
Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.
Gnuplot Skript: barcode_zeilen.gp[]
Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).
--- snip --- set term png size 500,300 set out "out.png" set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%" unset key set xtics 0,50 out nomirror set mxtics 25 unset ytics set border 5 set lmargin 0 set xlabel "\nStand: 27.03.2011 11:22 Uhr" # set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr" # plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ "<(awk '$5 == 1' prozente.list)" using 1:4 with impulses lc rgb "black",\ "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "red" # "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "black" --- snip --- $ gnuplot barcode_zeilen.gp $ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png