Bruger:Wegge/Statistik

Fra Wikipedia, den frie encyklopædi

Metode[redigér | rediger kildetekst]

De gamle statistik-plot er lavet på baggrund af SQL-dumps, der efterfølgende er blevet maltrakteret på forskellig måde. Det er en process med meget manuelt arbejde, og lang behandlingstid. I nyere tid, der faktisk ikke længere er helt så ny, er databasedumps ikke længere i SQL, men derimod i form af et XML-dump. Det er noget nemmere at gå til, og jeg arbejder på nuværende tidspunkt på at strømlinje processen så meget at det manuelle arbejde bliver indskrænket til download og dekomprimering af dump, og upload af den færdige graf. De første test-kørsler giver et lovende resultat, men der er dog en ret markant forskel mellem det artikelantal der kan beregnes ud fra dumpet, og de 299.548 artikler som systemet mener der findes. Der er mere end en forklaring på denne forskel, hvor de væsentligste bidrag er:

  • Kodefejl
  • Ændrede definitioner for en rigtig artikel
  • Transaktionsfejl ved opdatering af statistiktabellen

Desuden er der nogle tekniske grunde til at en rekonstruktion af den historiske udvikling ikke er 100% korrekt. De væsentlige afvigelser vil være artikler der er blevet slettet. Af gode grunde findes en slettet artikel ikke længere i databasen, så disse artikler vil ikke optræde, heller ikke i det tidsrum hvor de rent faktisk har eksisteret. Derudover er det den seneste udgave af en artikel der afgør om en artikel er en omdirrigering eller så kort at den ikke er en rigtig artikel. I tillæg til disse valg, gælder det også at en artikel der er oprettet af en robot, altid vil blive talt med som en robot-oprettet artikel, uanset hvor mange redigeringer den har gennemgået efterfølgende.

dawiki-20060326-pages-meta-history.xml[redigér | rediger kildetekst]

Rekonstruktion af artikelantallet fra tidernes morgen til 26. marts 2006

Denne graf indeholder nøgletallene for indholdet på den danske wikipedia. Det væsentlige indhold er antal artikler (blå) og antal brugeroprettede artikler (turkis). Den røde linje er en lineær tilpasning til artikeltallet. Sammenlignet med en tilsvarende databehandling, baseret på et databasedump fra 20. juli 2005, er væksten øget med 14%, så den gennemsnitlige tilvækst nu er 0,000316425/sekund, eller en ny artikel for hver 52 minutter, 40 sekunder.

Den grønne linje er data, løbende opdateret fra statistiksiden, medtaget for sammenligningens skyld. Som det fremgår, har programfejl og ændrede definitioner på, hvad en reel artikel er, medført, at tælleren på statistiksiden ikke med sikkerhed kan regnes for en 100% retvisende værdi. Der er naturligvis også den mulighed, at det program, der er benyttet til at pille statistikken ud af den seneste databasedump, er fejlbehæftet, eftersom det stadig er befinder sig meget tidligt i udviklingsforløbet. En reel artikel er defineret ved at være en artikel i artikelnavnerummet, der ikke er en omdirigering til en anden side, men indeholder mindst en intern henvisning.

Den blå linje viser det totale antal artikler. Dette inkluderer artikler, der er masseoprettet af et script, hvoraf det væsentligste bidrag stammer fra Bruger:Twidrobots oprettelse af artikler med beskrivelse af alle danske sogne og en supplering af årstalsartiklerne, så perioden fra 500 f.Kr. er dækket. De maskinelt oprettede artikler er udskilt fra det totale artikeltal, da de ellers forstyrrer det linære estimat over artikeloprettelserne. Den lilla linje viser udviklingen i antallet af robotoprettede artikler alene. Her fremgår det tydeligt at robotoprettelser af artikler i høj grad er en diskret hændelse, som ikke vil forbedre det statistiske grundlag.

Den brune linje viser udviklingen i antallet af aktive brugere, der er de brugere har lavet mindst en redigering. Værdiangivelse for denne linje er i grafens højre side. Udviklingen i antallet af brugere knækker flere steder, hvoraf to med ret stor sandsynlighed kan forbindes med presseomtale. Det første tilfælde er i april måned, 2005, der falder sammen med en artikel i de danske brugsforeningers medlemsblad, samvirke. Et par måneder senere, i juni, kan presseomtalen i forbindelse med 25.000 artikler og Jimbo Wales besøg i danmark (sammenfald mellem besøg og jubilæum var tilfældigheder) også aflæses, dog mere som en kortvarig og lokaliseret udvikling.

Historiske plots[redigér | rediger kildetekst]