Benfords lov

Fra Wikipedia, den frie encyklopædi
Fordelingen af udfaldet af det første ciffer (i titalssystemet) ifølge Benfords lov. Hver søjle repræsenterer et ciffer og højden af søjlen er den procentvise sandsynlighed for, at tallet begynder med pågældende ciffer.

Benfords lov påviser at i tilstrækkeligt store datamaterialer optræder tallet 1 som første ciffer i cirka 30% af tallene, 2’tallet i 18%, eksponentielt faldende så 9 er først i mindre end 5 %. Det gælder for mange data fra virkeligheden, befolkningstal, valgresultater, flodlængder, økonomiske tal, regnskaber, …. m.f.

Reglen gælder for talmaterialer, der ikke er normalfordelte, som fx cifre taget fra elektricitetsregninger, husnumre, aktiekurser, huspriser, husnumre og fysiske og matematiske konstanter.[1] Loven er opkaldt efter fysikeren Frank Benford.

Matematisk formulering[redigér | rediger kildetekst]

Mere præcist siger Benfords lov at det første ciffer d (d ∈ {1, …, b - 1} ) i b-talsystemmet (b ≥ 2) optræder med sandsynlighed proportionalt med logb(d + 1) - logbd = logb((d + 1)/d). Denne sandsynlighed svarer til afstanden mellem d og d+1 på en logaritmisk skala.

I titalsystemet er der følgende fordeling mellem de første cifre, hvor d er det første ciffer, og p er sandsynligheden:

d p
1 30.1%
2 17.6%
3 12.5%
4 9.7%
5 7.9%
6 6.7%
7 5.8%
8 5.1%
9 4.6%


Man kan på tilsvarende vis lave en lov for de to første cifre: Sandsynligheden for at de to første cifre er n (n = 10, …, 99) er log100(n + 1) - log100(n), og tilsvarende for længere følger af cifre.

Anvendelse og begrænsninger[redigér | rediger kildetekst]

I 1972 foreslog Hal Varian at reglen kunne bruges til at opdage snyd med data. Dette er baseret på formodningen om, at mennesker, der forsøger at skrive tilfældige tal, ofte vil have en jævn fordeling af førstecifre. Dermed kan Benfords lov (med begrænsninger) indgå i afdækning af forsøg på svig (fx regnskabssvindel) eller identificere fejl i andre talmaterialer.[2][3]

Man skal dog huske på, at Benfords lov ikke gælder for alle tal. Loven gælder f.eks. ikke for IQ og menneskers højde, fordi disse variabler er normalfordelte. Den gælder heller ikke for talstrenge som telefonnumre og tallene på nummerplader og CPR-numre, der ligger i et bestemt interval og er styret af bestemte regler.

Forklaringer[redigér | rediger kildetekst]

En plausibel forklaring på at Benfords lov (BL) kan opfyldes gælder også for udfaldene af terningkast, der når de summeres giver en normalfordeling, og når de multipliceres giver en log-normalfordeling (hvor 1(-2) intervallet fylder 30,1% af et tifold). Data fra den “virkelige verden” består af de sammenlagte virkninger af få eller talrige multiplikative tilfældige faktorer, der har tendens til at have en log-normal som den endelige fordeling.[4]

Ikke alle datasæt med log-normalfordeling opfylder Benfords lov. Omvendt ikke alle datasæt der opfylder Benfords lov har en log-normalfordeling.

Referencer[redigér | rediger kildetekst]

  1. ^ Kvam, P.H., Vidakovic, B. (2007) Nonparametric Statistics with Applications to Science and Engineering. Wiley. ISBN 978-0-470-08147-1. p. 158.
  2. ^ Binder, J.T. (2015) Anvendelsen af Benford’s Lov i praktisk besvigelsestestning. Specialeafhandling fra Copenhagen Business School, Institut for Regnskab og Revision.
  3. ^ Collins, J.C. (2017) Using Excel and Benford’s Law to detect fraud. Journal of Accountancy, 1. april 2017. Hentet 23. februar 2022.
  4. ^ https://towardsdatascience.com/benfords-law-a-simple-explanation-341e17abbe75 Benford's law: A simple explanation, towardsdatascience.com]