Gå till innehållet

Underhåll — Dubbletthantering

PastPaths kan hitta och slå ihop poster som importerats flera gånger eller registrerats som separata objekt trots att de avser samma person, plats, mediafil eller händelse. Funktionen nås via Administrera → Underhåll eller via dedikerade knappar på respektive listsida.


Översikt

Varje entitetstyp har ett eget poängbaserat system som väger samman flera signaler till en sannolikhetspoäng (0–100). Poängen avgör om ett par visas som möjlig dublett. Du väljer sedan manuellt vilka fält som ska behållas, och systemet sköter alla databaskopplingar automatiskt.

Entitet Primär signal Standardtröskel
Person Fonetiskt namn + datum + födelseort 50
Plats Källtext (GEDCOM PLAC) + koordinater 30
Media SHA-256-hash 35
Händelse Typ + datum + plats 60

Söka efter dubletter

Automatisk sökning

Öppna sökning via Underhåll → Sök dubletter eller knappen på respektive sida (Personer, Platser, Media, Händelser). Justera tröskelvärdet med reglaget och klicka Sök. Systemet returnerar par sorterade efter poäng, med en färgkodad konfidensindikator:

  • Grön (hög) — stark matchning, troligen samma post
  • Orange (medel) — möjlig dublett, granska manuellt
  • Grå (låg) — svag signal, använd omdöme

Under varje par visas poängfördelningen per signal (t.ex. "Exakt namn: 25/25", "Koordinater: 30/30") som hjälper dig förstå varför paret flaggades.

Manuell sökning

Fliken Manuell sök låter dig söka fritt och markera valfria poster för sammanslagning — oavsett om de liknar varandra poängmässigt. Användbart när du vet att två poster är samma men systemet inte hittat dem automatiskt (t.ex. stavfel i namnet som fonetiken inte fångar).

Välj minst två poster och klicka Slå ihop valda. Vid fler än två öppnas sammanslagningsdialogen sekventiellt: du slår ihop ett par i taget tills alla är klara.


Sammanslagningsfliken

När du klickar Granska på ett dubblettppar öppnas sammanslagningsdialogen.

Välja keeper

Överst väljer du vilken av de två posterna som ska vara keeper — den som behålls. Klicka på namnchipsen för att byta. Valet påverkar standardinställningen för alla fält nedan (keepers fält är förvalt).

Fältval

Varje datafält visas som en rad med keepers värde till vänster och den andra postens värde till höger. Klicka på önskad sida för att välja vilket värde som behålls.

För textfält (beskrivning, anteckningar/biografi) och taxonomi (kategorier, taggar) finns ett tredje alternativ:

Lägg ihop båda — texterna konkateneras med en separator, eller taxonomin slås samman som en union. Det här alternativet är förvalt automatiskt när båda posterna har innehåll, för att minimera dataförlust.

Bekräftelsedialogrutan

Innan sammanslagningen genomförs visas en sammanfattning:

  • Vilken post raderas och vilken behålls
  • Hur många kopplingar som flyttas (relationer, händelser, citat m.m.)
  • En varning om något textfält eller taxonomi-fält kastas (dvs. du valt enbart ena sidans data)

Sammanslagningen kan inte ångras. Kontrollera att du valt rätt keeper innan du bekräftar.

Vad händer i bakgrunden

Vid bekräftelse:

  1. Valda fältvärden skrivs till keeper
  2. Alla FK-kopplingar uppdateras (se tabell nedan)
  3. Taxonomi (kategorier och taggar) slås ihop enligt val
  4. Eventuella "Ej dubletter"-markeringar för removed rensas
  5. Removed raderas permanent från databasen
Entitet Kopplingar som flyttas
Person Relationer, händelse-kopplingar, media, platser, citat
Plats Födelseort-referenser, dödsort-referenser, person-platser, händelser, citat
Media Person-kopplingar, platskopplingar, händelse-kopplingar, citat
Händelse Person-roller, media-kopplingar, citat

Mediafiler på disk

Vid sammanslagning av mediaposter raderas databas-raden för removed, men den fysiska filen lämnas kvar på disk som en orphan. Detta är ett medvetet val för att undvika dataförlust. Orphan-filer kan rensas upp manuellt vid behov.


Ej dubletter

Om systemet föreslår ett par som du vet inte är dubbletter, klicka Ej dubletter. Paret döljs från framtida sökningar och en Ångra-knapp visas i 5 sekunder om du ångrar dig.

Markeringen lagras i databasen och gäller tills du ångrar den via Ångra-åtgärden.


Poängsystem per entitet

Person

Signal Poäng
Exakt namnmatch 40
Fonetisk match (Carlsson/Karlsson, Wahlström/Vahlström m.fl.) 20
Födelseår matchar (precision: år) 22
Födelseår + månad matchar 25
Exakt födelsedatum matchar 30
Födelseort: koordinater < 500 m 20
Födelseort: församling + land matchar 10
Dödsdatum matchar 15
Könskonflikt (båda satta, olika kön) −30

Standardtröskel: 50. Rekommenderat intervall: 40–80.

Plats

Signal Poäng
Källtext (GEDCOM PLAC-sträng) exakt match 50
Koordinater < 100 m 30
Exakt namnmatch 25
Normaliserat namn matchar (slug) 20
Församling + land matchar 15
Liknande namn (fuzzy) upp till 15

Standardtröskel: 30. Lägre tröskel fångar fler möjliga par — användbart vid stora GEDCOM-importer.

Media

Signal Poäng
Identisk fil (SHA-256-hash) 80
Samma filstorlek 10
Liknande filnamn upp till 20
Samma mediatyp 5

Hashberäkning

SHA-256-hashen beräknas vid första dubblettssökningen och sparas i databasen. Sökning på en stor mediesamling kan ta några minuter första gången. Efterföljande sökningar är snabba.

Standardtröskel: 35. En hash-match (80p) är alltid "hög" konfidiens.

Händelse

Söker bara bland icke-triviala händelsetyper: giftermål, skilsmässa, dop, konfirmation, examen, militärtjänst, emigration, immigration, yrke, pensionering, begravning, folkräkning, bosättning, utbildning och annat. Födelse och död hanteras automatiskt vid sammanslagning av personer.

Signal Poäng
Samma typ + datum + plats 80
Samma typ + datum (ingen plats) 40
Samma typ + plats (inget datum) 25
2 eller fler gemensamma deltagare +15
1 gemensam deltagare +5
Identisk källsträng +20
Delade källcitat +15

Standardtröskel: 60. Höj till 80 om du bara vill se nästan säkra träffar.


Sekventiell sammanslagning

Vid manuell sökning kan du markera fler än två poster. Dialogen öppnas då för de två första, och när du bekräftat den första sammanslagningen öppnas nästa par automatiskt (keeper från föregående steg mot nästa post i kön). Du kan avbryta sekvensen när som helst med Avbryt i dialogen.

Händelsetyp vid sekventiell merge

För händelser kontrolleras att alla poster i kön har samma händelsetyp. Om en post i kön har annan typ hoppas den automatiskt över med ett meddelande.


Tips

  • Börja med lågt tröskel, höj gradvis. Kör en sökning på tröskel 30 för platser för att se volymen. Höj sedan om listan är överväldigande.
  • Taxonomi defaultar till "Lägg ihop båda". Om du vill rensa bort duplicerade importtaggar (t.ex. tng-import-2025-01-01 på båda) välj istället "Behåll keeper".
  • Underhållssidan aggregerar alla entiteter men är bara en genväg till samma dialoger som finns på respektive listsida. Resultaten är identiska.