IISG/Triply Pilot

Tussentijdse Resultaten

12 juli 2016
Wouter Beek (wouter@triply.cc)

Taken

  1. Data conversie
  2. Data transformatie
  3. Data opschonen
  4. Data integratie

№.1 Data conversie

  • XML → Linked Data
  • CSV → Linked Data
  • Shapefile → Linked Data

№.2 Data transformatie

Syntax → Semantiek:

№.3 Data opschonen

IISG data bevat weinig fouten

Vooral nodig voor integreren met externe bronnen

Werd er in windermaanden minder gestaakt dan in andere maanden?

№.4 Data integratie

Linken naar externe bronnen

Stappenplan:

  1. Named Entity Detection (NED)
    Bijv: “Abraham Kuyper”
  2. LOTUS (Semantic Search Engine)
    Bijv: “Abraham Kuyper” → http://wikidata.org/entity/Q320014
  3. Identity lookup
    http://freebase.com//m/01sjxmdbr:'Abraham_Kuyper' → …
  4. Kennis binnenhalen (demo)

Externe bronnen

Problemen

  1. Structuur
  2. Causaliteit
  3. Herkomst
  4. Granulariteit
  5. Long tail

№.1 Te weinig structuur

Kolom “Company”:

ADM [Amsterdam ( Noord-Holland )]; Alker [Waalre ( Noord-Brabant )]; …

Kolom “Totals”:

Companies involved: 100; Number of actions: 1; Strike days: 100000; Workers involved: 100000
(link)

№.2 Causaliteit

Events ontvouwen zich over de tijd en hebben causale relaties

Voorbeeld:

  • De ‘eigenlijke’ spoorwegstaking (januari 1903)
  • “De spoorwegstaking sloeg over naar het trampersoneel” (1 februari 1903) (link)
  • Verweer tegen ‘worgwetten’ (20 februari 1903) (link)

№.3 Herkomst

‘Provenance’ voor uitspraken/data (voorbeeld)

№.4 Long-tail probleem

Er is te weinig data om betrouwbare links te leggen voor alle behalve de meest voorkomende events en objecten.

Bijvoorbeeld: 2-daagse staking bij Magneet in Weesp vanaf 15 februari 1930 (demo)

№.5 Granulariteits-niveau

Wat is “de spoorwegstaking van 1903”?

  • Één ‘hoofd’-event?
  • Een keten van events?

TODO

  • Weergave benodigde tijd/inzet door Triply.
  • Inschatting tijd/inzet door IISG.

Out of scope

  • Uniforme search engine
  • Gevanceerde visualizatie
  • Integratie met bestaande tools