Duplicaten in de Polidocs data
Zowel bij de kamervragen als in de handelingen kan het voorkomen dat “hetzelfde” document meerdere malen in de resultatenlijst van PoliDocs voorkomt. Ook zijn moties zowel in de Handelingen (als ze worden voorgelezen in de Kamer), als apart in de Moties te vinden.
Dit zijn kinderziektes die wel op te lossen zijn, maar niet helemaal uit te bannen. Dit komt voornamelijk omdat de betekenis van “hetzelfde” niet altijd, ja, …hetzelfde is. Wat voor een mens hetzelfde is, is het vaak niet voor een machine.
Handelingen
Bij de handelingen krijgen we duplicaten in de Parlando data omdat Kamer vergaderingen in Parlando worden opgeknipt in onderwerpen, en voor elk onderwerp wordt er een PDF gepubliceerd. Hierbij kan het voorkomen dat een spreker op de laatste bladzijde van een PDF ook weer op de eerste bladzijde van een andere PDF komt te staan.
Ook worden er naast de PDF’s van de losse onderwerpen ook PDF’s van de hele vergadering gepubliceerd, waarbij dus ook weer dubbele voorkomens ontstaan. Hier is dus de tekst echt hetzelfde, maar de bron is anders. Een leuk voorbeeld vind je als je zoekt of geroffel bankjes
Kamervragen
Kamervragen in Parlando bestaan vaak uit meerdere PDF’s: de oorspronkelijke vragen, dezelfde vragen met de antwoorden, eventueel een mededeling dat het antwoord nog wat op zich laat wachten, nadere antwoorden. Binnen PoliDocs bundelen we die samen in, wat we noemen, een dossier, waarbij we ons baseren op het kamervraagnummer. De tellingen die we geven tellen dossiers.
Reageer