English Georgian Parallel Corpus

Geplaatst op 26-11-2013 door Maarten Marx | data, TI | tags: , , | comment image Geen reacties »

We created a Georgian English parallel corpus by crawling the Georgian news site http://civil.ge. This site contains over 26 thousand news stories in both English and Georgian. The first one is from November 2002.
Such parallel corpora are the source of automatic machine translation software like Google Translate.
The fact that Google Translate (at the time of writing) makes a mistake with translating საქართველოს (the genitive of “Sakartvelo”, the Georgian word for Georgia) shows that such parallel corpora are still useful.
All data mentioned in this blog post is available in a zip file (32M).
| lees verder…

Wie zegt wat en wanneer in het Nederlandse Parlement?

Geplaatst op 25-03-2011 door Maarten Marx | data, parliament | tags: | comment image Geen reacties »

PoliticalMashup heeft een database beschikbaar gemaakt met daarin alle woorden gezegd door elke politicus in het Nederlandse parlement in de periode 1814-2010. Per politicus zijn per dag al zijn of haar uitgesproken teksten beschikbaar.
Het gaat om mensen die of in het Nederlandse Parlement of in de regering hebben gezeten. Dit zijn allemaal mensen die voorkomen op parlement.com.
De gegevens zijn gehaald uit de Handelingen in XML formaat zoals die gemaakt zijn door PoliticalMashup.
De data is beschikbaar op http://data.politicalmashup.nl/politici/nl_words/.
| lees verder…