Geplaatst op 30-01-2012 door Maarten Marx |
Uncategorized | tags:
job opening |
Geen reacties »
The ILPS group at the Informatics Institute of the University of Amsterdam (UvA) has an opening for a postdoc or senior scientific programmer in the ‘Namescape’ project.
We are looking for someone with a background in computational liguistics or AI, with an affinity for literature and the Dutch language.
The project is a collaboration with the Hygens institute for Dutch History and the Institute for Dutch Lexicology (INL) and financed by Clarin-NL. The research concerns the use of named entities within Dutch literature. The aim is to extend a manual pilot project on 20 novels to a fully automatic analysis of a corpus of almost 9000 digitized modern Dutch novels. The project involves named entity recognition, special classification (real vs fictional entities), entity deduplication and modelling co-occurrence of entities.
The project runs for 1 year. For more information, see the research proposal.
Profile: Background in computational linguistics or AI. Experience with Linux, NLP and XML technology.
Level Postdoc or scientific programmer. Salary (depending on education and work experience) between €2.379 and €3.195 a month (before taxes).
Duration 1 year
Start March, April 2012
Information Maarten Marx (maartenmarx@uva.nl)
How to apply? Send your application with CV before February, 15 2012 to maartenmarx@uva.nl with subject “Namescape”.
Geplaatst op 24-01-2012 door Maarten Marx |
Uncategorized | tags:
vacature |
Geen reacties »
Binnen de PoliticalMashup groep aan de UvA is er een vacature voor een wetenschappelijk programmeur binnen het project ‘Namescape’.
Dit project wordt in samenwerking met het Huygens Instituut en het Instituut voor Nederlandse Lexicologie (INL-Leiden) uitgevoerd en is gefinancierd door Clarin III. Het onderzoek binnen het project gaat over het gebruik van namen (named entities) in Nederlandstalige literatuur. Dit onderzoek is gestart door Karina van Dalen van het Huygens. Zij heeft een voorbereidende handmatige pilotstudie gedaan dat in dit project groot en zoveel mogelijk automatisch wordt voortgezet.
Het INL heeft een corpus van meer dan 500 Nederlandstalige romans en gaat daarin de named entities herkennen en classificeren. De UvA zal zich bezig houden met een extra verfijning van de categorisering naar fictieve en echte entiteiten, deduplicatie van gevonden entiteiten, het verbinden van de gevonden entiteiten met Wikipedia en met het opzetten van een analyse en visualisatie omgeving. De visualisaties maken gebruik van de barcode browser techniek ontwikkeld aan de UvA en een combinatie van netwerk visualisaties met woordenwolken. De analyse omgeving zal bestaan uit een XML database systeem (eXist) met XQuery support.
Met deze analyse omgeving zal het Huygens het gebruik van namen in de 500 geannoteerde romans gaan onderzoeken.
Het project levert het volgende op:
- een verrijkte publicatie over het naamgebruik in Nederlandstalige literatuur (Huygens,INL,UvA);
- een webapplicatie waarin men een Nederlandstalige roman in PDF formaat kan inladen waarin dan vervolgens de named entities worden herkend en verbonden met Wikipedia (INL);
- een webgebaseerde analyse omgeving waarin men het naamgebruik in de 500 romans kan onderzoeken (UvA);
- per roman, een visualisatie van het colocatie netwerk van de genoemde entiteiten (Huygens, UvA).
De looptijd van het project bedraagt 1 jaar. Voor verdere informatie over het project zie het onderzoeksvoorstel (samenvatting).
Profiel: Achtergrond in computationele linguistiek, kunstmatige intelligentie of informatica. Affiniteit met de Nederlandse taal. Ervaring met Linux, XML (XQuery en/of XSLT) en werken met tekstuele data.
Niveau Wetenschappelijk programmeur of Postdoc. Het salaris bedraagt, afhankelijk van opleiding en werkervaring, minimaal €2.379 en maximaal €3.195 bruto per maand (maximaal salarisschaal 10.7 van de CAO Nederlandse Universiteiten) bij volledige werktijd.
Dienstverband: 1 jaar .75 fte (kan in overleg ook anders ingevuld).
Aanvang dienstverband: 1ste kwartaal 2012
Inlichtingen Maarten Marx (maartenmarx@uva.nl)
Hoe te solliciteren? Stuur voor 15 Februari 2012 een sollicitatiebrief voorzien van CV per email naar maartenmarx@uva.nl.
Geplaatst op 16-12-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
The ILPS group at the UvA participates in 3 awarded Clarin grants. Each project is a cooperation between researchers from the humanities and computer science. The ILPS group received funding for 26.5 person months in total.
- BILAND Towards a flexible and stable CLARIN-supported web-application for bilingual historical analysis of discourses in news media. Utrecht-University, ILPS-UvA, and others.
- Namescape Mapping the Landscape of Names in Modern Dutch Literature.
Huygens/ING, INL/Leiden, ILPS-UvA.
- Verrijkt Koninkrijk Creating a digital version of Loe de Jong’s Het Koninkrijk der Nederlanden in de Tweede Wereldoorlog. NIOD, ILPS-UvA, VU, Meertens.
Geplaatst op 24-11-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
The 2011 Paul Bernays Award is awarded by the Swiss Society for Logic and Philosophy of Science and sponsored by the Swiss Academy of Sciences. It awards a young researcher for an outstanding contribution in the area of logic and philosophy of science. Alessandro won the price with his dissertation: “A study on the expressive power of some fragments of the modal mu-calculus”. More information can be found at http://www.sslps.unibe.ch/Bernays.html.
Alessandro Facchini recently joined the UvA as a postdoc on the Foundations of XML project. He is currently working with Evgeny Sherkonov, Yoichi Hirai and Maarten Marx on extensions of Tree patterns with second order operators like the Kleene star.
Geplaatst op 24-11-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
The NRC of 2011-10-29 contained an
interview with James Pennebaker about his Linguistic Inquiry and Word Count (LIWC) text analysis program. In contrast to other text analytics does LIWC focus on the use of common function words like pronouns.
LIWC has been used to analyse a range of data, including political speeches (of American presidents).
An interesting aspect is that LIWC is translated into 10 languages, among them Dutch.
This makes a diachronic comparative study with LIWC of the parliamentary proceedings within the PoliticalMashup corpus possible. A nice start would be to work on the two largest parallel corpora: UK and NL from 1935 to 1995.
Links
Geplaatst op 07-11-2011 door Maarten Marx |
Uncategorized | tags:
Position |
Geen reacties »
The ILPS group of the Informatics Institute at the University of Amsterdam has a fully funded PhD position (4 years) on the topic of Data integration and exchange, knowledge base integration and schema mappings.
The PhD position is funded through the EU FP7 ENVRI project, which aims to facilitate sharing and reuse of data among environmental research institutions.
More information
| lees verder…
Geplaatst op 29-09-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
Paper published at the ACM Hypertext 2011 conference.
Abstract
This paper addresses the following research aim: provide a useful but succinct summary of long narrative events involving the interaction of several speakers. The summary should enable users to navigate to specific parts of the event using hyperlinks.
Our solution is based on a representation of the main actors of the event and their interactions as a social network. The solution is applicable to events in which these interactions are more or less formally structured and detectable. This includes theatre and radio plays, recordings of a scientific workshop, proceedings of parliament and meetings notes in general.
Reference
Bart de Goede, Maarten Marx, Arjan Nusselder, and Justin van Wees. 2011. Succinct summaries of narrative events using social networks. In Proceedings of the 22nd ACM conference on Hypertext and hypermedia (HT ‘11). ACM, New York, NY, USA, 299-304. DOI=10.1145/1995966.1996005 http://doi.acm.org/10.1145/1995966.1996005
Geplaatst op 05-09-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
The thesis of Gilles den Hollander was turned into a paper which was presented at CSSE 2011.
- Access to paper at IEEE Xplore
Abstract
In this study parsimonious language models were used to construct word clouds of the proceedings of the European Parliament. Multiple design choices had to be made and are discussed. Important features are stemming during tokenization, including bigrams into the word cloud and multilingualism. Also, the original parsimonious language models were extended with an additional term dampening unigrams that already occurred in the word cloud. This algorithm was tested in a small user study, using proceedings of the University of Amsterdam Science faculty’s student council. Members of this council had to give their preference for multiple word clouds constructed using either parsimonious language models or simple Term Frequencies (TF) with stop words. 68% over 29% (p <;60; 0.05, two-tailed paired t-test) preferred the word clouds constructed using parsimonious language models. Beside the system design, further technical findings, the social significance of applying word clouds to political data and possibilities for future work are discussed.
Geplaatst op 05-07-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
PoliticalMashup is een samenwerking begonnen met de Haagse afdeling van NRC Handelsblad.
Het eerste artikel, over de werkzaamheden van de oude en nieuwe Kamerleden in het eerste jaar van het Kabinet Rutte, verscheen op zaterdag 2 Juli. Alle feiten zijn terug te vinden op een speciale website: http://nrc.nl/denhaag/.
Geplaatst op 02-05-2011 door Maarten Marx |
Uncategorized | |
Geen reacties »
Mattia Tomasoni visits ILPS on May 10 and 11. He might come to work with us as a PhD student. Mattia gives a talk on the topic of his 2010 ACL paper in an improvised ILPS seminar.
If you want to meet up with him, mail him at tomasonimattia@googlemail.com. He is with us the full two days.
Time and place: May 10, 10.30-11.15 Room A1.08.
Title: “Summarization in Yahoo! Answers”
Abstract:
“The objective of my MSc thesis was to automatically summarize information crawled from the Yahoo! Answers website with the purpose of generating trustful, complete, relevant and succinct summaries in response to users’ questions.
Unfortunately, information found online is often redundant, noisy and untrustworthy; interestingly, though, content generated by actual individuals (rather than published by an editor) contains metadata that can be exploited (i.e. machine learned) to overcome those very same difficulties!
To this end, my former supervisor and I devised four “metadata-aware measures for answer summarization”: Quality, Coverage, Relevance and Novelty. How they are defined, calculated, combined and finally evaluated will be the topic of my talk.”
Link to paper http://portal.acm.org/citation.cfm?id=1858759 (paper at ACL 2010)
« eerdere stukken