Monthly Archives: February 2013

Adding semantic similarity features to coreference resolution

Instead of a proposed project idea I’ve noted below the abstract of my bachelor’s project’s paper.

In automatic coreference resolution the object is to identify when two noun phrases refer to the same entity in the world. In this paper we use the Dutch language Knack-2002 coreference annotated corpus and example-based supervised machine learning to expeximent with adding semantic similarity features to the standard set of linguistic features used in previous work. We use the FROG language parser to extract standard features and the Cornetto database to add features for WordNet semantic classes and three semantic similarity metrics based on work by Lin (1998), Jiang and Conrath (1997) and Resnik (1995), respectively. Performance is tested using TiMBL’s k Nearest Neighbors algorithm on the data split into sets with common noun, proper noun and pronoun anaphors; we find the F-score improves from 0,299 to 0,325 in the common noun data but discern no difference in the other conditions.

The psychological influence of human-like designed autonomous robots on humans

In the future autonomous robots will be more and more part of our daily lives. How they will influence our lives is a much speculated topic. In our western society it is not uncommon that people associated autonomous robots with taking over the world as shown in the movie “Terminator”. In countries like Japan they are viewed more as friendly helpers which we see back in the human-like design of some autonomous robots (humanoids).
I would like to discover the difference in behavior of humans towards autonomous robots based on how human-like the robot is designed. Do people trust them more if they are more human like? Do people feel more anxious when they are hard to distinguish from real persons? Is the reaction towards these robots cultural depended?

All these questions are too much for one research so only one aspect will be researched. Namely which design of an autonomous robot is more positively judged when performing the same task with approximately the same results?

The research will be performed by using 4 robots which vary in degree of human-likeliness. The subjects will be told that four different research groups each have developed an autonomous robot and they are in a test group judging there performance. The robots will perform various tasks in a household environment and at the end the subjects will be asked to rate the performance of the robots in a questionnaire. These ratings will be questions like: “Did you feel comfortable when the robot …”. So the rating is subjective to the judgment of the subject and not something absolute like precision. What they don’t know is that the robots functionality and AI is almost the same. So the time needed to perform the task and which methods they use will almost not differ. The robots in Image 1 serve as a general impression for the human-likeness of the robots. These are not the actually robots used in the experiment.
The difference in judgment will be assigned to difference in human-likeliness.

Autonomous-robots_human-like-progression_letter_2
Image 1: Illustrating the progression from not-human-like (a) to human-like (d)

Verschil in ruimtelijk inzicht tussen mannen en vrouwen?

Een van de vooroordelen over het verschil tussen mannen en vrouwen is dat mannen beter hun
positie en richting kunnen bepalen binnen een groot en dicht gebouw. Iedereen die wel eens in de
Nijenborgh 4 op het Zernike is geweest, zal ongetwijfeld wel eens verkeerd hebben ingeschat waar
het noorden is of waar in het gebouw hij/zij zich bevindt.
In dit onderzoek wordt het verschil tussen het vermogen van mannen en vrouwen om deze 2 dingen
in te schatten bepaald. Proefpersonen krijgen van tevoren te horen waar het noorden is en worden
daarna een gebouw ingeleid met veel bochten en trappen. Vervolgens moeten ze aangeven waar ze
denken dat het noorden is en daarna krijgen ze een plattegrond waarop ze kunnen aangeven waar
ze denken te zitten. De proefpersonen worden random uit de populatie gehaald om te voorkomen
dat er in een van de groepen vooral mensen zitten met bepaalde kwaliteiten.
Omdat er geen bewijs is om aan te nemen dat een van de twee geslachten beter is in deze taak
dan de ander, wordt aangenomen dat er geen verschillen zijn tussen de groepen, dit is dus de
nulhypothese.

Het effect van verschillende genres muziek op de studieprestaties

Image 

Intro:

Wie doet dat nou niet tijdens het studeren? Lekker muziek op zetten om je af te zonderen van de buitenwereld en je volledig te kunnen concentreren op je studie werk. 

Alweer twee jaar geleden tijdens het studeren voor mijn eindexamens op van het VWO vond ik het erg interessant om te onderzoeken hoe goed ik mij kon concentreren bij bepaalde tracks van verschillende soorten muziek. De vraag is mij altijd bij gebleven: Welk muziek genre is nou het meest prestatie verhogend tijdens het studeren?

Onderzoeksvraag:

Om deze vraag te beantwoorden wil ik graag mijn bachelor project wijden aan dit onderwerp. Mijn onderzoeksvraag luidt dan ook: Wat heeft een bepaald soort genre muziek tijdens het studeren voor invloed op de studieprestatie?

Om dit te realiseren neem ik een grote groep eindexamenkandidaten van middelbare scholen in heel Nederland. Dit omdat de eindexamens exact zijn voor een grote groep mensen. Volgens het CBS(1) zijn er in schooljaar 2010/11 ongeveer 180.000 eindexamenkandidaten geweest. Verdeeld over vier verschillende niveau’s: VWO, HAVO, VMBO-g/t, VMBO-b/k. Om een realistische distributie te krijgen neem ik een onderzoeksgroep van 45.000 eindexamenkandidaten. Deze groep moet zo groot zijn omdat er sprake is van vele externe variabelen.

De afhankelijke variabele is het cijfer wat wordt behaald op een eindexamen.

De onafhankelijke variabelen zijn een aantal muziek genres die worden beluisterd tijdens het studeren voor het eindexamen. 

  • Klassiek
    • Instrumentaal
    • Zang
  • Techno
    • Instrumentaal
    • Zang
  • Rock
  • R&B
  • Hardcore

Met als controlegroep een deel kandidaten die geen muziek luistert tijdens het studeren. 

Hypothese:

Mijn persoonlijke ervaring tijdens het studeren is dat ik het beste kan concentreren met klassieke muziek en techno. En bij beide genres dan wel louter de instrumentale nummers. 

In het algemeen denk ik dat instrumentale techno niet iedereen bevalt omdat je het toch moet leren waarderen. Mede hieruit volgt mijn hypothese: Het genre muziek met het grootste positieve invloed op de studieprestatie is instrumentaal klassiek.

Om dit onderzoek uit te voeren stuur ik geruime tijd voor de eindexamens naar alle kandidaten een brief met uitleg over het onderzoek en de vraag of ze willen participeren. Ook vraag ik om hun favoriete muziek genre om dit wellicht te koppelen die persoon.

Hierna stuur ik ze een brief met het genre wat ze gedurende de studietijd zullen beluisteren. Na de examen uitslagen verzamel ik alle behaalde resultaten en voeg ik ze samen in een dataset waarbij elk behaalde resultaat wordt onderverdeeld in het desbetreffende muziekgenre wat tijdens het studeren is geluisterd.

(1) http://statline.cbs.nl/StatWeb/publication/?VW=T&DM=SLNL&PA=80122NED&LA=NL

The influence of language on calming down people

When a person is in a state of distress or fear, that person is usually calmed down using reassuring words, spoken in a soothing tone. This is done fromm the moment we are born, so we are used to this. Some scientists claim this has mostly to do with the tone, intonation and inflection of the spoken text, and not the words themselves. In this project, the question is asked whether it matters if the person that needs reassuring knows the language in which is reassured or not.

In asking this question, we are not paying attention to the fact that languages differ not only in words, but also in sounds. What I want to do with this knowledge, I do not yet know. I could do two things: first, I could try to use a testing language which is of a similar sound-type or language family (French-Spanish, Dutch-German etc.). Second, I could also try to choose the language in such a way that the focus difference is on the sounds, and that there is no obvious correlation between languages (English-Swahili, Dutch-Mandarin etc.). This second option is easier to control, and as it is less probable that people know anything of the other language, there is less interference from background knowledge. I think it more probable that people be calmed by a known language than an alien one, because when in a state of distress people tend to long for something familiar.

As a start, a group of testsubjects will have to be brought into a state of distress. This could be done, for example, by telling them about violent crimes of the past, or of (fictive) threats towards them. The effect should be easily verifiable, for example by using an EEG or another type of brainscan. Next, the subjects should be divided into two groups, the ‘local’ group and the test group. The text and intonation used to calm the subjects should be identical in both groups. In trying to calm the subjects down, only a direct translation from the original text should be used. Also, all the participants should be unfamiliar with the testing language, which should be the same in all cases. As the subjects are being calmed, the same brainscan should be made so differences can be noted. After noting all, the subjects should answer a questionnaire describing how soothed they felt by the soothing session. These results should be analysed and compared, after which it is possible to draw a conclusion to the reasearch question.

Koffie en cognitie

Koffie valt tegenwoordig niet meer weg te denken uit het dagelijks leven. Veel mensen claimen zelfs niet te kunnen presteren zonder hun ‘morning coffee’. De reden hiervoor is dat koffie een tijdelijke boost geeft aan de cognitieve vaardigheden, wat hard nodig kan zijn op een vroege ochtend. Aan de andere kant kan te veel koffie juist leiden tot concentratieproblemen, en deze hebben juist een negatief effect op de cognitieve vaardigheden.

Het lijkt er op dat er een optimale hoeveelheid koffie is voor elke situatie. Vandaar dat mijn onderzoeksvraag luidt: is het mogelijk om deze optimale hoeveelheid enigszins te voorspellen?

De situatie waarover gesproken wordt is echter van veel factoren afhankelijk. Eerder is het tijdstip van de dag al opgemerkt. Andere factoren om aan te denken zijn de moeilijkheid van de te verrichten taak of de hoeveelheid slaap die een proefpersoon heeft gehad.

De manier waarop ik dit kan testen is door verschillende groepen proefpersonen onder invloed van verschillende hoeveelheden koffie (aantal koppen) een puzzel te laten oplossen. Omdat het per persoon verschilt wanneer de caffeïne in de koffie precies begint te werken, zal de puzzel pas worden afgenomen zodra de proefpersoon voelt dat de koffie is gaan werken. De tijd die het duurt tot deze puzzel is opgelost is de data waar het uiteindelijk om draait: de groep die gemiddeld het snelst de puzzel oplost, zit het dichtst bij de optimale hoeveelheid.

Coreference Resolution in niet-Indo-Europese talen

Een van de grootste uitdagingen in de Kunstmatige Intelligentie is het ontwikkelen van een systeem dat natuurlijke, menselijke taal kan verwerken, begrijpen en produceren. Dit wordt vaak samengevat onder de noemer ‘Natural Language Processing (NLP)’. Dit vakgebied combineert computationele taalkunde, informatica en kunstmatige intelligentie. Binnen NLP zijn er nog erg veel subgebieden die elk hun eigen uitdaging vormen, en het subgebied waar ik me op wil richten is ‘coreference resolution’. Coreference resolution houdt zich bezig met het identificeren en linken van noun phrases in een tekst die aan hetzelfde refereren.

Er is al veel onderzoek gedaan naar coreference resolution en er worden steeds meer features ontdekt die informatie bieden over de correcte interpretatie van verwijzende NPs, d.w.z. features waaruit afgeleid kan worden naar welke entiteit een refererend NP verwijst. Omdat het meeste onderzoek gedaan is naar Indo-Europese talen, en met name Germaanse talen, zijn de geïdentificeerde features ook specifiek voor deze talen. Ik wil een ander type talen onderzoeken en kijken of daar dezelfde features een rol spelen, of dat hier andere features belangrijker zijn. Dit andere type talen is de Finoegrische talen (o.a. Fins, Hongaars en Estisch), die in tegenstelling tot de Indo-Europese talen een sterk agglutinatief karakter hebben, een uitgebreider naamvalsmarkeringssysteem gebruiken dan de meeste Indo-Europese talen, geen grammaticaal geslacht kennen en vaak een vrije woordvolgorde hebben. De onderzoeksvraag luidt dus als volgt: Welke features zijn belangrijk voor coreference resolution bij de Finoegrische talen, en hoe verhoudt dit zich tot de features die bekend zijn in de literatuur?

Om dit te onderzoeken zal eerst de bestaande literatuur op het gebied van coreference resolution verkend moeten worden, en daarnaast zal er specifiek gezocht moeten worden naar literatuur op het gebied van niet-standaard talen. Om features te identificeren zal er een coreference resolution programma ontwikkeld moeten worden, dat kijkt naar features die voor deze talen mogelijk relevant zijn. Dit zal dan getest moeten worden tegen een of meerdere corpora. De meest voor de hand liggende talen zijn Fins, Hongaars en Estisch, omdat dit officiële EU-talen zijn en deze dus voorkomen in het Europarl corpus. Daarnaast zullen deze corpora geannoteerd moeten worden, als er nog geen geannoteerde corpora voor deze talen bestaan. Vervolgens zal het coreference resolution getest worden op data uit deze corpora en de resultaten vergeleken worden, op basis van de features die gebruikt worden. Hierdoor kunnen vervolgens de belangrijkste en beste features geselecteerd worden.

Invloed van tijdstip op leren

Een belangrijk tentamen de volgende ochtend. Het beste kun je misschien de hele dag leren, maar je hebt nog zo veel andere dingen te doen. Kun je beter ‘s avonds laat leren zodat er weinig tijd tussen het leren en het tentamen zit of is ‘s ochtends vroeg beter omdat het tentamen ook ‘s ochtends is? Het zou handig zijn om te weten welke keuze de beste keuze is om de volgende dag je tentamen goed te maken.

 

De onderzoeksvraag hierbij is: “Welk tijdstip kun je het best leren zodat je de volgende ochtend het meest hebt onthouden?”

Mijn eigen hypothese is dat het beter is om ‘s avonds te leren, omdat er dan minder tijd en activiteiten tussen het leren en herinneren zullen zitten en ik denk dat dit het resultaat ten goede zal komen.

 

Deze onderzoeksvraag zal getest worden door proefpersonen onlogische patronen te leren, zodat er geen sprake zal zijn van voorkennis. De proefpersonen zullen in twee groepen worden opgedeeld, waarbij beiden groepen om 09:00 op de kennis getest zal worden, terwijl er de dag ervoor op verschillende tijden geleerd zal worden. De eerste groep zal om 09:00 leren, terwijl de tweede groep om 21:00 zal leren. Dit experiment zal voor elke proefpersoon herhaalt worden, zodat er voor elk proefpersoon resultaten op elk tijdstip is. Om te voorkomen dat de proefpersonen beter worden in het leren zal hier genoeg tijd tussen moeten zitten en zullen er verschillende volgordes aangehouden worden.

Zinnen genereren op basis van trefwoorden door representatie in een gerichte graaf

Software dat zinnen genereert die syntactisch correct zijn bestaan al en worden al veel toegepast in diverse programma’s. Er is echter nog veel ruimte voor verbetering. Met de meeste zinnen heeft software niet veel problemen. Maar bij sommige zinnen gaat het toch nog wel eens fout. Hoe geavanceerder de software, hoe minder fouten worden gemaakt. De gebruikelijke aanpak om een zin te genereren die syntactisch correct is, is door middel van een parse tree. Een parse tree is een boomstructuur die klopt volgens de grammatica van de taal. Deze boomstructuur wordt vervolgens opgebouwd door substitutieregels. Nadelen van deze representatie is dat de grammatica per taal formeel moet worden gedefinieerd. Het probleem hiermee is dat een natuurlijke taal zonder goede vastgestelde regels is gedefinieerd, en er zijn vele uitzonderingen.

Het moet mogelijk zijn om een systeem te maken dat zelf een natuurlijke taal kan leren aan de hand van voorbeeldzinnen. Een neuraal netwerk zou hiervoor een oplossing kunnen zijn. Echter is er geen enkel inzicht in zo een neuraal netwerk. Dit maakt het lastig om dat netwerk te koppelen aan een ander systeem.

Het doel van dit onderzoek hierbij is de vraag of het mogelijk is om zo een systeem te maken dat zinnen automatisch aanleert op basis van een corpus met voorbeeldzinnen en op basis van trefwoorden syntactisch correcte zinnen kan genereren. Een mogelijke aanpak voor dit systeem is zinnen te representeren als een graaf. Hierbij is elk punt in de graaf een uniek woord. De woorden zijn met elkaar gekoppeld via pijlen. Vervolgens wordt met behulp van een padvinder een pad gezocht met de hoogste score gegeven de trefwoorden. De trefwoorden kunnen in de graaf worden gezien als waypoints. Dat zijn verplichte punten om bij langs te gaan in een bepaalde volgorde. De score van een pad wordt bepaald door de inverse van het aantal punten min het aantal waypoints plus het aantal pijlen dat al eerder langs de punten zijn geweest. De eigenlijke onderzoeksvraag is: Is het mogelijk met deze aanpak een zin te construeren aan de hand van gegeven trefwoorden op basis van een voldoende grote corpus met syntactisch correcte voorbeeldzinnen.

Om deze onderzoeksvraag te testen zijn twee ingrediënten vereist. Ten eerste is een voldoende aantal grammatisch correcte zinnen, een corpus nodig. En ten tweede een aantal testzinnen om de kennis en mogelijkheden van het systeem te testen. Cross-validation zal een belangrijke techniek zijn om dezelfde corpus te gebruiken om het systeem zowel te trainen als te testen. Indien vervolgens een voldoende significant aantal zinnen wordt getest nadat het systeem is getrained, kan worden getest of het systeem voldoet aan de eisen. Deze eisen worden van te voren vastgesteld naar een bepaalde verwachting. Dit is van te voren onzeker omdat de keuze van trefwoorden van groot belang is bij het genereren van een zin. Er zullen dus veel zinnen worden gegenereerd die niet aan de originele zin gelijk zijn, echter nog wel correct zijn.

What can you do for me, Siri?

Image

There has been a lot of development in speech and language recognition in the last two decades. However researchers must still find good methods for testing because measuring progress in speech recognition is difficult. Some speech recognition tasks are much more difficult than others. Error rates on some tasks are less than 1%, on others it can be higher than 50%. Sometimes it even appears that performance is going backward as researchers perform harder tasks on their ASR-systems that have higher error rates. I will test the speech recognition and intelligent searching capabilities of one particular system: Apple’s Siri.

 

Siri is the personal assistant for modern iOS devices and it supposed to understand and answer requests spoken in natural language. You can make requests as asking for a whether forecast, restaurants nearby, sport results, movie critiques and various facts. It uses several databases like Yelp, Rottentomatoes, Wolfram Alpha, Google Maps and Google Search for retrieving the right information. The skills of Siri focus thus on translation of spoken words into text as well as filtering the right information out of these databases in order to get you what you want. Additionally the conversations with Siri all happen in natural language.

 

For participating in my research project test subjects will get one of the following devices for free: iPhone 5, iPhone 4S, iPad with Retina Display, iPad mini or iPod touch 5th generation (if they do well, they get all of them). However before fully enjoying them, for two weeks they must use a variety of Siri’s functions as often as possible and protocol the outcomes (did they get what they asked for?). The results will of course be influenced by a lot of variables, like the language which is used (English, German, French, Japanese), the task Siri must perform and if Siri can guess from the context what the speaker meant or not. Other possible forms of influence may be the background noise/environment and the time they spent already training Siri. When analysing the results I have to distinguish between pure speech recognition fails and errors in receiving the requested information.