Eine der faszinierendsten Methoden der Korpuslinguistik ist die Berechnung von sogenannten Word Embeddings. Über die technischen Details kann und will ich hier nicht viele Worte verlieren, aber ganz kurz gesagt setzt die Methode die uralte Hypothese der distributionellen Semantik um: „You shall know a word by the company it keeps.“ Wörter, die in ähnlichen Kontexten vorkommen, haben demnach eine ähnliche Bedeutung.

Durch neuronale Netze stehen heute Technologien zur Verfügung, um eine in distributionellen Termini vorgenommene Beschreibung der Bedeutung von Wörtern auch auf der Basis sehr großer Datenmengen durchführen zu können. Ein populärer Algorithmus ist word2vec, der, wie der Name schon andeutet, Wörter auf Vektoren abbildet und so einen semantischen Raum modelliert. In diesem Raum, so die Idee, liegen bedeutungsähnliche Wörter nah beieinander, so dass man recht einfach Synonyme erheben kann.

Weiterlesen