Im vorangegangenen Blogpost „Football Word Embeddings“ habe ich gezeigt, wie man mit dem Algorithmus Word2Vec ein Korpus von Fußballlivetickern in lexikalischer Perspektive datengeleitet erschließen kann. Jetzt habe ich mit dem großartigen Tensorflow Embeddings Projector eine Möglichkeit entdeckt, das Modell zu visualisieren und – das ist das beste daran – auch für andere zur Verfügung stellen zu können.
WeiterlesenMonat: Oktober 2021
Eine der faszinierendsten Methoden der Korpuslinguistik ist die Berechnung von sogenannten Word Embeddings. Über die technischen Details kann und will ich hier nicht viele Worte verlieren, aber ganz kurz gesagt setzt die Methode die uralte Hypothese der distributionellen Semantik um: „You shall know a word by the company it keeps.“ Wörter, die in ähnlichen Kontexten vorkommen, haben demnach eine ähnliche Bedeutung.
Durch neuronale Netze stehen heute Technologien zur Verfügung, um eine in distributionellen Termini vorgenommene Beschreibung der Bedeutung von Wörtern auch auf der Basis sehr großer Datenmengen durchführen zu können. Ein populärer Algorithmus ist word2vec, der, wie der Name schon andeutet, Wörter auf Vektoren abbildet und so einen semantischen Raum modelliert. In diesem Raum, so die Idee, liegen bedeutungsähnliche Wörter nah beieinander, so dass man recht einfach Synonyme erheben kann.
Weiterlesen