In einem früheren Blogpost habe ich eine korpuslinguistische Methode zur automatisierten Detektion von ‚Phrasen‘ vorgestellt. Die basiert auf einer sog. Kollokationsanalyse und funktioniert kurz gesagt so, dass in einem Korpus Wortpaare gefunden werden, deren Bestandteile für sich genommen selten, dafür aber recht häufig zusammen vorkommen (und zwar im statistischen Sinne signifikant häufig). Thematisch homogene Korpora wie etwa Liveticker-Korpora sind hierfür ideal, denn wenn bspw. in Livetickern überhaupt von einer Messe die Rede ist, dann wohl immer in der Weise, dass sie (noch nicht) gelesen ist. Der Phrasendetektor findet also Wortverbindungen, deren Komponenten in ihrer wörtlichen Bedeutung thematisch nicht einschlägig sind, dafür aber in genau dieser Kombination idiomatische Bedeutung haben und als Idiome wiederum sehr domänentypisch sind.

Weiterlesen