Datenberge erklimmen mit Text Mining

Das Zeitalter Big Data konfrontiert uns mit einer Fülle an digitalen Informationen. Allein mit dem menschlichen Verstand die Masse an Textinhalten bzw. deren Zusammenhänge zu verstehen, ist heute nicht mehr zuverlässig möglich. Text Mining erleichtert das Erschließen zahlreicher unstrukturierter Dokumente und Texte, so dass relevante Informationen und genaue Analysen auch aus großen Datenmengen mit wenig Zeitaufwand gewonnen werden. Unterstützt von Software können Dokumente nicht nur selektiert, relevante Inhalte und Zusammenhänge extrahiert werden, sondern auch Muster und Trends erkannt werden.

Auch in der Wirtschaft und im Management hat das Text Mining für Unternehmen an Bedeutung gewonnen und kann Potenziale auf mehreren Geschäftsebenen entfalten wie z. B. das Konkretisieren oder Erweitern von Unternehmenszielen oder dem Reputations-Management.Maria, die Computer-Linguistin von EDAG PS, hat uns im Gespräch ein paar Einblicke zu Text Mining aus ihrem Tätigkeitsbereich gegeben.EDAG PS Computer Linguistin am ArbeitsplatzEDAG-PS-Redaktion: Wie kommt man auf die Idee Computer-Linguistin zu werden?

Maria: Ich habe Germanistik studiert und wollte unbedingt einen technischen Master machen, weil ich programmieren oder näher am Zeitgeist sein wollte. Und: Ich wusste irgendwann im ersten Studium, dass ich keine Lehrerin werden will.

EDAG-PS-Redaktion: Wie kommt man als Computer-Linguistin zu einem Engineering-Dienstleister?

Maria: Mit meinem Spezialwissen kann ich sicher für besondere Momente sorgen. Außerdem ist Arbeit heute ja vor allem interkulturell und interdisziplinär und da kann ich im Engineering mit meiner Spezialisierung auf Sprache etwas Besonderes beisteuern. Sprache ist vielseitig und ambivalent und manchmal etwas rätselhaft.

EDAG-PS-Redaktion: Wie schätzt Du als Linguistin die Sprachkompetenz von Ingenieuren ein?

Maria: Für besser als allgemein gedacht. Es gibt auch unter Technikern und Ingenieuren viele talentierte Schreiber und Redner.

EDAG-PS-Redaktion: Lass uns über das Kerngeschäft von Computer-Linguisten reden: Sprachtechnologie. Was ist Text-Mining?

Maria: Oben habe ich ja schon sowas gesagt wie: „Sprache ist ambivalent“. Vereinfacht gesagt hat Sprache Strukturen und Regeln, die man mit Computerprogrammen auswerten kann. Da gibt es übrigens viele… Ich selbst arbeite am liebsten mit R und R-Studio, das ist freie Software, bei der man noch weiß, was unter der Haube passiert. Die R-Community stellt für ganz vielfältige Problemstellungen Pakete bereit,die man kostenlos nutzen kann.

EDAG-PS-Redaktion: Mit welchen konkreten sprach-technologischen Anwendungen kann man Menschen im technischen Umfeld glücklich machen?

Maria: Mir fällt in der Technik immer wieder auf, dass verschiedene Gesprächsteilnehmer unterschiedliche Benennungen für die gleichen Begriffe haben und dass im Gespräch ausverhandelt werden muss, worum es genau geht. Eine total naheliegende linguistische Analyse ist eine sogenannte lexikalische Analyse. Wir extrahieren aus verschiedenen Quellen wie Internet, Intranet und Dokumenten auf den Servern Text und schauen uns den verwendeten Wortschatz an. Für eine solche Analyse habe ich hier einen kleinen Srceencast produziert  am  Beispiel einer Wordcloud, bei der große Häufigkeiten durch große Fontgrößen betont werden:

Screencast wordcloud

PLAY

EDAG-PS-Redaktion: Ah, sehr interessant! Das sieht sehr einfach aus. Kann das jeder laufen lassen?

Maria: Es braucht schon eine kompetente fachliche Instanz. Jemand, der das wirklich interpretieren kann oder schaut, wenn es „merkwürdige“ Ergebnisse gibt.

EDAG-PS-Redaktion: Was macht man jetzt mit diesen Wortlisten?

Maria: Jetzt fängt die Arbeit erst an. Eine einheitliche Unternehmenssprache kann in der internen Kommunikation viel Zeit sparen und die Wirkung nach außen stark verbessern. Dazu muss man sich aber zunächst einigen, wie die Unternehmenssprache genau aussehen soll, welchen Begriffen welche Benennungen zugeordnet werden sollen. Die Ergebnisse werden in Terminologie-Datenbanken gespeichert und den jeweiligen Autoren-Zielgruppen zur Verfügung gestellt.

EDAG-PS-Redaktion: Hört sich nach viel Arbeit an.

Maria: Aber es lohnt sich.

EDAG-PS-Redaktion: Danke für das Gespräch!

Haben Sie weitere Fragen an Maria oder wollen Sie sich über die Möglichkeiten von Terminologie-Management mit Hilfe von Text-Mining austauschen? Wenden Sie sich gerne direkt an: Maria.

 

UND FÜR ALLE DIGITALBEGEISTERTEN MENSCHEN, die gerne bewusster mit den Themen "Information" und "Wissen" umgehen können wollen, haben wir zudem zwei interessante, kostenfreie Goodies vorbereitet:

WP InformationsflutINFORMATIONSFLUT - Wie identifiziere ich relevantes Wissen?

 

Vorgehensmodell Content DigitalisierungFINDEN STATT SUCHEN: Vorgehensmodell zur Suchoptimierung