Idea Transcript
Beiträge zur empirischen Marketing- und Vertriebsforschung
Tobias Roelen-Blasberg
Automatisierte Präferenzmessung Extraktion und Evaluation von Produktattributen auf Basis von Online-Rezensionen
Beiträge zur empirischen Marketingund Vertriebsforschung Reihe herausgegeben von T. Bornemann, Frankfurt, Deutschland M. Klarmann, Karlsruhe, Deutschland D. Totzek, Passau, Deutschland
Auch heute werden Marketing und Vertrieb von vielen als Domäne von „Bauchentscheidungen“ angesehen. Die vorliegende Schriftenreihe umfasst Beiträge, die einen anderen Weg gehen. Wichtige Fragestellungen, zum Beispiel aus den Bereichen Business-to-Business Marketing, Innovationsmarketing, Konsumentenverhalten, Preismanagement und Marketing Analytics, werden mit aktuellen wissenschaftlichen Verfahren empirisch untersucht. Zielsetzung der Beiträge ist es, für akademische und praktische Probleme in Marketing und Vertrieb eine faktenbasierte Grundlage zu schaffen.
Weitere Bände in der Reihe http://www.springer.com/series/13858
Tobias Roelen-Blasberg
Automatisierte Präferenzmessung Extraktion und Evaluation von Produktattributen auf Basis von Online-Rezensionen Mit einem Geleitwort von Prof. Dr. Martin Klarmann
Tobias Roelen-Blasberg Karlsruhe, Deutschland Die vorliegende Arbeit wurde von der Fakultät für Wirtschaftswissenschaften des Karlsruher Instituts für Technologie (KIT) als Dissertationsschrift angenommen. Die Disputation fand am 23. Mai 2018 statt. Mitglieder des Prüfungskollegiums waren Herr Prof. Dr. Martin Klarmann (Referent), Herr Prof. Dr. Alexander Mädche (Korreferent), Herr Prof. Dr. Orestis Terzidis (Prüfer) sowie Herr Prof. Dr. Ir. Marc Wouters (Vorsitzender).
ISSN 2567-6210 ISSN 2567-6415 (electronic) Beiträge zur empirischen Marketing- und Vertriebsforschung ISBN 978-3-658-23831-5 (eBook) ISBN 978-3-658-23830-8 https://doi.org/10.1007/978-3-658-23831-5 Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen National bibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. Springer Gabler © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung, die nicht ausdrücklich vom Urheberrechtsgesetz zugelassen ist, bedarf der vorherigen Zustimmung des Verlags. Das gilt insbesondere für Vervielfältigungen, Bearbeitungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Der Verlag, die Autoren und die Herausgeber gehen davon aus, dass die Angaben und Informa tionen in diesem Werk zum Zeitpunkt der Veröffentlichung vollständig und korrekt sind. Weder der Verlag noch die Autoren oder die Herausgeber übernehmen, ausdrücklich oder implizit, Gewähr für den Inhalt des Werkes, etwaige Fehler oder Äußerungen. Der Verlag bleibt im Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutionsadressen neutral. Springer Gabler ist ein Imprint der eingetragenen Gesellschaft Springer Fachmedien Wiesbaden GmbH und ist ein Teil von Springer Nature Die Anschrift der Gesellschaft ist: Abraham-Lincoln-Str. 46, 65189 Wiesbaden, Germany
Geleitwort Es ist ein interessantes Merkmal unserer Zeit, dass sich die alte Idee der Kundenorientierung in immer mehr Elementen des Geschäftslebens durchsetzt. Ein wichtiges Element der "Lean Startup"-Methodik von Eric Ries ist so zum Beispiel, dass schon sehr, sehr früh im Entwicklungsprozess Kunden aktiv einbezogen werden. Ganz ähnlich gilt das auch für die derzeit sehr populäre Idee "agiler" Entwicklungsprozesse. In solchen Umgebungen können viele traditionelle Marktforschungsverfahren nicht funktionieren. Man bedenke zum Beispiel den Zeitaufwand, der für eine Conjoint-Analyse erforderlich ist. Zwischen Start eines solchen Projekts und der Präsentation der Ergebnisse vergehen – selbst wenn man sehr zügig unterwegs ist – mehrere Wochen. Vor diesem Hintergrund beschäftigt sich Tobias Roelen-Blasberg in der hier vorgelegten Dissertationsschrift mit einem Verfahren, das geeignet ist, wesentlich schneller Informationen zu liefern – und das zu einer sehr großen Zahl an Produktkategorien gleichzeitig. Konkret hat Herr Roelen-Blasberg ein Verfahren entwickelt, mit dem sich Online-Kundenrezensionen auswerten lassen. Das von ihm entwickelte Verfahren liefert am Ende Ergebnisse ähnlich zu den Ergebnissen einer Conjoint-Analyse. Insbesondere lassen sich die Wichtigkeiten bestimmter Produktattribute bestimmen – und zu jedem Attribut auch Benchmarkprodukte bestimmen. Die zentrale Leistung von Herrn Roelen-Blasberg liegt dabei in einer merklichen Steigerung des Automatisierungsgrades bestehender Ansätze zur Auswertung der Texte in Kundenrezensionen im Internet. Beispielhaft sei hier ein Element seines Ansatzes erläutert. Eine Schwierigkeit bei der Nutzung von Online-Kundenrezensionen liegt in der Bestimmung der Produktattribute. Natürlich verwenden Kunden in ihren Online-Rezensionen keine standardisierten Begriffe, um zum Beispiel den Bildschirm eines Smartphones zu beschreiben. Bereits bestehende Ansätze zur Auswertung von Online-Kundenrezensionen haben hier deshalb häufig auf einen Eingriff von außen gesetzt, in dem verwandte Begriffe händisch zu Merkmalen zusammengefasst werden. Herr RoelenBlasberg kombiniert hier geschickt bestehende Ansätze zur Erkennung von gemeinsam auftauchenden Begriffen und zur Erkennung von Synonymen. Eine weitere zentrale Leistung von Herrn Roelen-Blasberg liegt darin, dass er auch selbst wiederholt seine Methodik mit Kundendaten validiert. Zum einen vergleicht er die von seinem Algorithmus generierten Attributslisten mit durch Kunden offen abge-
VI
Geleitwort
fragten Attributslisten. Es zeigt sich eine hohe Übereinstimmung. Zum anderen vergleicht er die durch seinen Algorithmus generierten Merkmalswichtigkeiten mit den entsprechenden Ergebnissen einer Conjoint-Analyse. Hier ist die Konsistenz insgesamt geringer. Das liegt aber sicher auch daran, dass die Conjoint-Analyse wesentlich starrer in der Definition von Merkmalen ist als Online-Kundenrezensionen. Wie zum Beispiel soll im Rahmen einer Befragung die Reinigungswirkung eines Waschmittels operationalisiert werden? Als Ergebnis ergibt sich so, dass die Auswertung von Online-Kundenrezensionen sicher die Conjoint-Analyse nicht komplett ablösen wird. Stattdessen sind für jedes Verfahren die passenden Einsatzgebiete zu ermitteln. Schließlich liegt eine wichtige Leistung von Herrn Roelen-Blasberg darin, dass er sein Verfahren nicht nur anhand einer Produktkategorie entwickelt, bei der man inhaltsreiche Erfahrungsberichte vermutet. Stattdessen ergänzt er solche Produktkategorien (z.B. Staubsaugerroboter und Smartphones) um Kategorien, bei denen man weniger Detailverliebtheit der Rezensenten erwartet. Beispielhaft sind hier Waschmittel zu nennen. In Summe gelingt es Herrn Roelen-Blasberg so, eine Methodik zu entwickeln, die zum einen auf höchstem Niveau wissenschaftlich fundiert ist, zum anderen aber auch eine hohe Praxistauglichkeit aufweist. Oder um einen befreundeten Kollegen zu zitieren: "In jedem Fall finde ich die Befunde auf Basis der Reviews erstaunlich plausibel." In diesem Sinne ist der vorgelegten Dissertationsschrift eine breite Rezeption in Wissenschaft und Praxis zu wünschen. Martin Klarmann
Vorwort Ziel vieler Marktforschungsmethoden ist die Generierung von Wissen über Kundenpräferenzen. Da viele Messmethoden zur Erhebung solcher Erkenntnisse (zum Beispiel die Conjoint Analyse) bereits vor mehreren Jahrzehnten – im analogen Zeitalter – entstanden sind, beruhen diese Ansätze meist auf sehr aufwendigen Primärdatenerhebungen, beispielsweise anhand von Interviews oder Fragebögen. In der heutigen digitalen Zeit verfügen Unternehmen hingegen bereits über einen enorm reichhaltigen Fundus von frei verfügbaren Daten, die Rückschlüsse auf Kundenpräferenzen zulassen. Diese Dissertation beschäftigt sich deshalb mit der grundlegenden Frage, ob traditionellen Methoden heutzutage noch zeitgemäß sind und stellt in diesem Zuge einen neuen Ansatz vor, der mittels Text Analyse unstrukturierte Daten in Form von Online-Rezensionen analysiert, um Kundenpräferenzen automatisiert abzuleiten. Im Folgenden möchte ich mich bei den Personen bedanken, die großen Anteil am Gelingen meiner Promotion haben. Ein ganz besonderer Dank gilt dabei meinem Doktorvater Prof. Dr. Martin Klarmann. Als externer Doktorand möchte ich mich vor allem für die nicht selbstverständliche, enge Zusammenarbeit und das mir entgegengebrachte Vertrauen bedanken, die maßgeblich zu dem erfolgreichen Abschluss dieser Arbeit beigetragen haben. Ich möchte mich dabei nicht nur für die exzellente fachliche Betreuung, sondern auch für die außerordentlich angenehme, offene, humorvolle und immer freundliche Art bedanken. Darüber hinaus danke ich Herrn Prof. Dr. Alexander Mädche für die bereitwillige Übernahme und zeitnahe Erstellung des Zweitgutachtens, Herrn Prof. Dr. Orestis Terzidis für die Übernahme des Amtes des Prüfers und Herrn Prof. Dr. Ir. Marc Wouters für die Übernahme des Prüfungsvorsitzes. Sehr dankbar bin ich außerdem dem ganzen Lehrstuhlteam für die nette Atmosphäre, tolle Unterstützung und interessanten Gespräche während meiner Aufenthalte am Lehrstuhl: Danke Dr. Sven Feurer, Verena Rieger, Max Lüders, Martin Moosbrugger, Ingo Halbauer, Sabine Gerster, Sina Übelacker und Belgin Günel. Einen großen Dank möchte ich insbesondere an Juliane Bayer richten, die uns Doktoranden jederzeit bei allen administrativen Aufgaben geholfen hat und uns damit viel Stress erspart hat. Großen Dank möchte ich auch meinen Kollegen aussprechen: Danke Carsten Hahn, Rüdiger Eichin und Dominic Pastoors für die herausragende Unterstützung und tolle Zusammenarbeit. Von Carsten und Rüdiger habe ich nicht nur sehr viel gelernt, sondern sie haben mir auch vom ersten Tag an viel Vertrauen geschenkt, mir immer den Rücken
VIII
Vorwort
freigehalten und haben damit enormen Anteil an dem Gelingen meines Promotionsvorhabens. Bei Dominic bedanke ich mich für die vielen Ratschläge und die interessanten Unterhaltungen, die Grundlage für viele Bausteine dieser Dissertation waren. Außerdem möchte ich mich bei allen dreien für die wunderbare, interessante und überaus lehrreiche Zeit bedanken. Von ganzem Herzen möchte ich mich schließlich bei meinen engsten Freunden und meiner Familie bedanken, die mich zu jeder Zeit und wo es ging unterstützt haben. Allen voran danke ich meiner Freundin Tonja für einfach alles, was sie in dieser Zeit für mich getan hat: Für die vielen motivierenden Worte, die Geduld, die wertvollen Anregungen, die vielen Korrekturen und die schönen Ablenkungen, die vor allem dazu beigetragen haben, dass ich selbst schwierige Phasen immer positiv in Erinnerung behalten werde. Danke! Tobias Roelen-Blasberg
Inhaltsverzeichnis Geleitwort .................................................................................................................. V Vorwort .................................................................................................................... VII Inhaltsverzeichnis ...................................................................................................... IX Abbildungsverzeichnis ........................................................................................... XIII Tabellenverzeichnis ..................................................................................................XV 1 Einführung in das Thema ........................................................................................ 1 1.1 Relevanz der Themenstellung und Ziele der Arbeit .......................................... 1 1.2 Forschungsfragen ............................................................................................. 3 1.3 Aufbau der Arbeit ............................................................................................ 5 2 Konzeptionelle Grundlagen ..................................................................................... 9 2.1 Data Mining, Text Mining und Natural Language Processing........................... 9 2.1.1 Data Mining .......................................................................................... 9 2.1.2 Text Mining und Natural Language Processing ................................... 10 2.2 Sentiment Analyse ......................................................................................... 16 2.2.1 Definition und Arten der Sentiment Analyse ....................................... 16 2.2.2 Teilprobleme der Aspekt-basierten Sentiment Analyse ........................ 17 2.2.3 Ansätze zur Sentiment-Extrahierung ................................................... 19 2.3 Präferenzmessung und Conjoint Analyse........................................................ 22 2.3.1 Allgemeiner Prozess der Conjoint Analyse .......................................... 23 2.3.2 Arten der Conjoint Analyse ................................................................. 25 2.3.3 Modellierung und Parameterschätzung ................................................ 28 3 Überblick der bisherigen Forschung ...................................................................... 33 3.1 Social Media Analytics................................................................................... 33 3.1.1 Volumen Analysen .............................................................................. 35 3.1.2 Clickstream Analysen .......................................................................... 35 3.1.3 Netzwerkanalysen ............................................................................... 36
X
Inhaltsverzeichnis
3.1.4 Textanalysen ....................................................................................... 37 3.1.5 Analysen von Suchanfragen ................................................................ 39 3.2 Automatische Präferenzmessung .................................................................... 39 4 Der Ansatz im Überblick....................................................................................... 47 4.1 Prozess des Ansatzes ...................................................................................... 47 4.2 Positionierung des entwickelten Ansatzes ...................................................... 49 5 Studie 1: Automatisierte Attribut-Extrahierung ..................................................... 51 5.1 Schritt 1: Datenakquisition ............................................................................. 51 5.2 Schritt 2: Datenbereinigung und Natural Language Processing Annotation .... 55 5.3 Schritt 3: Identifizierung der Attribut-Kandidaten .......................................... 56 5.4 Schritt 4: Attributgruppierung und -eliminierung............................................ 62 5.4.1 Attributeliminierung durch allgemeine Stopwords ............................... 63 5.4.2 Attributeliminierung durch Überprüfung der Einzigartigkeit ............... 63 5.4.3 Bestimmung des generischen Attributs ................................................ 65 5.4.4 Gruppierung durch Begriff-Korrelation ............................................... 65 5.4.5 Gruppierung basierend auf Kookkurrenz-Metriken der Warenkorbanalyse ............................................................................... 66 5.4.6 Gruppierung durch lexikalische Ähnlichkeit ........................................ 68 5.4.7 Gruppierung basierend auf geteilten Worten........................................ 69 5.4.8 Gruppierung auf Basis einer Korrelationsanalyse der Meinungsworte . 69 5.4.9 Gruppierung durch Word Embeddings ................................................ 71 5.4.10 Zusammenfassende Darstellung der verwendeten Ansätze .................. 74 5.5 Schritt 5: Automatisches Training der Attribut Classifier ............................... 76 5.6 Finale Attribut-Listen ..................................................................................... 81 5.7 Evaluation ...................................................................................................... 82 5.7.1 Datenerhebung .................................................................................... 82 5.7.2 Analyse und Ergebnisse....................................................................... 86
Inhaltsverzeichnis
XI
5.8 Diskussion der Ergebnisse .............................................................................. 95 5.8.1 Implikationen für die Forschung, Limitationen und zukünftige Forschung............................................................................................ 95 5.8.2 Implikationen für die Praxis ................................................................ 97 6 Studie 2: Automatisierte Attribut-Evaluierung ...................................................... 99 6.1 Schritt 6: Sentiment-Training und -Extrahierung ............................................ 99 6.2 Schritt 7: Zusammenfassung und Visualisierung der Ergebnisse .................. 104 6.3 Evaluation .................................................................................................... 108 6.3.1 Attribute und Level der Conjoint Analysen ....................................... 108 6.3.2 Design der Experimente .................................................................... 110 6.3.3 Datenerhebung .................................................................................. 120 6.3.4 Ergebnisse der Conjoint Analysen ..................................................... 122 6.3.5 Evaluation des automatisierten Ansatzes ........................................... 127 6.4 Diskussion der Ergebnisse ............................................................................ 135 6.4.1 Implikationen für die Forschung, Limitationen und zukünftige Forschung.......................................................................................... 135 6.4.2 Implikationen für die Praxis .............................................................. 138 7 Schlussbetrachtung.............................................................................................. 139 Literaturverzeichnis ................................................................................................. 147 Anhang.................................................................................................................... 161
Abbildungsverzeichnis Abbildung 1:
Übersicht über Data Mining Algorithmen ......................................... 10
Abbildung 2:
Bildung einer Term-Document Matrix .............................................. 12
Abbildung 3:
Vergleich von Lemmatization und Stemming.................................... 14
Abbildung 4:
Visualisierter Output der Wortarten und -abhängigkeiten .................. 16
Abbildung 5:
Generierung der Differenzmatrix ...................................................... 31
Abbildung 6:
Prozess des automatisierten Ansatzes ................................................ 47
Abbildung 7:
Extraktion der Konsumentenreviews ................................................. 54
Abbildung 8:
Output der Stanford coreNLP Annotation ......................................... 56
Abbildung 9:
Abhängigkeitsgraph eines Satzes ...................................................... 58
Abbildung 10: Venn-Diagramm zur Veranschaulichung der Berechnung der Einzigartigkeit .................................................................................. 64 Abbildung 11: Präsentation zweier Wortvektoren..................................................... 66 Abbildung 12: Mengenrepräsentation zweier Wörter ................................................ 67 Abbildung 13: Häufigkeiten von Meinungsworten des Attributs „taste“.................... 70 Abbildung 14: Veranschaulichung der Erkennung von Analogien anhand von GloVe .............................................................................................. 71 Abbildung 15: Prozess der Attributgruppierung und -eliminierung ........................... 76 Abbildung 16: Prozess des automatischen Trainings der Attribut Classifier .............. 78 Abbildung 17: Aufbau des Fragebogens (Vergleichsstudie 1) ................................... 84 Abbildung 18: Zuordnungsfrage in Vergleichsstudie 1 ............................................. 85 Abbildung 19: Allgemeine Statistiken des ersten Fragebogens ................................. 87 Abbildung 20: Berechnung und Darstellung der Präzision und Vollständigkeit ......... 90 Abbildung 21: Durchschnittliche Präzision-Vollständigkeit-Kurven ......................... 94 Abbildung 22: Vergleich der Attribut-Häufigkeiten beider Ansätze für Bier ............. 95 Abbildung 23: Analyse der Meinungsworte des Attributs „taste“ ............................ 103 Abbildung 24: Screenshot der dynamischen Webanwendung ................................. 107 Abbildung 25: Erstellung der Paarvergleiche für die Conjoint Analyse ................... 111
XIV
Abbildungsverzeichnis
Abbildung 26: Teilprozess zur Generierung der initialen Paarvergleiche................. 113 Abbildung 27: Berechnung der Überlappungs- und Pareto-Werte ........................... 115 Abbildung 28: Teilprozess zur Optimierung des Designs durch Permutationen ....... 117 Abbildung 29: Korrelationsmatrix vor und nach der Optimierung ........................... 119 Abbildung 30: Aufbau des Fragebogens der Conjoint Analyse (Vergleichsstudie 2) 121 Abbildung 31: Frage der Graded Paired Comparison Conjoint Analyse .................. 122 Abbildung 32: Teilnutzenwerte der Conjoint Analysen........................................... 126 Abbildung 33: Attributwichtigkeiten der Conjoint Analysen................................... 127 Abbildung 34: Prozess der manuellen Annotation zur Erstellung des Vergleichsdatensatzes ..................................................................... 129 Abbildung 35: Vergleich der Attributwichtigkeiten für Waschmittel....................... 130 Abbildung 36: Vergleich der Attributwichtigkeiten für Smartphones ...................... 132 Abbildung 37: Problem der komplexen Attribute ................................................... 134 Abbildung 38: Beispiel der Sentiment Analyse von zwei Attributen innerhalb eines Satzes ............................................................................................. 136
Tabellenverzeichnis Tabelle 1:
Vergleich verschiedener Varianten der Conjoint Analyse .................. 26
Tabelle 2:
Dummy-Kodierung .......................................................................... 29
Tabelle 3:
Effekt-Kodierung.............................................................................. 29
Tabelle 4:
Überblick der bisherigen Forschungsansätze zur automatisierten Präferenzmessung............................................................................. 43
Tabelle 5:
Überblick der Datensätze pro Kategorie ............................................ 52
Tabelle 6:
Grammatikalische Muster von Meinungsäußerungen ........................ 59
Tabelle 7:
Attribut-Kandidaten unter Verwendung des Part-of-Speech Tags und Dependencies ................................................................................... 61
Tabelle 8:
Top 15 Attribute pro Gruppierungsverfahren..................................... 73
Tabelle 9:
Top 15 Attribute vor und nach der Häufigkeitskorrektur.................... 80
Tabelle 10:
Finale Top 15 Attribute pro Kategorie............................................... 81
Tabelle 11:
Stichprobenzusammensetzung von Studie 1 ...................................... 83
Tabelle 12:
Konfusionsmatrix ............................................................................. 88
Tabelle 13:
Präzision, Vollständigkeit und F-Maß ............................................... 92
Tabelle 14:
Beispielberechnung der Teilnutzenwerte ......................................... 106
Tabelle 15:
Attribute und Level der Smartphone Conjoint Analyse .................... 109
Tabelle 16:
Attribute und Level der Waschmittel Conjoint Analyse ................... 110
Tabelle 17:
Bewertung der Designs ................................................................... 118
Tabelle 18:
Stichprobenzusammensetzung der Conjoint Analysen ..................... 120
Tabelle 19:
Ergebnisse der Parameterschätzung der Smartphone Conjoint Analyse .......................................................................................... 124
Tabelle 20:
Ergebnisse der Parameterschätzung der Waschmittel Conjoint Analyse .......................................................................................... 125
Tabelle 21:
Korrelationsanalyse der Attributwichtigkeiten ................................. 131
Tabelle 22:
Beispiel-Rezensionen für das Attribut „screen“ ............................... 133
XVI
Tabelle 23:
Tabellenverzeichnis
Ergebnisse der Korrelationsanalyse der Teilnutzenwerte auf Produkt-Ebene (Smartphones) ........................................................ 135
Tabelle 24:
Ergebnisse der Korrelationsanalyse der Teilnutzenwerte auf Produkt-Ebene (Waschmittel) ......................................................... 135
1 Einführung in das Thema 1.1 Relevanz der Themenstellung und Ziele der Arbeit „Was denken unsere Kunden aktuell über unsere Produkte?“ ist eine häufig auftretende Frage in Unternehmen. Heutzutage werden solche Informationen über Kundenwahrnehmungen und Kundenpräferenzen mittels primärer Marktforschung, anhand von Fragebögen oder Interviews mit Konsumenten, erhoben. Die Conjoint Analyse ist die in der Praxis verbreitetste Form der Präferenzerhebung (vgl. Backhaus et al. 2005). Die Umsetzung solcher Conjoint-Experimente zur Beantwortung praxisrelevanter Fragestellungen wird jedoch schnell sehr komplex, ist limitiert in der Anzahl an Einflussfaktoren (Attribute und Ausprägungen, die das Kaufentscheidungsverhalten beeinflussen), die gleichzeitig getestet werden können, und setzt ein tiefes methodisches Verständnis voraus (vgl. Gensler 2013, Großmann 2003). Die Beantwortung von häufigen Fragen wie „Hat die letzte Werbekampagne beeinflusst, wie die Kunden unsere Produkte wahrnehmen?“ würde eine Reihe solcher Erhebungsstudien erfordern. Mindestens zwei Datenerhebungen, vor und nach der Kampagne, müssten durchgeführt werden, um den Kampagnenerfolg messen zu können. Da solche Studien jedoch langwierig, teuer und komplex sind (vgl. Decker/Trusov 2010), werden sie in der Regel nur selten (ein- bis zweimal jährlich) durchgeführt. Die für Entscheidungsfindungen vorhandenen Querschnittsdaten sind deshalb meistens veraltet und reflektieren daher nicht adäquat die aktuellen Wünsche und Bedürfnisse von Konsumenten. Infolgedessen beruhen strategische Marketing-Entscheidungen heutzutage zum großen Teil auf dem Bauchgefühl, was das quantitative Belegen des generierten Mehrwertes von Kampagnen erschwert. Andererseits existieren riesige Datenmengen frei verfügbarer, nutzergenerierter Inhalte (engl. user-generated content), welche Konsumentenmeinungen über Produkte, Services oder Marken widerspiegeln (vgl. Verhoef/Kooge/Walk 2016). Diese Daten bieten ein enormes Potential für Marktforschungszwecke, um Konsumentenpräferenzen abzuleiten. Besonders Online-Rezensionen von Konsumenten auf Bewertungsportalen oder ECommerce Plattformen (z.B. Amazon) sind zu einer wertvollen Informationsquelle, sowohl für Käufer als auch für Unternehmen, geworden. Für Kunden sind diese Daten wichtig, um sich vor möglichen Fehlkäufen zu schützen und Informationen über Produkte zu sammeln, denn das freiwillige und leidenschaftliche (vgl. Tirunillai/Tellis 2014) Kundenfeedback verfügt dabei über ein hohes Maß an © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 T. Roelen-Blasberg, Automatisierte Präferenzmessung, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-23831-5_1
2
Einführung in das Thema
Glaubwürdigkeit (vgl. Bickart/Schindler 2001, Decker/Trusov 2010). Gemäß Nielsens Global Trust in Advertising Study (vgl. Nielsen 2015) sind Online-Rezensionen bei Konsumenten an dritter Stelle der vertrauensvollsten Informationsquellen, noch vor TV, Zeitungen und Zeitschriften (nach persönlichen Empfehlungen von Freunden und offiziellen Herstellerwebseiten). Für Unternehmen sind diese Datenquellen, im Vergleich zu Primärdaten (die für traditionelle Erhebungsmethoden zur Bewertung von Konsumentenwahrnehmungen und präferenzen benötigt werden), zudem einfach, günstig und kontinuierlich zugänglich. Die Studie von Leeflang et al. (2014) bestätigt außerdem das praktische Interesse an der Auswertung dieser frei verfügbaren Datenmengen zur Erlangung von neuen Metriken, aus denen Aktionen abgeleitet werden können. Im Vergleich zu anderen Online-Quellen (z.B. Foren, Blogs, Microblogging-Plattformen etc.) sind Konsumentenrezensionen fokussierter und reich an Meinungsäußerungen, weshalb einzelne Präferenztreiber klarer sichtbar sind, als in anderen meinungsäußernden Texten (vgl. Liu 2012). Solche unstrukturierten Daten, in Form von textuellen oder visuellen Inhalten, werden in der Regel allerdings nicht in strukturierten Datenbanken organisiert. Ihre Analyse zur Gewinnung betriebswirtschaftlich relevanter Informationen stellt daher heutzutage eine große Herausforderung für Unternehmen dar (vgl. Feldman/Sanger 2007, Liu 2007). Dadurch haben sich neue Forschungsfelder in der Informatik-Forschung aufgetan, welche die Analyse durch genauere und effizientere Algorithmen (Machine Learning und Deep Learning) von textuellen Daten (Text Mining), natürlicher Sprache (Natural Language Processing) oder visuellen Inhalten (Computer Vision) untersuchen. Für die Marktforschung bieten diese Daten und Analysemöglichkeiten die Chance aufwendige traditionelle Methoden zu ersetzen und andererseits kontinuierliche Informationen über die Kunden und Konsumenten sowie den Markt und Wettbewerber zu gewinnen. Die Untersuchung der Zusammenhänge von traditioneller Marktforschung und neuen Kennzahlen, die aus sozialen Medien oder anderen Online-Quellen gewonnen werden, gilt als ein zentrales Forschungsfeld der Marketingforschung (vgl. Gupta et al. 2014, Hanssens et al. 2014). Die Verfügbarkeit dieser reichhaltigen Menge an neuen Daten (in dieser Studie als Big Data betitelt) wird von Chintagunta/Hanssens/Hauser (2016) als eine neue Datenrevolution beschrieben, die einen großen Einfluss auf die Marketingforschung hat. Dabei stellen die Autoren insbesondere den Bedarf an neuen Ansätzen unter
Forschungsfragen
3
Verwendung von Methoden anderer Disziplinen, wie beispielsweise Data Science, Machine Learning und Textverarbeitung, in den Vordergrund. Die vorliegende Dissertation bedient sich dieser Ansätze und liefert einen Beitrag zu dem Forschungsfeld der automatisierten Marktforschung: Mithilfe von vielversprechenden Ansätzen aus den Bereichen Machine Learning, Natural Language Processing und Text Mining werden Produktattribute aus Kundenrezensionen extrahiert, gruppiert und nach ihrer Wichtigkeit sortiert. Um die Validität der ermittelten Ergebnisse sicher zu stellen, werden zwei vergleichende Konsumentenbefragung per Online-Fragebogen durchgeführt. Die erste Befragung validiert die sortierten Attribut-Listen, wohingegen im Rahmen der zweiten Studie, anhand einer Conjoint Analyse, die Wichtigkeiten der Attribute sowie die Teilnutzenwerte evaluiert werden. Die Arbeit wird hierfür in zwei aufeinander aufbauende Studien aufgeteilt: In der ersten Studie werden mithilfe von Web Scrapern zunächst die Konsumentenreviews von mehreren Bewertungswebseiten (für die Kategorien Smartphones, Staubsaugroboter, Waschmittel, Zahnpasta, Bier und Energydrinks) gesammelt. Anschließend werden die wichtigsten Produktattribute aus den jeweiligen Textkorpora extrahiert. Dazu werden mehrere Text Mining und Natural Language Processing Algorithmen auf die Texte angewandt, wodurch der entwickelte Ansatz mögliche Attribute (Attribut-Kandidaten) in meinungsäußernden Sätzen identifiziert und diese anschließend zu aussagekräftigen Attributen gruppiert. Ein Online-Fragebogen zu kaufentscheidenden Attributen liefert die Vergleichsdaten der ersten Studie. Für die zweite Studie wird dieser Ansatz erweitert: Nachdem in der ersten Studie die Attribute in den Texten erkannt werden, wird im Rahmen der zweiten Studie zusätzlich die Valenz dieser Meinungsäußerungen bewertet. Auf Basis dieser Informationen werden anschließend Teilnutzenwerte pro Produkt berechnet, um daraus die Wichtigkeiten der Attribute abzuleiten. Zur Evaluation des automatisierten Ansatzes wird eine Conjoint Analyse durchgeführt. 1.2 Forschungsfragen Im vorangegangenen Absatz wurde der Bedarf an neuen Verfahren zur effizienteren, kontinuierlichen und günstigeren Messung der Kundenwahrnehmungen motiviert. Im
4
Einführung in das Thema
Detail soll die vorliegende Dissertation untersuchen, wie gut sich frei verfügbare Online-Inhalte eignen, um Konsumentenpräferenzen zu erheben, wodurch die Brücke zu traditionellen Messverfahren wie der Conjoint Analyse geschlagen wird. Die Arbeit gibt somit einen tiefen Einblick in die heutigen Möglichkeiten und Limitationen der Textanalyse für Marktforschungszwecke. Der Forschungsansatz orientiert sich dabei maßgeblich an den folgenden zwei Forschungsfragen: Forschungsfrage 1: Können relevante Produktattribute vollkommen automatisiert aus nutzergenerierten Inhalten extrahiert werden? Die erste Forschungsfrage beschäftigt sich mit der Extrahierung von Produktattributen aus Konsumentenrezensionen. Für dieses Vorhaben sollen ausschließlich textuelle Inhalte ohne manuelle Interaktion analysiert werden. Die gewonnenen Ergebnisse können beispielsweise aufwendige Vorstudien einer Conjoint Analyse ersetzen (vgl. Lee/Bradlow 2011). Die Anwendung der vorgestellten Methodik ist dabei nicht auf Produktbewertungen limitiert, sondern kann auch für die Extrahierung von wichtigen Aspekten oder Themen aus Wahlinhalten oder Reiseforen genutzt werden. Die vollkommen automatisierte Identifikation von wichtigen Produktattributen aus großen Mengen textueller Daten sieht sich jedoch einer Reihe von Herausforderungen konfrontiert: Eine Schwierigkeit ist in der Datengrundlage begründet. Dabei gilt es, aus dem „Rauschen“ der natürlichen Sprache die semantisch wichtigen Informationen herauszufiltern (vgl. Feldman/Sanger 2007, Liu 2007). Zunächst werden verschiedene Datenbereinigungsschritte durchgeführt, die dieses „Rauschen“, beispielsweise durch das Zurückführen der Wörter auf ihren Wortstamm oder das Entfernen von Zahlen, überflüssigen Leerzeichen und sogenannten Stopwords, reduzieren. Aus den bereinigten Daten lassen sich anschließend erste mögliche Attribute (Attribut-Kandidaten) extrahieren. Eine weitere Herausforderung liegt in der Vielfältigkeit mögliche Konstrukte (hier Attribute) beschreiben zu können. Für die Identifizierung von relevanten Attributen bedeutet das, dass in dem jeweiligen Kontext semantisch ähnliche Begriffe (z.B. Wörter, die Nutzer synonym zur Beschreibung eines Attributs verwenden) sinnvoll gruppiert werden müssen. Zur Lösung dieses Teilproblems werden verschiedene Gruppierungsalgorithmen vorgestellt, wodurch sich beispielsweise domänenspezifische Synonyme identifizieren lassen. Anschließend werden die, durch den vorgestellten Ansatz erhobenen, Attribut-Listen mit einer Konsumentenbefragung per Online-Fragebogen validiert.
Aufbau der Arbeit
5
Abgrenzend zu bisherigen Forschungsbemühungen liegt der Fokus dieser Arbeit in der Entwicklung eines Ansatzes, der keinen manuellen Aufwand benötigt. Ziel ist somit ein vollautomatisierter Ansatz, der Informationen aus textuellen Daten ohne jegliche manuelle Interaktion gewinnt. Forschungsfrage 2: Können nutzergenerierte Online-Inhalte traditionelle Präferenzmessungen ersetzen, um Attributwichtigkeiten und Teilnutzenwerte zu erheben? Die zweite Forschungsfrage untersucht, in wie weit sich Erkenntnisse traditioneller Präferenzmessungen, wie der Conjoint Analyse, auch automatisiert erheben lassen. Dabei sollen Kundenwahrnehmungen in Bezug auf die zuvor extrahierten Attribute bewertet werden, um Teilnutzenwerte und Attributwichtigkeiten ableiten zu können. Im Gegensatz zu bestehender Forschung auf dem Gebiet der Aspekt-basierten Sentiment Analyse sollen hierbei domänenspezifische Valenzen von Meinungsworten (z.B. „long“, „sharp“, „low“ etc.) ohne manuelle Interaktion bestimmt werden. Einige Ansätze haben den manuellen Aufwand für Sentiment Analysen bereits drastisch reduziert, indem Lexika von Meinungsworten durch eine automatische Analyse des Textkorpus erweitert werden (vgl. z.B. Qiu et al. 2011). Diese Ansätze benötigen demnach dennoch eine kleine Anzahl von manuell angegebenen Seed-Wörtern, welche positive und negative Meinungen in einem Kontext ausdrücken. Der in dieser Dissertation entwickelte Ansatz, erlernt unter Hinzunahme der numerischen Ratings der Bewertungsportale, die Polaritäten von Meinungsworten (in Bezug zu jedem einzelnen Attribut) eigenständig aus dem Review-Korpus. Anschließend werden Teilnutzenwerte und Attributwichtigkeiten ermittelt, wodurch sich Stärken und Schwächen aus Konsumentensicht ermitteln lassen. Zur Evaluation wird eine Graded Paired Comparison Conjoint Analyse durchgeführt, welche die Präferenzen einer repräsentativen Stichprobe der US-Bevölkerung erhebt. Anhand dieses Vergleichsdatensatzes werden Unterschiede zwischen Meinungen in Online-Rezensionen und traditionellen Methoden der Präferenzmessung analysiert. 1.3 Aufbau der Arbeit Die vorliegende Dissertation ist in sieben Kapitel unterteilt. In Kapitel 1 wurde bereits das Thema dieser Arbeit motiviert und die Forschungsziele dargelegt. Im zweiten Kapitel werden die konzeptionellen Grundlagen vermittelt. Dazu wird zunächst auf die
6
Einführung in das Thema
Analyse textueller Daten (Text Mining) eingegangen (Abschnitt 2.1). Anschließend wird in Abschnitt 2.2 das Problemfeld der Sentiment Analyse beschrieben, indem Herausforderungen und Ansätze aufgezeigt werden. In Abschnitt 2.3 werden die Grundlagen der traditionellen Präferenzmessung vermittelt. Neben der Vorstellung des grundlegenden Prozesses einer Conjoint Analyse, wird in diesem Abschnitt auch ein Überblick über die verschiedenen Varianten gegeben. Außerdem wird der Analyseprozess zur Schätzung der Parameter erläutert. Kapitel 3 fasst daraufhin bisherige Forschungsarbeiten zusammen, die Social Media Daten für unternehmerische Zwecke analysieren (Abschnitt 3.1). Abschnitt 3.2 begutachtet vertiefend das Forschungsfeld der automatisierten Präferenzmessung, indem Ansätze vorgestellt werden, die Informationen über Konsumentenpräferenzen aus textuellen nutzergenerierten Inhalten extrahieren. In Kapitel 4 wird der im Rahmen dieser Forschungsarbeit entwickelte Ansatz zur automatisierten Präferenzerhebung kurz zusammengefasst. Die folgenden zwei Kapitel (5 und 6) thematisieren die bereits vorgestellten Forschungsfragen und beinhalten, neben detaillierten Beschreibungen der einzelnen Schritte, auch die jeweilige Vergleichsstudie: Kapitel 5 untersucht wie Attribute aus textuellen Informationen extrahiert werden können. Abschnitt 5.1 fasst dabei zunächst zusammen, wie die Kundenrezensionen für die analysierten Kategorien gesammelt werden können. Anschließend werden die Verfahrensschritte der Datenbereinigung (Abschnitt 5.2) und der Identifizierung von Attribut-Kandidaten (Abschnitt 5.3) präsentiert. Die untersuchten Algorithmen zur automatischen Gruppierung der Begriffe werden in Abschnitt 5.4 vorgestellt, bevor im letzten Analyseschritt Classifier zur Identifizierung der Attribute in impliziten Meinungsäußerungen trainiert werden. (Abschnitt 5.5). Der Evaluationsprozess der finalen AttributListen (Darstellung der Listen in Abschnitt 5.6) wird durch die Konsumentenbefragung in Abschnitt 5.7 dargestellt. Abschließend werden die Ergebnisse der ersten Studie diskutiert (Abschnitt 5.8). Aufbauend auf den Ergebnissen der ersten Studie wird in Kapitel 6 dargestellt, wie aus den textuellen Daten Erkenntnisse zu der Stimmung der Kunden bezüglich der Attribute abgeleitet werden. Zunächst wird zu diesem Zweck der Prozess des automatischen Trainings der Sentiment Analyse beschrieben, indem Valenzen von Meinungsworten aus dem Korpus abgeleitet werden (Abschnitt 6.1). In Abschnitt 6.2 wird das Verfahren erläutert, wie aus diesen Rohdaten Teilnutzenwerte aggregiert und Attributwichtigkeiten
Aufbau der Arbeit
7
abgeleitet werden. Um die automatisierten Ergebnisse zu evaluieren, erfolgt eine Präferenzmessung anhand einer Conjoint Analyse (Abschnitt 6.3), bevor die Erkenntnisse dieser zweiten Studie im letzten Abschnitt (6.4) des Kapitels diskutiert werden. In Kapitel 0 folgt eine Schlussbetrachtung, die zunächst die zentralen Forschungsergebnisse dieser Dissertation zusammenfasst. Abschließend werden die beiden Forschungsfragen beantwortet, der wissenschaftliche Beitrag der beiden Studien herausgestellt sowie Implikationen für die Praxis und die zukünftige Forschung aufgeführt.
2 Konzeptionelle Grundlagen In Kapitel 2 werden Grundlagen zu drei relevanten Themengebieten dieser Dissertation vermittelt: Der erste Abschnitt (2.1) stellt den allgemeinen Prozess von Data Mining dar und erklärt Besonderheiten der Analyse von textuellen Daten. Darauf aufbauend widmet sich Abschnitt 2.2 den Grundlagen der Sentiment Analyse, indem verschiedene Ansätze zur Bestimmung der Valenz in Texten vorgestellt werden. Abschließend werden in Abschnitt 2.3 traditionelle Verfahren der Präferenzmessung behandelt, wobei detaillierter auf die Methodik der Conjoint Analyse eingegangen wird. 2.1 Data Mining, Text Mining und Natural Language Processing 2.1.1 Data Mining Allgemein bezieht sich Data Mining auf den Prozess nützliche, nicht-triviale Informationen oder Muster aus Datenbanken zu extrahieren (vgl. Liu 2007, Turban et al. 2007, Witten et al. 2016). Interessante Muster einer strukturierten Kundendatenbank könnten beispielsweise spezielle Kunden mit hoher Kündigungswahrscheinlichkeit oder Kundengruppen mit homogenen Präferenzstrukturen sein. Liu (2007) unterteilt den Extrahierungsprozess in folgende drei Schritte: 1. Da die Rohdaten meistens ein hohes Maß an „Rauschen“ (z.B. durch fehlende Werte oder schlecht gepflegte Datenfelder) beinhalten und die notwendigen Daten für die Analyse häufig aus unterschiedlichen Quellen stammen, müssen sie zunächst aufbereitet, zusammengeführt und harmonisiert werden. 2. Anschließend läuft ein geeigneter Data Mining Algorithmus über die bereinigten Daten und extrahiert die relevanten Informationen. Häufig wird hierbei zwischen überwachten (engl. supervised) und unüberwachten (engl. unsupervised) Lernalgorithmen unterschieden. Überwachte Algorithmen benötigen dabei einen annotierten Datensatz, welcher zum Training der Klassifikations- oder Regressionsalgorithmen verwendet werden kann. Die Verfahren lernen aus historischen Daten, wobei (zwei oder mehrere) Kategorien für die Klassifizierung oder Quantitäten für Regressionen benötigt werden. Sollen Informationen aus nicht annotierten Datensätzen gewonnen werden, kommen unüberwachte Verfahren zum Einsatz. Für die Gruppierung ähnlicher Dokumente können Clustering-Algorithmen (z.B. hierarchisches Clustering oder K-means Clustering) verwendet werden. Zur Re-
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 T. Roelen-Blasberg, Automatisierte Präferenzmessung, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-23831-5_2
10
Konzeptionelle Grundlagen
duzierung der Dimensionen können beispielsweise Principal Component Analysen (PCA) genutzt werden. Abbildung 1 stellt eine Übersicht einiger Algorithmen vor. 3. Im dritten Prozessschritt werden die extrahierten Muster ausgewählt, welche für die Analyse oder Anwendung sinnvoll sind. Zum Beispiel können aus dem Ergebnis einer Cluster-Analyse, welches homogene Kundensegmente aufdeckt, Kunden aus einem besonders attraktivem Zielsegment für die nächste Werbekampagne ausgewählt werden.
Abbildung 1: Übersicht über Data Mining Algorithmen
2.1.2 Text Mining und Natural Language Processing In Anlehnung an die Definition von Data Mining, beschreibt Text Mining den Prozess der Informationsgewinnung aus unstrukturierten, textuellen Daten (vgl. Turban et al. 2007, Witten et al. 2016). Vor allem die Vorverarbeitung der Daten ist bei der Verarbeitung von Texten deutlich aufwendiger und schwieriger. Frühe Text Mining Anwendungen haben dabei eine einfache „bag-of-words“-Repräsentation genutzt, um Texte in eine Struktur zu überführen, die maschinenlesbar ist und von Data Mining Algorithmen verwendet werden kann (vgl. Feldman/Sanger 2007). Dabei werden alle Wörter eines Textes, ohne Berücksichtigung der Wortreihenfolge, Grammatik oder Satzzusammenstellung, in einen „Topf“ geworfen. Dieses Verfahren kann beispielsweise eingesetzt werden, um Spam E-Mails zu identifizieren. Aus einem annotierten Trainingsdatensatz
Data Mining, Text Mining und Natural Language Processing
11
von E-Mails, die einerseits Spamnachrichten und andererseits zulässige E-Mails beinhalten, werden somit zwei „Töpfe“ der beiden Klassen erstellt, einer mit den Wörtern aus zulässigen E-Mails und einer mit Wörtern aus Spam-Nachrichten. Zudem werden die Häufigkeiten der beinhalteten Wörter in den jeweiligen „Töpfen“ notiert. Anschließend können Klassifizierungs-Algorithmen (z.B. K-Nearest-Neighbors, Support Vector Machine oder Naïve Bayes) angewendet werden, um neue Nachrichten als Spam zu klassifizieren, falls diese dem Spam-„Topf“ ähnlicher sind als dem „Topf“ der zulässigen Nachrichten (vgl. Turban et al. 2007). Als „Features“ werden Input-Informationen bezeichnet, die von Algorithmen zum Lernen (z.B. der Klassenzugehörigkeiten) verwendet werden (vgl. Feldman/Sanger 2007). In dem „bag-of-word“ Beispiel werden somit nur Häufigkeiten einzelner Wörter (Unigramme) als Features verwendet, um Texte zu beschreiben und zu erkennen, ob eine Nachricht voraussichtlich Spam enthält. Diese Datenrepräsentation entspricht jedoch nicht der Art und Weise wie Menschen Wörter in natürlicher Sprache verwenden und reduziert textuellen Inhalte lediglich auf eine einfache maschinenlesbare Form. Dadurch sind „bag-of-words“ Modelle für die Informationsgewinnung vieler Anwendungsbereiche nicht ausreichend und werden heutzutage häufig um weitere Features erweitert, welche die grammatikalische Struktur der Sprache beschreiben. Natural Language Processing stellt dabei eine wichtige Komponente des Text Mining dar, womit weitere Features generiert werden können (vgl. Turban et al. 2007). Natural Language Processing wird als Teilbereich der künstlichen Intelligenz und Computerlinguistik betrachtet und erforscht die Darstellung und das Verständnis der natürlichen Sprache. Ziel ist dabei die Erweiterung des Maschinenverständnisses von einer reinen Syntax-getriebenen Textrepräsentation (Wörter zählen) hin zu einem wirklichen Verständnis natürlicher Sprache unter Berücksichtigung semantischer und grammatikalischer Bedingungen (vgl. Aggarwal/Zhai 2012, Turban et al. 2007). Die folgenden Abschnitte stellen einige wichtige Konstrukte, Terminologien und Methoden aus den Bereichen Natural Language Processing und Text Mining vor: Tokenization: Tokenization spaltet einen Text in einzelne Tokens (z.B. Wörter oder Satzzeichen) auf. Ein Token beschreibt dabei eine sprachlich sinnvolle Einheit. In der englischen (und auch deutschen) Sprache werden Tokens meistens durch Leerzeichen oder nicht-alphanumerische Zeichen getrennt. Schwierigkeiten bereiten dabei Zeichenfolgen wie „couldn’t“, die sich mit solchen generischen Regeln nicht korrekt trennen
12
Konzeptionelle Grundlagen
lassen. In dem Beispiel sollte eine korrekte Trennung die beiden Tokens „could“ und „n’t“ (Abkürzung für „not“) liefern, wohingegen das Wort „O’Connor“ einen Namen kennzeichnet, der nicht zusätzlich getrennt werden sollte (vgl. Liu 2007, Turban et al. 2007). Term-Document Matrix: Term-Document Matrizen repräsentieren einen Textkorpus, bei dem Worthäufigkeiten (engl. term frequencies) eines Begriffes in Spalten (sogenannten Wortvektoren) dargestellt werden und jedes Dokument durch eine Zeile repräsentiert wird. Abbildung 2 zeigt die Bildung einer Term-Document Matrix für einen Korpus von zwei kurzen Textdokumenten, die aus jeweils einem Satz bestehen. In großen Textkorpora lassen sich anhand von ähnlichen Wortvektoren in der Term-Document Matrix verwandte Begriffe erkennen, die häufig gemeinsam in Dokumenten auftreten (z.B. durch die Kosinus-Ähnlichkeit). Andererseits lassen sich auch Ähnlichkeiten von Dokumenten ableiten, um diese in verschiedene Kategorien zu gruppieren (z.B. in Themen) (vgl. Liu 2007, Turban et al. 2007).
Anmerkung: Einfache Term-Document Matrix mit Unigrammen aus zwei Dokumenten mit jeweils einem Satz, ohne Vorverarbeitung der Texte.
Abbildung 2: Bildung einer Term-Document Matrix
N-Gramme: Term-Document Matrizen können sowohl Unigramme als auch Bigramme oder N-Gramme beinhalten. Als Unigramme werden dabei einzelne Tokens bezeichnet. So werden bei dem Satz „The taste is amazing.“ vier Vektoren der jeweiligen Wörter angelegt. Bigramme beschreiben hingegen zwei aufeinanderfolgende Tokens. Der Beispielsatz beinhaltet somit die drei Bigramme „The taste“, „taste is“ und „is amazing“. Analog dazu können auch N-Gramme höherer Ordnung generiert werden. Eine Term-
Data Mining, Text Mining und Natural Language Processing
13
Document Matrix kann beispielsweise alle vorkommenden Uni- und Bigramme enthalten, sodass sich in dem aufgeführten Beispiel sieben Vektoren (also sieben Features) ergeben (vier Unigramme und drei Bigramme) (vgl. Liu 2007, Turban et al. 2007). Stopword Removal: Stopword Removal entfernt Wörter aus dem Korpus, die keine relevanten Informationen bergen, da sie in einer Sprache, unabhängig des Kontextes, häufig verwendet werden. So kann sich die Analyse auf die wichtigen Wörter fokussieren. Durch die damit einhergehende Reduzierung der berücksichtigten Dimensionen (Vektoren in Term-Document Matrix) kann zudem der Rechenaufwand für die angewendeten Algorithmen verringert werden. Angenommen, E-Mails sollen wie oben beschrieben in zwei Rubriken „Spam“ und „kein Spam“ klassifiziert werden: Ein überwachter Lernalgorithmus kann zu diesem Zweck anhand der Term-Document Matrix die markanten Features (z.B. Uni- oder Bigramme wie „buy now“) erlernen, welche Spam-Nachrichten beinhalten und diese von zulässigen Nachrichten unterscheiden. Einige Worte kommen jedoch relativ gleichverteilt über alle Texte hinweg vor, weshalb diese sogenannten „stopwords“ keine semantische Bedeutung besitzen und somit von der Analyse ausgeschlossen werden können. Stopword-Listen beinhalten beispielsweise Wörter wie „I“, „you“, „have“, „am“, „are“, „of“ usw. (vgl. Liu 2007, Turban et al. 2007). Sentence Splitting: Sentence Splitting zerlegt Texte in einzelne Sätze. Durch Tokenization werden Zeichen, die auf ein Satzende hinweisen markiert und der Text an dieser Stelle geteilt. Stemming und Lemmatization: Zwei unterschiedliche Wörter werden von Maschinen grundsätzlich, unabhängig wie ähnlich sie sich sind, als unterschiedliche Variablen interpretiert. So werden beispielsweise die Wörter „drive“, „drives“ und „driving“ als drei verschiedene Tokens angesehen, obwohl alle Wörter das gleiche Stammwort beschreiben, was lediglich grammatikalisch verändert wurde. In vielen Anwendungen macht es jedoch Sinn, diese Unterscheidung zu vernachlässigen und Wörter auf den jeweiligen Wortstamm zu reduzieren. Es existieren verschiedene Ansätze, Wörter auf ihren Wortstamm zurückzuführen: Stemming und Lemmatization. Unter Stemming werden meistens Ansätze subsummiert, die auf Basis von heuristischen Kriterien die Wortenden (in englischer Sprache beispielsweise „ing“, „ed“, „s“) abschneiden. Diese Ansätze führen in vielen Fällen zu guten Ergebnissen, haben jedoch ihre Schwächen bei unregelmäßigen Verben wie beispielsweise „be“ oder „have“ (vgl. Liu 2007, Porter 1980, Turban et al. 2007).
14
Konzeptionelle Grundlagen
Lemmatization nutzt daher für diese Aufgabe weitreichendere, morphologische Analysen und Wörterbücher, was größtenteils zu besseren Ergebnissen führt. Abbildung 3 zeigt einen Beispieltext aus dem Bier-Review-Korpus, welcher einerseits mit einem der meist verwendeten Stemming-Algorithmen für englische Sprache, dem Porter Algorithmus (vgl. Porter 1980), und andererseits mit dem Lemmatizer der Stanford coreNLP (vgl. Manning et al. 2014) bearbeitet wurde. Das Beispiel hebt dabei deutlich die Vorteile des Lemmatizers gegenüber dem Stemming-Algorithmus hervor: Erstens werden unregelmäßige Verben (z.B. „was“ oder „did“) deutlich besser verarbeitet und zweitens werden Nomen nicht verändert (z.B. „brewmaster“ oder „anyone“).
Anmerkung: Das Beispiel zeigt die unterschiedlichen Ausgaben des gleichen Textes auf Basis der Stanford coreNLP Lemmatization (links) und Porters Stemming Algorithmus (rechts). Die Unterschiede wurden farblich hervorgehoben.
Abbildung 3: Vergleich von Lemmatization und Stemming
Part-of-Speech Tagging: Unter Part-of-Speech Tagging wird im Allgemeinen die Annotation der Wortart, wie Nomen, Verb, Adjektiv etc., zu jedem Token verstanden. Insgesamt unterscheidet der englische Part-of-Speech Tagger der Stanford coreNLP zwischen den 36 feingranularen Wortarten (z.B. „Nomen, plural“) des Penn Treebank Tagsets (vgl. Manning et al. 2014). Diese Informationen können beispielsweise genutzt werden, um die häufigsten Nomen, die das Thema der jeweiligen Dokumente beschreiben, aus einem Textkorpus zu extrahieren. Der Output eines Part-of-Speech Taggers kann wie folgt aussehen: „I(PRP) like(VBP) this(DT) beer(NN)“. Die Part-of-Speech
Data Mining, Text Mining und Natural Language Processing
15
Tags in diesem Satz stehen dabei für Personalpronomen (PRP, engl. Tag: „personal pronoun“), Verb (VBP, engl. Tag: „verb, non-3rd person singular present“), Determinativ (DT, engl. Tag: „determiner“) und Nomen (NN, engl. Tag: „noun, singular or mass“) (vgl. De Marneffe/Manning 2008, Liu 2007, Turban et al. 2007). Dependency Parsing: Dependency Parser analysieren die Satzstruktur, indem die grammatikalischen Beziehungen zwischen den Wörtern eines Satzes identifiziert werden (vgl. Liu 2012). In dem Beispielsatz „I like the taste of this beer“ existiert eine Beziehung mit dem Namen „dobj“, welche die Verbindung zwischen den Wörtern „like“ und „taste“ beschreibt: In diesem Satz ist „taste“ das direkte Objekt des Verbs „like“ (vgl. De Marneffe/Manning 2008). Diese grammatikalischen Wortbeziehungen wurden in dieser Arbeit verwendet, um Meinungsäußerungen anhand verschiedener Muster zu extrahieren (siehe Kapitel 5.3). In Abbildung 4 wird der Output der Stanford coreNLP (vgl. Manning et al. 2014) visualisiert. Neben den Part-of-Speech Tags (links oben) und den erkannten Entitäten der Named Entity Recognition Komponente, werden auf der rechten Seite die Wortbeziehungen des Dependency Parsers dargestellt.
16
Konzeptionelle Grundlagen
Anmerkung: Die Abbildung zeigt das Ergebnis der Stanford coreNLP (vgl. Manning et al. 2014). Die Labels über den Wörtern zeigen den Output des Part-of-Speech Taggers und die Pfeile präsentieren die extrahierten Wortabhängigkeiten des Dependency Parsers.
Abbildung 4: Visualisierter Output der Wortarten und -abhängigkeiten
2.2 Sentiment Analyse 2.2.1 Definition und Arten der Sentiment Analyse Sentiment Analyse (auch Opinion Mining genannt) beschreibt die Analyse von Meinungen gegenüber Entitäten wie Themen, Events, Personen oder Produkten (vgl. Liu 2007). Dabei werden textuelle Abschnitte hinsichtlich ihrer Valenz klassifiziert. Typischerweise unterscheiden Sentiment Analysen zwischen zwei (positiv und negativ) oder drei (positiv, neutral und negativ) Status. Es gibt jedoch auch sogenannte feinkörnige (engl.
Sentiment Analyse
17
fine-grained) Sentiment Analysen, bei denen die Algorithmen Texte in fünf (sehr positiv, positiv, neutral, negativ und sehr negativ) oder mehr Klassen unterteilen (vgl. Liu 2012). Die Sentiment Analyse besteht dabei aus mehreren Teilproblemen, die jedoch abhängig von der Granularitätsebene sind, auf der die Valenzen bestimmt werden sollen. Insgesamt wird dabei zwischen drei verschiedenen Ebene unterschieden: Zwischen der Dokument-Ebene, der Satz-Ebene sowie der Entität- und Aspekt-Ebene (vgl. Liu 2012). Die Sentiment Analyse auf Dokument-Ebene versucht Textdokumente als Ganzes zu klassifizieren, indem Valenzklassen (z.B. positiv und negativ) den Texten zugeordnet werden. Die Analyse auf dieser Granularitätsebene kann beispielsweise genutzt werden, um die allgemeine Stimmung von Kunden gegenüber ganzen Produkten zu bestimmen, indem Produktrezensionen ganzheitlich klassifiziert werden. Sehr ähnlich funktioniert die Sentiment Analyse auf Satz-Ebene, welche alle Sätze eines Textes einzeln bewertet. Häufig wird bei dieser Form zusätzlich zwischen neutralen Sätzen unterschieden, welche keine Meinung transportieren. Die Sentiment Analyse auf Entität- und AspektEbene (Aspekt-basierte Sentiment Analyse) grenzt sich von der Analyse auf Dokumenten- oder Satzebene ab, indem diese Form genau erhebt, welche Aspekte ein Meinungshalter an einer Entität mag und welche ihm nicht gefallen. Die Aspekt-basierte Sentiment Analyse schaut dabei nicht auf sprachliche Konstrukte (wie Dokumente oder Sätze), sondern stellt Meinungsäußerungen in den Mittelpunkt der Untersuchung (vgl. Liu 2012, Pang/Lee 2008). Liu (2012) formuliert demnach eine Meinung formell als Quintupel -d )de 9defg 0f :g , bei welchem 9defg die Stimmung (engl. sentiment) beschreibt, die von einem Meinungsinhaber (engl. opinion holder) 0f zum Zeitpunkt :g bezüglich eines Aspektes )de (hier: einem Attribut) von einer Entität -d (bspw. einem Produkt) im Dokument , ausgedrückt wird. Ein Dokument kann sich dabei auf einen gesamten Text oder einen Satz beziehen. Da sich der Rest dieser Dissertation auf die Aspekt-basierte Sentiment Analyse fokussiert, werden nachfolgend die Teilprobleme dieser Form näher beleuchtet, während auf die Dokument- und Satz-basierte Sentiment Analyse nicht näher eingegangen wird. 2.2.2 Teilprobleme der Aspekt-basierten Sentiment Analyse Zur Bestimmung von Aspekt-basierten Meinungsäußerungen müssen, wie oben beschrieben, viele Informationen aus den vorliegenden Daten extrahiert werden: Einerseits
18
Konzeptionelle Grundlagen
muss identifiziert werden, welche Entität das Objekt der Bewertung ist. Je nach Datenquelle kann diese Information bereits vorhanden sein und somit direkt entnommen werden. Zum Beispiel existiert diese Information bereits, wenn der Nutzer, wie in OnlineRezensionen, explizit um Feedback zu einer bestimmten Entität (z.B. einem Produkt) befragt wurde. In Blog- oder Forenbeiträgen besteht diese direkte Verbindung zu der Entität normalerweise nicht, sodass diese Information aus dem Text gewonnen werden muss: Named Entity Recognition beschäftigt sich allgemein mir der Identifizierung von Entitäten, wie Personen, Unternehmen, Orten, Datums- oder Preisangaben, in Texten (vgl. Turban et al. 2007). Einige Forschungsarbeiten befassen sich, über diese generischen Entitäten hinaus, mit dem speziellen Problem der Produkterkennung in Freitexten (Product Named Entity Recognition) (vgl. Feldman et al. 2007, Luo/Xiao/Chang 2011, Wu/Fang/Tang 2012). Außerdem muss erkannt werden, welcher Aspekt der Entität evaluiert wird. Aspekte können, wie in dieser Arbeit, Attribute von Produkten darstellen. Aber auch Wahlinhalte einer Partei im Wahlkampf sowie Merkmale oder Charakterzüge einer Person sind denkbare Aspekte, die je nach Datengrundlage erfasst werden können. In dem Satz „The camera of the phone is amazing“ wird explizit das Attribut „camera“ des Smartphones evaluiert. In natürlicher Sprache können Evaluationen jedoch auch implizit ausgedrückt werden, was die Identifizierung des jeweiligen Attributs erschwert. „The phone takes great pictures“ ist demnach eine weitere Möglichkeit das gleiche Attribut positiv zu bewerten, jedoch ohne die Kamera explizit zu erwähnen (vgl. Liu 2012). Ein weiteres Problem der Analyse von Meinungen ist eine sinnvolle Gruppierung von Begriffen (vgl. Zhai et al. 2011). In natürlicher Sprache verwenden Nutzer viele verschiedene Begriffe, um das gleiche Konstrukt (hier Attribut) zu beschreiben. Diese Begriffe (z.B. Synonyme) sind häufig kontextspezifisch: In dem vorherigen Beispiel wären „camera“ und „photo“ zwar keine Synonyme, jedoch semantisch ähnliche Wörter, die genutzt werden, um die Kamera von Smartphones zu bewerten. Bei der Bewertung von Biersorten nutzen Meinungshalter beispielsweise die Wortpaare „taste“ und „flavor“, sowie „aroma“ und „smell“ synonym, um den Geschmack bzw. den Geruch zu bewerten. Eine sinnvolle Zusammenfassung dieser Synonyme erhöht in der ganzheitlichen Betrachtung eines Korpus somit die Anzahl an Bewertungen des Attributs und trägt zu einer höheren Bewertung der Attributwichtigkeit bei.
Sentiment Analyse
19
Können diese Informationen aus einem Korpus extrahiert werden, kann die SentimentExtrahierung (auch Klassifizierung genannt) durchgeführt werden, indem die Polarität der Meinungsäußerungen bewertet wird. 2.2.3 Ansätze zur Sentiment-Extrahierung Generell lassen sich Ansätze zur Extraktion der Stimmung in zwei Klassen unterteilen: Wörterbuch-basierte Ansätze und Verfahren durch Anwendung von überwachten Lernalgorithmen (vgl. Liu 2012). Wörterbuch-basierte Sentiment Analysen nutzen dabei Listen von positiven und negativen Wörtern, während überwachte Lernalgorithmen aus einem großen Korpus von Dokumenten mit (meistens) manuell annotierten SentimentKennzeichnungen lernen (vgl. Liu 2012, Pang/Lee 2008). Im Folgenden werden die Unterschieden der beiden Ansätze herausgearbeitet. Traditionelle Wörterbuch-basierte Ansätze nutzen allgemeingültige Sentiment-Lexika, welche jedem Wort eines Dokumentes einen Valenzwert (z.B. positiv, neutral oder negativ) zuordnen. Anschließend wird dieses Dokument bewertet, indem die Anzahl an positiven und negativen Wörtern gezählt wird. Für diese einfache Art der Stimmungsanalyse existieren bereits einige Meinungswörterbücher, wie beispielsweise das SentiWordNet (vgl. Esuli/Sebastiani 2006), die große Mengen von sowohl positiven als auch negativen Wörtern auflisten. Die Schwierigkeit bei diesem Ansatz ist, dass nicht alle Meinungswörter eindeutig einer Valenz zugeordnet werden können. Bei Wörtern, die generell positive (z.B. „amazing“, „great“, „good“ etc.) oder generell negative (z.B. „worst“, „bad“, „terrible“ etc.) Stimmungen transportieren, ist eine global einheitliche Zuordnung der Polarität selbstverständlich möglich. Bei Meinungsworten, die sowohl positive als auch negative Gedanken ausdrücken können, fällt diese einheitliche Zuordnung jedoch häufig schwer (vgl. Liu 2012): Beispielsweise drückt „long“ in dem Satz „The battery life of the phone is very long.“ eine positive Bewertung der Akkulaufzeit (engl. battery life) aus. Dass die Interpretation dieses Meinungswortes jedoch stark kontextabhängig ist, wird durch folgendes Beispiel verdeutlich: „The way from the hotel to the city was very long.“. In dieser Rezension eines Hotels wird das Meinungswort „long“ verwendet, um die Lage des Hotels negativ zu bewerten. Die Valenz von Meinungsworten kann jedoch nicht nur von der Domäne (hier Smartphones und Hotels) abhängig sein, sondern kann auch innerhalb einer Domäne, je nach evaluiertem Aspekt, variieren. So könnte „long“ auch
20
Konzeptionelle Grundlagen
eine negative Meinung über die Kamera des Smartphones bekunden: „The focus time of the smartphone camera is very long.“. Ansätze, die auf allgemeingültigen Wörterbüchern basieren haben deshalb häufig Schwierigkeiten die korrekte Stimmung von kontextabhängigen Meinungsworten zu erfassen (vgl. Liu 2012). Des Weiteren können Meinungen auch ausgedrückt werden, ohne spezifische Meinungsworte zu verwenden: So birgt der Satz „The toothpaste made my teeth yellow.“ eine sehr negative Haltung gegenüber dem evaluierten Produkt (Zahnpasta), obwohl keines der verwendeten Worte allgemein negativ konnotiert ist (vgl. Liu 2012). Wörterbuch-basierte Ansätze haben deshalb Probleme solche Sätze korrekt zu klassifizieren. Zu guter Letzt können Wörter durch den Kontext (beispielsweise durch die vorangehenden Worte) ihre Valenz verändern (vgl. Pang/Lee 2008). So beeinflussen Negationen normalerweise, ob eine Meinung positiv oder negativ gemeint ist (z.B. „great“ zu „not great“ und „bad“ zu „not bad“). Da viele Wörterbuch-basierte Ansätze lediglich auf Unigrammen beruhen und somit einzelne Wörter bewerten, weisen solche Ansätze in diesen Fällen erhebliche Schwächen auf. Aufgrund der mangelnden Kontextabhängigkeit stoßen traditionelle Sentiment Analysen auf Basis von generischen Wörterbüchern schnell an ihre Grenzen. Aus diesem Grund gibt es weitere Ansätze, bei denen domänenspezifische Sentiment-Wörterbücher dynamisch generiert werden. Die Methoden lassen sich in zwei Kategorien unterteilen: In Lexikon- und Korpus-basierte Ansätze (vgl. Liu 2012). Lexikon-basierte Ansätze benötigen einige wenige Wörter (engl. seed words) von positiven und negativen Meinungsworten, die anschließend durch Lexika (z.B. WordNet) erweitert werden (beispielsweise durch die Suche nach Synonymen und Antonymen) (vgl. Blair-Goldensohn et al. 2008). Korpus-basierte Ansätze dagegen gewinnen diese Informationen aus dem Textkorpus selbst: Die Methode Double Propagation (vgl. Qiu et al. 2011) startet (wie Lexikonbasierte Verfahren) mit nur wenigen Seed-Wörtern, die Meinungen in der Domäne evaluieren (z.B. „great“, „bad“ etc.), und sucht unter Verwendung von Dependency Taggern nach Tupeln von Attributen und Meinungsworten. Aus diesen Tupeln werden anschließend die Attribute extrahiert, die durch diese Seed-Wörter evaluiert werden. Im nächsten Schritt werden dann weitere Meinungsworte gesucht, die auch diese Attribute evaluieren. Dieser Vorgang wird so häufig durchgeführt, bis keine weiteren Attribute
Sentiment Analyse
21
und Meinungsworte gefunden werden können. Double Propagation erweitert somit Attribute und Meinungsworte durch die textuellen Inhalte selbst, sodass sich die manuelle Interaktion auf die Eingabe einiger weniger Attribute beschränkt. Qiu et al. (2011) haben dieses Verfahren verwendet, um Sentiment-Lexika für verschiedene Domänen zu kreieren, unterscheiden innerhalb dieser Domänen jedoch nicht, welche Aspekte evaluiert werden. Ein Meinungswort besitzt daher innerhalb einer Domäne immer die gleiche Valenz. Sowohl Lexika- als auch Korpus-basierte Ansätze benötigen somit einen reduzierten manuellen Input in Form von wenigen Meinungswörtern. Überwachte Lernalgorithmen benötigen, im Gegensatz zu den bisher vorgestellten Ansätzen, keine Wörterbücher, da sie anhand eines speziellen Trainingsdatensatzes trainiert werden (vgl. Liu 2012). Ähnlich wie generische Sentiment-Wörterbücher existieren bereits trainierte Classifier (beispielsweise von der Stanford coreNLP), die genutzt werden können, um Valenzen in Dokumenten oder Sätzen zu bestimmen. Die bereits trainierten Classifier besitzen jedoch ähnliche Nachteile wie generische Wörterbücher, da sie die Stimmungspolaritäten von Wörtern (oder anderen Features wie Bigramme, Part-of-Speech Tags etc.) anhand eines bestimmten (häufig allgemeingültigen) Trainingsdatensatzes erlernt haben. Darüber hinaus benötigt das Training domänenspezifischer Sentiment Classifier einen großen Trainingsdatensatz von gekennzeichneten Dokumenten. Für das Training einer Aspekt-basierten Sentiment Analyse müssten deshalb Trainingsdatensätze mit den Valenzen (z.B. positiv, negativ und neutral) der Dokumente für jedes Attribut manuell annotiert werden. Dem Vorteil einer kontextspezifischen Erkennung der Valenzen steht somit der enorme manuelle Kennzeichnungsaufwand gegenüber. Anhand eines annotierten Lernkorpus können beliebige überwachte Klassifizierungsalgorithmen zur Sentiment-Extrahierung verwendet werden. Die Forschung von Tai/Socher/Manning (2015) hat die Genauigkeit (engl. accuracy) verschiedener überwachter Machine Learning Algorithmen sowie weiter fortgeschrittener Deep Learning Algorithmen (unter Verwendung von neuronalen Netzen) für die Sentiment-Extrahierung (vgl. Socher et al. 2013) getestet. Dabei haben die geprüften Ansätze Genauigkeiten von 80% bis 88,1% in binären Sentiment Klassifizierungsaufgaben (positiv oder negativ) erzielt. Das Ergebnis verschlechterte sich bei Tests auf einer feinkörnigeren Sentiment-Skala mit fünf Klassen deutlich: Die Ansätze erlangten hier nur noch eine Genauigkeit von 40% bis 50% (vgl. Tai/Socher/Manning 2015). Insbesondere die Ansätze auf Basis von
22
Konzeptionelle Grundlagen
neuronalen Netzen, wie Convolutional Neural Networks (CNN) (vgl. Kim 2014), Recurrent Neural Networks (RNN) (vgl. Socher et al. 2013) oder Long Short-Term Memory Networks (LSTM) (vgl. Tai/Socher/Manning 2015) konnten die Überlegenheit von Deep Learning Algorithmen gegenüber klassischen Machine Learning Ansätzen für die Anwendung der Sentiment-Klassifizierung demonstrieren. Dennoch sind Support Vector Machines (SVM) in vielen Vergleichsstudien wettbewerbsfähig und schneiden nur geringfügig schlechter ab. Andere Studien berichten von Genauigkeitswerten für SVMs von bis zu 82% (vgl. Pang/Lee/Vaithyanathan 2002) und 90% (vgl. Maas et al. 2011, Pang/Lee 2004). Besonders im Vergleich zu anderen überwachten Maschine Learning Ansätzen, wie zum Beispiel Naïve Bayes (NB) oder Maximum Entropy (ME) Modellen, schneiden SVMs signifikant besser in Sentiment-Klassifizierungsaufgaben ab (vgl. Yu et al. 2011). Im Gegensatz zu Deep Learning Ansätzen lassen sich Support Vector Machines mit deutlich geringerem Rechenaufwand trainieren. 2.3 Präferenzmessung und Conjoint Analyse Konsumentenpräferenzen zu analysieren und zu verstehen ist eine zentrale Marktforschungsaufgabe, die Unternehmen hilft Angebote an die Marktnachfrage anzupassen (vgl. Farris et al. 2010). In diesem Kapitel wird das Verfahren der Präferenzerhebung dargestellt und Messmethoden vorgestellt. Präferenzmessungen unterscheiden sich zunächst hinsichtlich der zugrundeliegenden Datenbasis. Demnach wird zwischen mitgeteilten (engl. stated preference) und offengelegten Präferenzen (engl. revealed preference) (vgl. Louviere/Hensher/Swait 2000, Train 2009) unterschieden. Während offengelegte Präferenzen aus Beobachtungen von Kundenverhalten in realen Marktumgebungen ermittelt werden, stützen sich mitgeteilte Präferenzmessungen auf direkte Befragungen der Zielgruppe. Da im Rahmen dieser Dissertation eine Konsumentenbefragung zur Ermittlung der Präferenzen durchgeführt wird, fokussiert sich der verbleibende Teil dieses Kapitels auf Bewertungen durch mitgeteilte Präferenzen. Auf der Basis primärer Datenerhebung existieren heutzutage bereits viele verschiedene Messmethoden, um einen Einblick in Kundenbedürfnisse zu erlangen. Die verbreitetste Form ist die Conjoint Analyse (CA), welche das Ziel verfolgt, Nutzenfunktionen von Konsumenten zu schätzen (vgl. Gensler 2013). Nach der Grundidee von multiattributi-
Präferenzmessung und Conjoint Analyse
23
ven Nutzenmodellen (engl. multiattribute utility models) setzt sich dabei der Gesamtnutzen eines Produktes oder Services aus den Teilnutzen der einzelnen Merkmalsausprägungen (z.B. Ausprägungen der Produktattribute) zusammen (vgl. Lancaster 1966). Bei der Conjoint Analyse wird ein deterministischer Nutzen vorausgesetzt, bei dem angenommen wird, dass die Bewertungen der Konsumenten keiner Unsicherheiten unterliegen (vgl. Hahn 1997). Ein Smartphone könnte beispielsweise durch einige funktionale Eigenschaften, wie einem Prozessor und einer Speichereinheit sowie einigen nicht-funktionalen (abstrakten) Merkmalen, wie einer Marke, beschrieben werden. Diese Merkmale können dabei verschiedene Ausprägungen aufweisen. Für ein Smartphone existieren somit Alternativen mit einem Speicher von beispielsweise 16 GB, 32 GB oder 64 GB von verschiedenen Marken wie Apple, Samsung oder LG. Jede dieser Ausprägungen spendet dem Konsumenten dabei einen individuellen Teilnutzen (engl. part worth). Der Gesamtnutzen eines Produktbündels berechnet sich anschließend aus der Summe aller Teilnutzenwerte. 2.3.1 Allgemeiner Prozess der Conjoint Analyse In Anlehnung an Backhaus et al. (2005) und Green/Srinivasan (1978) kann der Prozess einer Conjoint Analyse in sieben Schritte unterteilt werden: 1. Zunächst muss die Art der Conjoint Analyse festgelegt und der untersuchte Markt abgegrenzt werden (beispielsweise durch die Identifizierung von Produkten oder Services, die evaluiert werden sollen). 2. Anschließend werden Attribute ausgewählt, welche den Gesamtnutzen der Produkte dieses Marktes repräsentieren. Da es keinen etablierten Gold-Standard für diesen Auswahlprozess gibt, können an dieser Stelle verschiedene Methoden zum Einsatz kommen. Am häufigsten werden jedoch qualitative Methoden, wie Tiefeninterviews oder Fokusgruppen, herangezogen, um die für Konsumenten wichtigsten Attribute zu identifizieren (vgl. Louviere/Flynn/Carson 2010). Des Weiteren sind Think-Aloud Tests oder Fragebögen ebenfalls mögliche Verfahren zur Attributidentifizierung. 3. Im dritten Schritt werden die Ausprägungen zu den jeweiligen Attributen ausgewählt, welche den Markt bestmöglich abdecken. Folgende Gütekriterien sollte
24
Konzeptionelle Grundlagen
die Liste an Attributen und Ausprägungen erfüllen (vgl. Backhaus et al. 2005, Green/Srinivasan 1978): -
Attribute müssen relevant für die Kaufentscheidung sein.
- -
Attribute müssen durch den Hersteller beeinflussbar sein. Die ausgewählten Attribute sollten unabhängig voneinander sein, sodass die Bewertung eines Attributs nicht die Bewertung eines weiteren Attributs be-
- -
einflusst. Durch die Attribute und Merkmalsausprägungen müssen die wichtigsten Produkte des definierten Marktes abbildbar sein. Die einzelnen Ausprägungen stehen in einer kompensatorischen Beziehung zueinander. Nach dieser Annahme setzt sich der Gesamtnutzen eines Produktes aus der Summe aller Teilnutzen der enthaltenden Ausprägungen zusammen. Einzelne Ausprägungen sind dabei substituierbar, wonach eine schlechte Ausprägung eines Attributs durch eine positive Ausprägung eines anderen Attributs aufgewogen werden kann.
-
Die Attribute dürfen keine Ausschlusskriterien darstellen, da bei dem Auftreten von Ausschlusskriterien das kompensatorische Verhältnis der Ausprägungen nicht mehr vorhanden ist.
- -
Alle wichtigen Attribute sollten berücksichtigt werden. Die Anzahl an Attributen und Ausprägungen ist begrenzt. Bei einem vollständigen Versuchsplan einer Full-Profile Conjoint Analyse wächst der Befragungsaufwand exponentiell mit der Zahl der Eigenschaftsausprägungen.
4. Anschließend werden die Ausprägungen zu möglichen fiktiven Angeboten (Stimuli) kombiniert. Meistens werden vollständige Profile (engl. full-profile) verwendet, was bedeutet, dass jedes Angebot aus einer Kombination von Ausprägungen aller Attribute besteht. Als vollständiger Versuchsplan (engl. full-factorial design) wird das experimentelle Design bezeichnet, welches alle möglichen Kombinationen aus Attributausprägungen beinhaltet. Bei einer Conjoint Analyse mit fünf Attributen und jeweils zwei Ausprägungen (auch Level genannt) können somit 25 =32 verschiedene Angebote generiert werden. Um die hohe Informationslast des Probanden bei der Evaluation vieler Profile zu verringern, existieren viele statistische Verfahren zur Generierung eines kleineren Teilfaktorplans (engl. fractional factorial design). Da die primäre Präferenzerhebung durch eine
Präferenzmessung und Conjoint Analyse
25
Conjoint Analyse jedoch nicht im Fokus dieser Dissertation steht, werden entsprechende Verfahren an dieser Stelle nicht detaillierter vorgestellt. 5. In Schritt 5 wird das Design der Conjoint-Aufgabe festgelegt. Je nach Variante der Conjoint Analyse variiert dabei die Präsentations- und Bewertungsform der Stimuli. Bei einer klassischen Single-Profile Conjoint Analyse bewerten Probanden beispielsweise einzelne Profile auf einer Ratingskala, während dem Probanden bei einer Choice-based Conjoint Analyse mehrere Profile gleichzeitig vorliegen, von denen die präferierte Alternative ausgewählt wird. Die einzelnen Ausprägungen der Stimuli werden bei einer Fragebogen-basierten Erhebung üblicherweise textuell dargestellt, dennoch sind auch visuelle Darstellungen möglich (z.B. durch Bilder der fiktiven Angebote). 6. Im sechsten Schritt wird die Stichprobe festgelegt und die Datenerhebung durchgeführt. Die Erhebung kann dabei in verschiedenen Formen vorgenommen werden (z.B. Online-Fragebogen, Interviews, Papier-Fragebogen etc.). 7. Im letzten Schritt werden die Daten unter Verwendung eines geeigneten Models analysiert, um Teilnutzenwerte, Attributwichtigkeiten und Produktpräferenzen abzuleiten. 2.3.2 Arten der Conjoint Analyse Grundsätzlich ist die Conjoint Analyse ein dekompositionelles Verfahren, welches ein additives Modell der Teilnutzenwerte voraussetzt. Genau genommen ist sie daher ein statistisches Verfahren, durch welches Teilnutzenwerte für Attributausprägungen anhand von Evaluationen verschiedener Produktbündel (Profile) ermittelt werden. Aufgrund der langjährigen Forschung zu Conjoint Analysen sind einige Varianten entstanden, die sich hinsichtlich der Repräsentation der Stimuli und der Bewertungsart (z.B. Ranking aller Profile oder Bewertung von Paarvergleichen) unterscheiden. Die verschiedenen Ansätze verfolgen dabei überwiegend zwei Ziele: Eine Überlastung der Probanden zu verhindern und möglichst realitätsnahe Entscheidungssituationen zu simulieren (vgl. Carroll/Green 1997). Tabelle 1 vergleicht die wichtigsten Varianten der Conjoint Analyse.
26
Konzeptionelle Grundlagen
Conjoint-Variante
Stimuli
Skala
Anzahl Profile pro Choice Set
Self-explicated Methode (kompositionell) Trade-off Methode Single Profile CA Ranking-based CA Paired Comparison CA
Level (direkte Beurteilung der Teilnutzenwerte) Teilprofile vollständige Profile vollständige Profile
Keine (direkte Evaluation der Wichtigkeiten und Teilnutzenwerte) Teilmenge Eins Alle
Discrete Choice CA
vollständige Profile
Rating oder KonstantSummen-Skala Ranking Rating Ranking Nominal (binär) Nominal (mehrere)
Graded Paired Comparison CA
vollständige Profile
Rating
Zwei
Adaptive CA
Teilprofile & vollständige Profile
Rating & Trade-off
Zwei (in dekompositionellem Teil)
vollständige Profile
Zwei Mehrere
Tabelle 1: Vergleich verschiedener Varianten der Conjoint Analyse
Obwohl die Self-explicated Methode einen kompositionellen Ansatz verfolgt und es sich demzufolge um keine klassische Conjoint Analyse handelt, wurde die Methodik aufgrund der weiten Verbreitung in diesem Überblick eingeschlossen (vgl. Sattler/Hensel-Börner 2001). Bei dieser Variante müssen Probanden üblicherweise alle Teilnutzenwerte pro Level bewerten (z.B. auf einer 10er-Skala), bevor sie anschließend die Attribute hinsichtlich ihrer Wichtigkeit anordnen (z.B. auf einer Konstant-Summen-Skala). Somit werden sowohl Attributwichtigkeiten als auch Teilnutzenwerte direkt abgefragt. Bei der Trade-off Methode bestehen die Stimuli aus jeweils zwei Attributen. Bei dieser Variante müssen Probanden üblicherweise alle möglichen Ausprägungskombinationen dieser beiden Attribute nach ihren Präferenzen sortieren. Dabei ergeben sich bei der Analyse von 5 Attributen iA Trade-Off-Matrizen, die von den Befragten ausgefüllt werden. Aufgrund des geringen Realitätsgrades der Trade-Off Methode werden Methoden mit vollständigen Profilen häufig vorgezogen (vgl. Backhaus et al. 2005, Johnson et al. 2013). Single Profile und Ranking-based Conjoint Analysen werden häufig als die klassischen Formen der Conjoint Analysen bezeichnet. Die Bewertung der einzelnen Stimuli (vollständige Profile) kann dabei durch ein Rating auf einer Skala (hier Single Profile CA genannt) oder durch eine Rangreihung (engl. ranking) aller Stimuli erfolgen (Rankingbased CA) (vgl. Green/Srinivasan 1978).
Präferenzmessung und Conjoint Analyse
27
Choice-based Conjoint Analysen (CBC), zu denen die Paired Comparison CA und die Discrete Choice CA gehören, behandeln hauptsächlich zwei Nachteile traditioneller Conjoint Analyse: Zum einen reduzieren Auswahlentscheidungen den „Task Load“, im Verhältnis zu der Ranking-basierten CA (da Auswahlentscheidungen zwischen wenigen Alternativen einfacher zu bewerten sind als die Rangreihung aller Alternativen), zum anderen sind diese Auswahlszenarien realitätsnäher. Die Paired Comparison CA vergleicht jeweils zwei Alternativen, aus denen der Proband die präferierte Alternative wählen soll. Die Discrete Choice CA setzt sich hingegen aus drei oder mehr Stimuli pro Choice Set zusammen. Häufig wird zudem jedem Choice Set eine zusätzliche „No Choice“-Alternative hinzugefügt, die von den Probanden gewählt werden kann, wenn keine der vorgestellten Alternativen den Bedürfnissen entspricht. Eine größere Anzahl an Profilen steigert dabei die Komplexität pro Aufgabe („Task Load“) der Probanden, was zu einer schnelleren Abnahme der Konzentration und somit der Ergebnisqualität führt (vgl. Gensler 2013, Großmann 2003). Die Graded Paired Comparison Conjoint Analyse (GPC CA) unterscheidet sich von der Paired Comparison CA bezüglich der Erfassungsskala. Während bei der Paired Comparison CA nominale Entscheidungen hinsichtlich der Präferenz zweier Alternativen getätigt werden, wird bei der GPC CA zudem die Stärke der Präferenz der zwei alternativen Profile durch eine Rating-Skala (z.B. durch eine 9-Punkte-Skala von (1) „starke Präferenz für Alternative A“ über (5) – „unentschlossen“ bis (9) „starke Präferenz für Alternative B“) erfasst. Dadurch werden in jeder Auswahlentscheidung mehr Informationen erhoben (vgl. Großmann 2003). Adaptive Conjoint Analysen (ACA) werden als hybride Methoden bezeichnet, da sie sowohl eine kompositionelle als auch eine dekompositionelle Komponente beinhalten. Bei der ACA müssen Probanden in dem kompositionellen Teil zunächst alle Merkmalsausprägungen innerhalb der jeweiligen Attribute bewerten (Rating-Skala). Nachdem die Präferenzen der Level erlernt wurden, werden die Wichtigkeiten der Attribute erfasst (Rating- oder Konstant-Summen-Skala). Beispielsweise kann die Bestimmung durchgeführt werden, indem die Ausprägungen mit der jeweils besten und schlechtesten Bewertung eines Attributs gegenübergestellt werden. Der Proband soll somit zwei Profile bewerten, die sich lediglich hinsichtlich dieser Eigenschaft unterscheiden. Anschließend werden eine Reihe von Paarvergleichen gebildet, die der Proband, ähnlich wie in der
28
Konzeptionelle Grundlagen
GPC CA, bewertet. Dabei werden Profile gebildet, die sich in mindestens zwei Attributen unterscheiden. Da diese Methode zunächst Teilnutzenwerte auf Basis der kompositionellen Komponente schätzt und diese während der dekompositionellen Komponente (Paarvergleich) kontinuierlich anpasst und verwendet, um neue Paarvergleich zu bilden, kann dieses Verfahren nur softwaregestützt durchgeführt werden. Der letzte Teil der ACA generiert mehrere Stimuli, die sich aus den wichtigsten Attributen zusammensetzen, und fragt den Probanden nach der Kaufwahrscheinlichkeit dieser Produkte. Die gewonnenen Informationen fließen anschließend in eine erneute Kalibrierung der Teilnutzenwerte ein (vgl. Green/Krieger/Agarwal 1991). 2.3.3 Modellierung und Parameterschätzung In diesem Kapitel wird die Schätzung der Nutzenparameter erläutert. Bei der klassischen Conjoint Analyse wird ein kompensatorisches, additives Teilnutzenmodell unterstellt, wonach sich der Gesamtnutzen eines Produktes aus der Summe der Teilnutzenwerte der Attribute ergibt (siehe Formel 1) (vgl. Backhaus et al. 2005, Homburg/Kuester/Krohmer 2003). Dabei beschreibt 'X den Gesamtnutzten eines Produktprofiles % (beispielsweise der Rang des Profils), welcher sich aus der Linearkombination der Teilnutzenwerte ?de errechnet. In dem vorliegenden Modell stellt 100.000
Stichprobe Smartphone
Stichprobe Waschmittel
47,13% 52,88% 13,38% 24,00% 23,75% 25,88% 13,00% 13,50% 27,63% 31,38% 17,75% 9,75% 22,75% 23,50% 18,00% 12,25% 23,50% 800
48,00% 52,00% 13,25% 24,00% 23,75% 25,75% 13,25% 12,75% 28,00% 31,25% 18,00% 10,00% 22,75% 23,50% 18,00% 12,00% 23,75% 400
Tabelle 18: Stichprobenzusammensetzung der Conjoint Analysen
Evaluation
121
Der gesamte Fragebogenverlauf wird in Abbildung 30 dargestellt. Nach einer kurzen Einführung, der Feststellung der demografischen Merkmale (siehe Tabelle 18) sowie einer Familiaritätsfrage zu der untersuchten Kategorie („How familiar are you with the following product category?“), wurde den Teilnehmern jedes Attribut vorgestellt, um sie mit der Art der Bewertung (z.B. durch technische Metriken wie „pixel-per-inch“) und den jeweiligen Leveln vertraut zu machen (Schritt 1 bis 4). Durch diese ausführliche Erläuterung sollte sichergestellt werden, dass die Probanden die Metriken der Bewertung und die Ordnung der Level verstehen.
Abbildung 30: Aufbau des Fragebogens der Conjoint Analyse (Vergleichsstudie 2)
Nach dieser Einführung wurde zunächst eine Testfrage gestellt, welche ausschließlich zur Qualitätsfeststellung, jedoch nicht zur Parameterschätzung, verwendet wurde (Schritt 5). Bei der Testfrage handelte es sich um eine Auswahlfrage mit identischer Darstellung, wie die der folgenden Paarvergleiche. Für die Testfrage wurden die Profile so gewählt, dass eine klar überlegene Alternative existierte, bei der alle ordinal skalierten Attribute eines Profils eine überlegene Ausprägung, gegenüber der jeweiligen Ausprägung des alternativen Profils, besaßen. Für alle nominal skalierten Attribute wurden
122
Studie 2: Automatisierte Attribut-Evaluierung
identische Level für beide Profile gewählt. Probanden mit geringer Antwortqualität konnten so identifiziert und exkludiert werden. Zuletzt wurden dem Probanden die 15 Conjoint-Fragen aus einem Block gestellt (Schritt 6). Die Paarvergleiche der Graded Paired Comparison Conjoint Analyse wurden dabei mit einer 9-Punkte Intervall-Skala von „starke Präferenz für Alternative A“ bis „starke Präferenz für Alternative B“ operationalisiert (siehe Abbildung 31), wodurch die relativen Präferenzen der beiden Profile bestimmt wurden. Alle Blöcke eines Designs wurden den Teilnehmer gleichverteilt zugeordnet, die Fragen innerhalb eines Blockes wurden für jeden Probanden zufällig sortiert.
Abbildung 31: Frage der Graded Paired Comparison Conjoint Analyse
6.3.4 Ergebnisse der Conjoint Analysen Vor Beginn der Analyse wurden zunächst Antworten von Nutzern mit geringer Qualität anhand von drei Kriterien aussortiert: Falsche Antwort auf die Testfragen (siehe Kapitel 6.3.3), sehr kurze Ausführungszeiten (kürzer als 3 Minuten) und auffälliges Klickverhalten (immer gleiche Antwort auf der Ratingskala). Da diese Arbeit lediglich an der Auswertung von aggregierten Teilnutzenwerten interessiert ist, wurden die Antworten aller Probanden gemeinsam analysiert. Bei dieser Form der aggregierten Analyse kann jede Antwort als Wiederholung des Designs angesehen werden (vgl. Backhaus et al. 2005). Auf Basis der Effekt-kodierten Parameter wurde eine Differenzmatrix (durch Subtraktion der kodierten Profile pro Paarvergleich) erstellt, um die unabhängigen Parameter mittels Ordinary Least Squares (OLS) Regression zu schätzen. Da Präferenzen relativ zu ihrer Alternative bewertet werden, muss in diesem Fall kein Achsenabschnitt geschätzt werden (siehe Herleitung und Formeln in Kapitel 2.3.3). Die Basisausprägungen wurden so gewählt, dass sie dem Level mit dem geringsten erwarteten Teilnutzen
Evaluation
123
des Attributs entsprechen (bei ordinal skalierten Variablen). Die abhängige Variable wurde so umkodiert, dass sie symmetrisch um Null liegt (durch Subtraktion von 5 der ursprünglichen 9er-Skala). Die Haupteffekte wurden durch die beiden Modelle in Formel 23 und 24 geschätzt, wobei Y das relative Präferenz-Rating beschreibt und e den Standardfehler kennzeichnet. Y = β11screen _ 1 + β12 screen _ 2 + β13 screen _ 3 + β14 screen _ 4 +
(23)
β 21battery _ 1 + β 22battery _ 2 + β 23battery _ 3 + β 24battery _ 4 + β 25battery _ 5 + β 31 price _ 1 + β 32 price _ 2 + β 33 price _ 3 + β 34 price _ 4 + β 35 price _ 5 + β 41camera _ MP _ 1 + β 42camera _ MP _ 2 + β 43camera _ MP _ 3 + β 44camera _ MP _ 4 + β 45camera _ MP _ 5 + β 51camera _ video _ 1 + β 52camera _ video _ 2 + β 61memory _ gb _ 1 + β 62 memory _ gb _ 2 + β 63memory _ gb _ 3 + β 64 memory _ gb _ 4 + β 71memory _ sd _ 1 + β 81size _ 1 + β 82 size _ 2 + β 83 size _ 3 + β 84 size _ 4 + β 91brand _ 1 + β 92brand _ 2 + β 93brand _ 3 + β 94brand _ 4 + β 95brand _ 5 + e Y = β11cleaning _ power _ 1 + β12cleaning _ power _ 2 + β13cleaning _ power _ 3 + β14cleaning _ power _ 4 +
(24)
β 21 price _ 1 + β 22 price _ 2 + β 23 price _ 3 + β 24 price _ 4 + β 31brand _ 1 + β 32brand _ 2 + β 33brand _ 3 + β 34brand _ 4 + β 35brand _ 5 + β 36brand _ 6 + β 37brand _ 7 + β 38brand _ 8 + β 39brand _ 9 + β 310brand _ 10 + β 41 form _ 1 + β 42 form _ 2 + β 51sensitive _ skin _ 1 + β 61size _ 1 + β 62 size _ 2 + e
Die Ergebnisse der Schätzungen, die auf 7.395 (Smartphones) und 3.225 (Waschmittel) Beobachtungen (15 Beobachtungen pro Teilnehmer) beruhen, können aus den Tabelle 19 (Smartphones) und Tabelle 20 (Waschmittel) entnommen werden. Die Resultate der Conjoint Analyse zu Smartphones offenbaren dabei signifikante Effekte für die höchste Bildschirmauflösung („screen“), drei von vier Akkulaufzeit-Variablen („battery“), vier von fünf Preis-Variablen, drei von vier Variablen des internen Speichers („memory_gb“) sowie für die Variable der SD-Speicherkarte („memory_sd“). Außerdem weist eine Größen-Variable („size“) und drei von fünf Marken-Variablen („brand“) signifikante Haupteffekte auf. Das korrigierte Bestimmtheitsmaß (adjusted R2) sollte jedoch mit Vorsicht betrachtet werden, da Beobachtungen von allen Probanden gemeinsam analysiert wurden, Konsumenten-Präferenzen jedoch ein hohes Maß an Heterogenität aufweisen können.
Studie 2: Automatisierte Attribut-Evaluierung
124 Parameter
Estimate
Std. Error
t value
Pr(>|t|)
screen_1 screen_2 screen_3 screen_4 battery_1 battery_2 battery_3 battery_4 battery_5 price_1 price_2 price_3 price_4 price_5 camera_MP_1 camera_MP_2 camera_MP_3 camera_MP_4 camera_MP_5 camera_video_1 camera_video_2 memory_gb_1 memory_gb_2 memory_gb_3 memory_gb_4 memory_sd_1 size_1 size_2 size_3 size_4 brand_1 brand_2 brand_3 brand_4 brand_5
-0,058336 -0,05035 0,01071 0,220931 -0,076518 -0,166002 0,068898 0,21398 0,275596 -0,60305 -0,264168 0,068927 0,770067 0,900964 -0,242155 0,00437 0,027509 0,062682 0,212139 -0,008914 0,070707 -0,136288 -0,055236 0,110165 0,259952 0,064457 -0,010309 0,008509 -0,06521 0,128904 0,254805 -0,10429 -0,168807 -0,159399 0,015485
0,046703 0,047672 0,039319 0,042462 0,053036 0,049699 0,050589 0,048749 0,043683 0,048958 0,049937 0,054205 0,046206 0,053215 0,050132 0,06544 0,054861 0,055142 0,053515 0,03515 0,030662 0,048094 0,048857 0,045111 0,04627 0,021266 0,039601 0,051017 0,044457 0,05341 0,053159 0,06767 0,059481 0,064189 0,061752
-1,249 -1,056 0,272 5,203 -1,443 -3,34 1,362 4,389 6,309 -12,318 -5,29 1,272 16,666 16,931 -4,83 0,067 0,501 1,137 3,964 -0,254 2,306 -2,834 -1,131 2,442 5,618 3,031 -0,26 0,167 -1,467 2,414 4,793 -1,541 -2,838 -2,483 0,251
0,211679 0,290924 0,785334 0,0000**** 0,149132 0,000842**** 0,173266 0,0000115**** 0,0000**** 0,0000**** 0,0000**** 0,203559 0,0000**** 0,0000**** 0,0000**** 0,946754 0,61608 0,255684 0,0000**** 0,799817 0,021137** 0,004613*** 0,258275 0,014626** 0,0000**** 0,002445*** 0,794619 0,867546 0,142472 0,015824** 0,0000**** 0,123324 0,004552*** 0,013039** 0,802008
Anmerkung: Adjusted R2 = 0,1437 sollte mit Vorsicht interpretiert werden, da alle Vergleiche gemeinsam analysiert wurden, Präferenzen jedoch ein hohes Maß an Heterogenität aufweisen können. * p < 0,1 ** p < 0,05 *** p < 0,01 **** p < 0,001
Tabelle 19: Ergebnisse der Parameterschätzung der Smartphone Conjoint Analyse
Evaluation
125
In der Conjoint Analyse zu Waschmitteln konnten signifikante Effekte für alle Variablen der Waschkraft („cleaning power“), drei der vier Preis-Parameter („price“), ein Level der Waschmittel-Form („form“) und der Größe („size“) sowie dem Parameter für die Sensitivität („skin_sensitive“) beobachtet werden. Lediglich bei dem Markenattribut („brand“) konnten keine signifikanten Parameter beobachtet werden. Parameter
Estimate
Std. Error
t value
Pr(>|t|)
cleaning_power_1 cleaning_power_2 cleaning_power_3 cleaning_power_4 price_1 price_2 price_3 price_4 brand_1 brand_2 brand_3 brand_4 brand_5 brand_6 brand_7 brand_8 brand_9 brand_10 form_1 form_2 skin_sensitive_1 size_1 size_2
-0,8032 0,2697 0,6756 13,006 -0,2544 -0,0115 0,3179 0,4279 0,0901 -0,1966 0,0495 -0,0405 -0,0821 0,2724 -0,3498 0,1201 0,0575 0,0797 -0,2842 0,0689 0,2043 -0,0111 0,0977
0,0920 0,1124 0,0819 0,0988 0,0958 0,1087 0,1050 0,0886 0,1313 0,1407 0,1285 0,1422 0,1149 0,2407 0,1891 0,1164 0,1021 0,1467 0,0461 0,0424 0,0278 0,0463 0,0441
-8,735 2,399 8,252 13,165 -2,656 -0,106 3,029 4,827 0,686 -1,398 0,386 -0,285 -0,715 1,132 -1,849 1,031 0,564 0,543 -6,165 1,624 7,345 -0,24 2,214
0,0000*** 0,0165* 0,0000*** 0,0000*** 0,008** 0,9157 0,0025** 0,0000*** 0,4927 0,1622 0,6999 0,7758 0,4748 0,2577 0,06450, 0,3024 0,5729 0,5872 0,0000*** 0,1045 0,0000*** 0,8100 0,0269*
Anmerkung: Adjusted R2 = 0,2025 sollte mit Vorsicht interpretiert werden, da alle Vergleiche gemeinsam analysiert wurden, Präferenzen jedoch ein hohes Maß an Heterogenität aufweisen können. * p < 0,1 ** p < 0,05 *** p < 0,01 **** p < 0,001
Tabelle 20: Ergebnisse der Parameterschätzung der Waschmittel Conjoint Analyse
Die entsprechenden Teilnutzenwerte werden in Abbildung 32 präsentiert. Unter den Teilnutzenwerten der Smartphone Conjoint Analyse befinden sich drei auffällige Werte: Erstens wurde für die Ausprägung von 10 Stunden („battery_1“) Akkulaufzeit ein geringerer Teilnutzenwert geschätzt als für 7,5 Stunden Akkulaufzeit (Basisausprägung).
126
Studie 2: Automatisierte Attribut-Evaluierung
Der Parameter „battery_1“ für 7,5 Stunden weist dabei jedoch keine Signifikanz auf. Zweitens wurde der Nutzen der Basisausprägung von 5 Megapixel höher bewertet als der Nutzen einer Smartphone-Kamera mit 8 Megapixel. Da 8 Megapixel und 24 Megapixel die beiden einzigen signifikanten Haupteffekte des Attributs („camera_MP“) sind, könnte eine Verzerrung der übrigen Schätzergebnisse zu der Überbewertung der Basisausprägung geführt haben. Drittens wurde die Größe von 5.5’’ mit dem geringsten Nutzen des Attributs geschätzt.
Anmerkung: Das obere Diagramm zeigt die Teilnutzenwerte der Smartphone Analyse. Das untere Chart präsentiert die Resultate der Waschmittel-Kategorie.
Abbildung 32: Teilnutzenwerte der Conjoint Analysen
Evaluation
127
Die relative Wichtigkeit der Attribute wj wurde anhand von Formel 4 (aus Kapitel 2.3.3) berechnet und wird für beide Kategorien in Abbildung 33 dargestellt. Obwohl die nicht vermeidbaren, geringen Korrelationen zwischen Parametern als Ursache für die hier auftretenden Verzerrungen nicht ausgeschlossen werden können, liefert die Korrelationsmatrix keine eindeutigen, erklärenden Beobachtungen (siehe Abbildung 29).
Anmerkung: Die linke Grafik präsentiert die Attributwichtigkeiten für Smartphones, während das rechte Diagramm die Ergebnisse für Waschmittel zeigt. Die vertikale Achse bestimmt die relative Wichtigkeit der Attribute.
Abbildung 33: Attributwichtigkeiten der Conjoint Analysen
6.3.5 Evaluation des automatisierten Ansatzes Der verbleibende Teil dieses Kapitels evaluiert den automatisierten Ansatz durch die Ergebnisse der Graded Paired Comparison Conjoint Analyse. Zunächst wurden die Ergebnisse beider Verfahren auf Produkt-Ebene bestimmt. Dieser Schritt ist notwendig, da der automatisierte Ansatz Teilnutzenwerte der Produktattribute ohne Wissen über die jeweiligen Level liefert. Im Gegensatz dazu spiegeln die Ergebnisse der Conjoint Analyse die Teilnutzenwerte der Ausprägungen (Level) wider. Um die Teilnutzenwerte auf Produkt-Ebene vergleichen zu können, wurden die Ausprägungen aller Attribute für die analysierten Produkte manuell recherchiert (z.B. Auflösung der Smartphone-Displays
128
Studie 2: Automatisierte Attribut-Evaluierung
in ppi). Veranschaulicht wird dieser Prozessschritt in Abbildung 34: Die linke Seite illustriert die automatisch erhobenen Daten, während die Teilnutzenwerte der Conjoint Analyse auf der rechten Seite stehen. Für die Smartphone-Kategorie wurden die entsprechenden Level der untersuchten Produkte auf dem Vergleichsportal GSMArena.com (vgl. GSMArena 2017) recherchiert. Informationen zu Megapixel, Speicherkapazität, Marke, Bildschirmauflösung, Größe, Videoauflösung, SD-Kartenslot und Akkulaufzeit wurden dieser Datenquelle entnommen. Bei der Akkulaufzeit führt das Portal verschiedene unabhängige Tests durch. Hier wurde das Rating der Akkulaufzeit während konstanter Web-Browsing Aktivitäten verwendet, um die Leistung der Produkte zu bewerten. Der Preis wurde auf Item-Ebene analysiert und daher direkt auf den entsprechenden Review-Webseiten erfasst. Für Waschmittel wurden die Level aller Attribute, mit Ausnahme der Waschkraft, direkt aus den entsprechenden Review-Webseiten gewonnen. Ein Produkt wurde dabei als sensitiv klassifiziert, falls eine klare Markierung auf der Verpackung sichtbar war. Beispielsweise wurde dabei auf Schlüsselbegriffe wie „skin sensitive“, „for sensitive skin“, „free of perfumes“, „recommended by dermatologists“ oder „hypoallergenic“ geachtet. Bei der Größe wurde die ausgewiesene Anzahl an Ladungen (engl. loads) herangezogen. Für die Bewertung der Waschkraft verwendet diese Arbeit das übergeordnete Rating von Consumer Reports (vgl. Consumer Reports 2017). Das amerikanische Pendent zu der deutschen Verbraucherorganisation Stiftung Warentest testet dabei, wie gut die jeweiligen Produkte verschiedene Fleckenarten entfernen. Bei nominal skalierten Attributen (z.B. Marke) wurde der entsprechende Teilnutzenwert der Conjoint Analyse, welcher der Ausprägung der Produkte entspricht, für die Evaluation verwendet. Für nicht nominal skalierte Variablen (z.B. Preis oder Bildschirmauflösung) wurden die Nutzenwerte der Produkte zwischen zwei Merkmalsausprägungen interpoliert, indem eine lineare Entwicklung zwischen zwei Leveln angenommen wird. Demnach wird beispielsweise der Nutzenwert für ein Produkt mit dem Preis von 300$ auf Basis der Teilnutzenwerte der beiden Level 250$ und 500$ berechnet.
Evaluation
129
Abbildung 34: Prozess der manuellen Annotation zur Erstellung des Vergleichsdatensatzes
Für Smartphones wurden jeweils die beiden Kamera-Attribute (Megapixel und Videoqualität) sowie die beiden Speicher-Attribute (interner Speicher und SD Kartenslot) aggregiert betrachtet, indem die Teilnutzenwerte beider Attribute summiert wurden. Außerdem wurde das Marken-Attribut („brand“) in der Evaluation ausgeschlossen, da es nicht eindeutig einem der automatisiert extrahierten Attribute zugeordnet werden konnte. Für Waschmittel wurden zwei automatisiert erhobene Attribute („job“ und „cleaning power“) zusammengefasst, die beide Meinungen über die Reinigungskraft der Produkte beinhalten und durch das Conjoint-Merkmal „cleaning power“ abgedeckt werden. Somit wurden sechs Smartphone-Attribute („screen resolution“, „battery life“, „price“, „camera“, „memory“ und „size“) und sechs Waschmittel-Attribute („cleaning power“, „price“, „brand“, „form“, „skin sensitivity“ und „size“) vergleichend betrachtet. Infolgedessen wurden die entsprechenden Teilnutzenwerte der Conjoint Analyse für jedes Attribut der Produkte (entsprechend den manuell annotierten Ausprägungen) zugeordnet und anschließend mit den automatisierten Bewertungen verglichen. Zunächst werden die Attribute-Wichtigkeiten der beiden Verfahren evaluiert, indem der minimale Teilnutzenwert von dem maximalen Teilnutzenwert subtrahiert wird, um die absolute und anschließend die relative Wichtigkeit der Attribute zu bestimmen. Diese variieren dabei von den zuvor dargestellten Wichtigkeiten der Conjoint Analyse (Abbildung 33), da zum einen einige Attribute der Conjoint Analyse zusammengefasst betrachtet werden und zum anderen die Wichtigkeiten von den höchsten und niedrigsten Ausprägungsebenen der tatsächlich untersuchten Produkte abhängen (z.B. beträgt die längste Akkulaufzeit der getesteten Produkte 17:56h, wohingegen das beste ConjointLevel 20h beträgt).
130
Studie 2: Automatisierte Attribut-Evaluierung
Attributwichtigkeiten für Waschmittel Abbildung 35 präsentiert die erhobenen Wichtigkeiten für Waschmittel. Grundsätzlich können dem Diagramm ähnliche Resultate für die untersuchten Attribute beider Ansätze entnommen werden. Dennoch ist, obwohl beide Bewertungsverfahren vergleichbare relative Wichtigkeiten erheben, die Divergenz der beiden Attribute „cleaning power“ und „size“ auffällig: Das Attribut „cleaning power“ wird dabei durch die automatisierte Erhebung deutlich unterbewertet, wohingegen „size“ im Vergleich zu den Conjoint-Ergebnissen erheblich überbewertet wird.
Anmerkung: Die linken (hellen) Balken zeigen die Wichtigkeiten des automatisierten Ansatzes, wohingegen die rechten (dunklen) Balken die Wichtigkeiten der Conjoint Analyse repräsentieren.
Abbildung 35: Vergleich der Attributwichtigkeiten für Waschmittel
Evaluation
131
Eine mögliche Erklärung für diese Beobachtung könnte die Präsentation des Attributs in der Conjoint Analyse sein, da den Probanden eine numerische Bewertung der Waschkraft präsentiert wurde. Diese numerische Bewertung des Consumer Reports Ratings suggeriert, dass eine exakte Evaluation der wahren Waschkraft möglich ist. Solche Informationen liegen Konsumenten während realen Kaufentscheidungen in dieser Form (ohne jegliche Unsicherheit) jedoch nicht vor. Im Gegensatz dazu beschreiben Nutzer in Produktrezensionen ihre Zufriedenheit bezüglich ihrer Erwartungen. Die exakte, numerische Bewertung der Waschkraft könnte somit dazu geführt haben, dass Probanden dem Attribut in dem Conjoint-Experiment einen höheren Stellenwert beimessen. Bei der Divergenz der Bewertungen des Attributs „size“ könnte die Erklärungsursache in dem Vergleich mit dem automatisiert erhobenen Attribut liegen, welches durch die Begriffe „bottle, container“ beschrieben wird. In Konsumentenreviews evaluieren Nutzer nämlich nicht ausschließlich die Größe, wenn sie über die Verpackung berichten. Demzufolge handelt lediglich eine Teilmenge aller Reviews, die automatisch mit dem Attribut „bottle, container“ klassifiziert wurden, von der Verpackungsgröße (engl. size). Die erhöhte Häufigkeit des Attributs könnte somit zu einer Überbewertung der Wichtigkeit geführt haben. Obwohl für die Wichtigkeiten der Waschmittel-Kategorie ein hoher Pearson-Korrelationskoeffizient von 0,8006 beobachtet werden kann, zeigt Tabelle 21, wie die Rangkorrelation durch die Überbewertung des Attributs „size“ negativ beeinflusst wird (deutlich geringere Korrelationskoeffizienten nach Kendall und Spearman). Im Gegensatz zu dem linearen Zusammenhang, welcher durch den Korrelationskoeffizienten nach Pearson gemessen wird, bewerten die beiden Rangkorrelationskoeffizienten nach Kendall und Spearman den monotonen Zusammenhang der Wichtigkeiten (vgl. Fahrmeir et al. 2016). Korrelationskoeffizienten
Smartphone
Waschmittel
8nk`\mh\i
-0,0286
0,4287
8f`i_\gg
-0,0667
0,4667
8k`\mnji
0,0802
0,8006
Tabelle 21: Korrelationsanalyse der Attributwichtigkeiten
132
Studie 2: Automatisierte Attribut-Evaluierung
Attributwichtigkeiten für Smartphones Im Gegensatz zu den vielversprechenden Ergebnissen der Waschmittel-Kategorie mit niedrigem Involvement, divergieren die Resultate der beiden Verfahren für Smartphones deutlich stärker (siehe Abbildung 36).
Anmerkung: Die linken (hellen) Balken zeigen die Wichtigkeiten des automatisierten Ansatzes, wohingegen die rechten (dunklen) Balken die Wichtigkeiten der Conjoint Analyse repräsentieren.
Abbildung 36: Vergleich der Attributwichtigkeiten für Smartphones
Ähnlich wie in der ersten Studie, konnte beobachtet werden, dass Rezensenten bevorzugt Meinungen über Erfahrungseigenschaften, wie Akkulaufzeit oder Kamera, und weniger über Sucheigenschaften, wie Preis oder Speicherkapazität, abgeben, was zu einer
Evaluation
133
erhöhten Wichtigkeitsbewertung der Erfahrungseigenschaften führt. Analog zu der Erklärung bezüglich der Divergenz bei Waschmittel-Verpackungen, könnte die Ursache der deutlichen Unterbewertung für das Attribut „screen“ der Conjoint Analyse ebenfalls in der Menge der zusammengefassten Meinungen der Rezensionen liegen. Dementsprechend lassen sich eine Vielzahl von verschiedenen Subthemen in dem Meinungscluster identifizieren, welche durch den automatischen Bewertungsansatz unter dem Attribut „screen“ vereint analysiert wurden. Nutzer drücken demnach neben der Dimension Bildschirmauflösung („screen resolution“), welche in der Conjoint Analyse bewertet wurde, auch Meinungen über Bildschirmhelligkeit, Robustheit (z.B. schnelles Brechen des Displays durch Stürze) oder Wasserresistenz aus. Ein paar beispielhafte AttributExtraktionen aus dem Review-Korpus, die diese Beobachtung stützen, werden in Tabelle 22 hervorgehoben. Review-Text „I hate this phone its battery is very bad there also there is strange color appears in the screen , I didn't expect that you sold me a bad item not as you said it's like a new“ „Sleep wake button doesnt work. Screen turned black and i cant turn it on cause the sleep wake button DOESNT WORK. I can hear the sounds but the screen is completely black“ „Great Phone! No problems at all with the phone! Perfect screen and glass!“ „Screen was poping in and out, returned for full refund.“ „Nice phone, very well built. Great screen N very clear to see n read.“
Sätze
Sentiment
1
--
1,2,3
--
3 1 2
++ 0 +
Tabelle 22: Beispiel-Rezensionen für das Attribut „screen“
Bei komplexen Produktkategorien kann die Vielzahl dieser Dimensionen kaum in einem einzelnen Conjoint-Experiment berücksichtigt werden, da sich komplexe Attribute nur schwer durch einzelne Metriken (wie pixel-per-inch zur Bewertung des Smartphone-Displays) realitätsnah abbilden lassen. Für einige Konsumenten könnte zwar die Höhe der Megapixel einer Smartphone-Kamera der entscheidende Aspekt zur Bewertung sein, für andere Nutzer könnten hingegen Faktoren wie Sensorgröße, Zoom-Fähigkeit oder Farbwiedergabe ausschlaggebend für die Bewertung sein. Das beschriebene Problem komplexer Attribute wird außerdem in Abbildung 37 visualisiert.
134
Studie 2: Automatisierte Attribut-Evaluierung
Abbildung 37: Problem der komplexen Attribute
Tabelle 21 hebt die dadurch entstehende Diskrepanz beider Ansätze im SmartphoneKontext hervor. Durch die starke Unterbewertung des automatischen Ansatzes für die Attribute „price“ und „memory“ sowie die gleichzeitige Überbewertung der Attribute „camera“ und „screen“, lässt sich in diesem Fall keine Korrelation der Attributwichtigkeiten feststellen. Analyse der Teilnutzenwerte Die Korrelationskoeffizienten wurden für zwei verschiedene Bewertungsansätze zur Ermittlung der Teilnutzenwerte bestimmt: Die dritte Spalte der Ergebnistabellen 23 und 24 bezieht sich auf die Berechnung unter Einbeziehung der absoluten Häufigkeiten (siehe Kapitel 6.2). Des Weiteren wurde der Korrelationskoeffizient im Vergleich zu dem reinen Sentiment-Wert berechnet (Spalte 4), bei welchem die Teilnutzenwerte der Produktattribute lediglich durch die Sentiment-Werte 9 uv bewertet wurden. Die Analyse fand dabei auf Produkt-Ebene statt, sofern eine Unterscheidung auf diesem Level möglich war. Konnten Teilnutzenwerte lediglich den Produkt-Items zugeordnet werden (z.B. Speicherkapazität eines Smartphones, da viele Produkte in verschiedenen Ausstattungen mit unterschiedlichen Speichergrößen angeboten werden), erfolgte die Korrelationsana-
Diskussion der Ergebnisse
135
lyse auf dieser Ebene. In diesem Fall wurde der Datensatz auf Produkt-Item-Ebene erstellt, indem die Teilnutzenwerte der Conjoint Analyse und die des automatischen Ansatzes den Items zugeordnet wurden. Insgesamt weisen die Teilnutzenwerte der Attribute sehr geringe Korrelationen zwischen beiden Ansätzen auf (siehe Tabelle 23 und Tabelle 24). Eine Korrelation der Teilnutzenwerte lässt sich lediglich für das Attribut „cleaning power“ beobachten (8k`\mnji = 0,4566). Zwischen den beiden Verfahren zur Bestimmung der automatischen Teilnutzenwerte lassen sich keine großen Unterschiede feststellen. Smartphone Attribut
Analyse-Ebene
8k`\mnji
Screen Battery Camera Size Price Memory
Produkt Produkt Produkt Produkt Produkt Item Produkt Item
-0,1096 -0,0154 -0,1622 -0,1091 0,1324 0,1088
8k`\mnji (Sentiment) -0,1169 -0,1340 -0,0756 0,0117 -0,0232 -0,0963
Tabelle 23: Ergebnisse der Korrelationsanalyse der Teilnutzenwerte auf Produkt-Ebene (Smartphones)
Detergent Attribut
Analyse-Ebene
8k`\mnji
Cleaning power Sensitive Brand Form Price Size
Produkt Produkt Produkt Produkt Produkt Item Produkt Item
0,4566 -0,0355 -0,0380 -0,0913 -0,4601 -0,1284
8k`\mnji (Sentiment) 0,2485 0,2119 -0,0533 -0,0393 -0,2961 0,0462
Tabelle 24: Ergebnisse der Korrelationsanalyse der Teilnutzenwerte auf Produkt-Ebene (Waschmittel)
6.4 Diskussion der Ergebnisse 6.4.1 Implikationen für die Forschung, Limitationen und zukünftige Forschung Mit dieser Studie wurden die Unterschiede zwischen traditionellen, primären Präferenzmessungen per Online-Fragebogen und dem neu entwickelten Ansatz untersucht. Der
136
Studie 2: Automatisierte Attribut-Evaluierung
im Rahmen dieser Dissertation entwickelte, automatisierte Ansatz analysiert Konsumentenmeinungen, um die Stärke und Relevanz (Wichtigkeit) von Produktattributen, ähnlich wie in einer Conjoint Analyse, zu bewerten. Aus dem gesamten Textkorpus einer Kategorie wurden so Attribut-bezogene Meinungen extrahiert und bewertet, welche anschließend genutzt wurden, um Teilnutzenwerte und Attributwichtigkeiten abzuleiten. Die vorliegende Dissertation erweitert die Forschung auf dem Bereich der automatisierten Präferenzmessung in folgenden Punkten: Aufbauend auf den Ergebnissen der ersten Studie wurde ein Ansatz entwickelt, welcher die Valenzen von domänenspezifischen Meinungsäußerungen vollständig ohne manuelle Interaktion erlernt. Das Training findet dabei auf Attribut-Ebene statt, wodurch Meinungsworte kontextabhängig, je nach evaluiertem Attribut, zu unterschiedlichen Stimmungen beitragen können. Gegenüber den meisten aktuellen Ansätzen (vgl. Büschken/Allenby 2016), können zudem auch mehrere Attribute innerhalb eines Satzes erfasst und unabhängig voneinander bewertet werden. Abbildung 38 zeigt das Ergebnis der automatischen Analyse für einen Review-Satz, in dem die Attribute „taste“ und „smell“ mit unterschiedlichen Stimmungspolaritäten evaluiert werden. Im Gegensatz zu traditionellen Sentiment Analysen auf Basis von Wörterbüchern, erkennt der vorgestellte Ansatz den Kontext und bewertet die Meinungsäußerung gegenüber dem Geschmack als positiv und die Aussage gegenüber dem Geruch als negativ.
Abbildung 38: Beispiel der Sentiment Analyse von zwei Attributen innerhalb eines Satzes
Diskussion der Ergebnisse
137
Neben der Entwicklung des vollautomatisierten Ansatzes, wurde im Rahmen dieser Dissertation der Unterschied zu traditionellen Präferenzmessungen analysiert. Folgende Untersuchungsergebnisse wurden dabei durch die Vergleichsstudie hervorgebracht: Die Analyse der Attributwichtigkeiten hat für die Waschmittel-Kategorie gezeigt, dass eine automatische Ableitung dieser Erkenntnisse möglich ist. Im Gegensatz zu den vielversprechenden Ergebnissen für Waschmittel, zeigt die Smartphone-Studie jedoch Limitationen auf: Besonders bei komplexen, facettenreichen Attributen unterscheiden sich die erhobenen Attributwichtigkeiten zum Teil stark. Diese Beobachtung hebt auch die Limitationen von Conjoint Analysen hervor, da hier nur eine begrenzte Anzahl von Parametern (Facetten) im Experiment berücksichtigt werden können, um Produktprofile zu beschreiben. So wurden komplexe Attribute auf einzelne Metriken reduziert (z.B. pixelper-inch zur Bewertung von Smartphone-Displays). Des Weiteren reflektieren OnlineReviews die Zufriedenheit von Konsumenten nach dem Kauf und somit relativ zu dem erwarteten Nutzen, während Präferenzmessungen die absoluten Teilnutzen der Ausprägungen ermitteln. Die Analyse der Ergebnisse beider Ansätze auf Produkt-Ebene (Vergleich der Teilnutzenwerte) enthüllt, dass sich Stimmungen in Online-Rezensionen signifikant von den absoluten und explizit erhobenen Ergebnissen der durchgeführten Conjoint Analyse unterscheiden. Zukünftige Forschung könnte deshalb einen stärkeren Fokus auf die Untersuchung der Zufriedenheit von Kunden bezüglich spezieller Produktattribute legen und die Ergebnisse des automatisierten Ansatzes mit traditionellen Messmethoden anhand von Primärdaten vergleichen. Die Korrelation der Teilnutzenwerte des Attributs „cleaning power“ stellt eine Ausnahme dar. Da in realen Kaufentscheidungen eine quantitative Bewertung der wahren Waschkraft nicht möglich ist, können die Ergebnisse wie folgt interpretiert werden: Konsumentenmeinungen in Bezug auf die Waschkraft fallen für Produkte mit hohem Consumer Reports Rating (gute Waschkraft) tatsächlich positiver aus, als Meinungen für Produkte mit niedriger CR-Bewertung. Demnach sind Konsumenten mit den positiv getesteten Produkten zufriedener als mit Produkten, die bei den Consumer Reports Tests schlecht abschneiden.
138
Studie 2: Automatisierte Attribut-Evaluierung
6.4.2 Implikationen für die Praxis Neben den aufgeführten Limitationen, konnten im Rahmen dieser Studie für die Praxis einige Vorteile der automatisierten und beobachtenden Analyse von nutzergenerierten Inhalten gegenüber primärer Marktforschung beobachtet werden: Erstens werden relevante Attribute durch ein datengetriebenes Verfahren ermittelt, indem wichtige Themen aus textuellem Kunden-Feedback extrahiert werden. Wie bereits von Lee/Bradlow (2011) geschlussfolgert wurde, können diese Ergebnisse bereits wichtige Erkenntnisse liefern und kostenintensive Vorstudien einer Conjoint Analyse ersetzen. Zweitens können auch qualitative Merkmale wie Geschmack („taste“) oder Geruch („smell“) evaluiert werden, welche in primären Präferenzmessungen nur schwer untersucht werden können (vgl. Hardt/Varbanov/Allenby 2016). Drittens funktioniert der vorgestellte Evaluationsalgorithmus vollständig automatisiert auf Basis der großen, unstrukturierten und frei verfügbaren Datenmengen. Dies ermöglicht eine kontinuierliche Beobachtung der Konsumentenwahrnehmung einzelner Attribute mit geringerem monetären und manuellem Aufwand. Im Gegensatz zu der Analyse von Choice-Treibern lassen sich durch diese Analyse Informationen über die Zufriedenheit ableiten, die von Unternehmen für die Produktverbesserung und im Erwartungsmanagement genutzt werden können. Die Diskrepanz beider Ansätze im Smartphone-Kontext zeigt, dass stated preference Methoden komplexe Attribute nur schwierig adäquat abbilden und bewerten können. Da Conjoint Analysen für komplexe Produktkategorien nicht alle relevanten Facetten abbilden können, besitzt die observierende Bewertung anhand von nutzergenerierten Inhalten den Vorteil Erkenntnisse für viele Attribute simultan zu analysieren. Die Beobachtung trifft vor allem auf Produktkategorien mit hohem Involvement zu, bei denen viele komplexe Attribute die Kaufentscheidung und Zufriedenheit beeinflussen. Die Ergebnisse der entwickelten Webanwendung können Marketing Managern helfen, kontinuierlich die Stimmung in Bezug auf Attribute aller relevanten Produkte innerhalb einer Produktkategorie zu überwachen, sodass Stärken und Schwächen im Vergleich zu Wettbewerbern identifiziert werden können. Die Erkenntnisse können dabei im Produktmanagement helfen die Produktqualität zu verbessen, indem automatisch Problemfelder ermittelt werden. Außerdem bietet die Analyse eine Möglichkeit einen Kampagnenerfolg zu messen, indem die Veränderung der Kundenwahrnehmung kontinuierlich überwacht wird.
7 Schlussbetrachtung Dieses Kapitel widmet sich einer abschließenden Betrachtung der vorliegenden Dissertation, indem die in Kapitel 1.2 eruierten Forschungsfragen aufgegriffen werden und die zentralen Ergebnisse dieser Forschung zusammengefasst werden. Um die beiden Forschungsfragen zu beantworten, wurde im Rahmen dieser Arbeit ein Ansatz zur automatischen Extrahierung und Stimmungsbewertung von Produktattributen entwickelt, der durch zwei empirische Vergleichsstudien evaluiert wurde. Zunächst wurden in Kapitel 2 Grundlagen der Textanalyse, der Sentiment Analyse und der traditionellen Präferenzmessung vermittelt, bevor in Kapitel 3 der aktuelle Forschungsstand untersucht wurde. Der Fokus lag dabei auf Forschungsbeiträgen zur automatischen Informationsgewinnung für Marktforschungszwecke durch die Analyse von nutzergenerierten Daten. In Kapitel 4 wurde anschließend ein Überblick über den gesamten Ansatz zur automatischen Erhebung von Kundenpräferenzen aus Kundenrezensionen gegeben. Dieser wurde in Kapitel 5 und 6, aufgeteilt in in die beiden Phasen Attribut-Extraktion und Attribut-Evaluation, detailliert vorgestellt und anhand von zwei quantitativen Studien evaluiert. In Kapitel 5 wurde die erste Forschungsfrage betrachtet, welche sich auf die Analyse von Methoden zur automatisierten Extrahierung von Produktattributen aus Konsumentenrezensionen bezieht: Forschungsfrage 1: Können relevante Produktattribute vollkommen automatisiert aus nutzergenerierten Inhalten extrahiert werden? „Welche Faktoren sind Treiber für Kundenpräferenzen und die Marktnachfrage?“, „Was ist Kunden am Wichtigsten?“ oder „Welche Trends entwickeln sich im Markt?“ sind typische Fragen von Unternehmen. Daten, die die Wahrnehmung der Konsumenten erfassen, werden in der Praxis jedoch nur selten, bzw. im Rahmen spezieller Projekte einmalig, erhoben. Die Identifizierung von relevanten Produktattributen ist ein elementarer Baustein von Conjoint Analysen, welche zur Untersuchung von Präferenzen durchgeführt werden und Rückschlüsse auf die Wichtigkeit der Attribute zulassen. In der Vorstudie einer Conjoint Analyse können verschiedenste Methoden, wie beispielsweise Tiefeninterviews, Experteninterviews oder Fokus Gruppen, durchgeführt werden (vgl. Louviere/Flynn/Carson 2010), um relevante Produktattribute zu identifizieren. Da diese Analysen aufwändig, langwierig und teuer sind, wurde in dieser Dissertation untersucht, ob wichtige Attribute vollautomatisiert – und somit ohne jegliche manuelle © Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 T. Roelen-Blasberg, Automatisierte Präferenzmessung, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-23831-5_7
140
Schlussbetrachtung
Interaktion – aus nutzergenerierten Inhalten extrahiert werden können. Dazu wurden sechs verschiedene Produktkategorien untersucht, für die große Textkorpora aus Kundenrezensionen durch Web Scraper gesammelt wurden. Neben bereits häufig untersuchten Kategorien wie Smartphones betrachtet diese Arbeit auch Kategorien mit niedrigem Involvement (z.B. Zahnpasta oder Waschmittel), die bislang von bestehender Forschung vernachlässigt wurden. Zunächst wurden die Review-Texte der Kategorien durch Natural Language Processing Verfahren bereinigt und durch zusätzliche Informationen wie Wortarten (durch Part-ofSpeech Tagger), Wortstamm (durch Lemmatisierung) oder Wortbeziehungen (durch Dependency Parser) angereichert. Anschließend wurden Meinungsäußerungen extrahiert, indem explizite Muster definiert wurden, die auf Basis von grammatikalischen Strukturen in natürlicher Sprache den Ausdruck von Meinungen identifizieren. Aus diesen Meinungsäußerungen wurden im nächsten Schritt die am häufigsten evaluierten Attribut-Kandidaten entnommen, die daraufhin durch mehrere Verfahren zu aussagekräftigen Attributen gruppiert wurden: Neben der Anwendung von bestehenden Ansätzen aus der Opinion Mining Forschung, wurden weitere Verfahren entwickelt, die das automatische Gruppieren von semantisch ähnlichen Begriffen (Attribut-Kandidaten) zu sinnvollen Attributen verbessern. Anschließend wurde die Erkennung von impliziten Meinungsäußerungen, die nicht den explizit definierten Mustern entsprechen, ermöglicht, indem für jedes Attribut ein Classifier trainiert wurde. Durch die Anwendung der Classifier auf die Textkorpora werden neue, bisher unentdeckte Attribut-Nennungen (zum Beispiel implizite Umschreibungen der Attribute) identifiziert, die eine Korrektur der Attribut-Häufigkeiten nach sich zogen. Zur Evaluation der daraus generierten Attribut-Listen wurde eine Online-Befragung eines US-Konsumentenpanels durchgeführt (Vergleichsstudie 1). In dem Fragebogen, wurde direkt nach kaufentscheidenden Attributen der sechs Kategorien gefragt. Insgesamt haben 1.154 Konsumenten an der Befragung teilgenommen, wobei jeder Proband zu zwei Kategorien befragt wurde, sodass mindestens 250 Antworten pro Kategorie gesammelt werden konnten. Anhand der Vergleichsstudie konnte belegt werden, dass die wichtigsten Produktattribute durch die automatische Analyse erkannt wurden. Für fünf der sechs Kategorien konnte dabei eine Vollständigkeit@15 von über 90% erzielt werden. Demnach waren
Schlussbetrachtung
141
durchschnittlich weniger als 10% der freien Nennungen der Probanden nicht in den vorgeschlagenen 15 Attributen enthalten. Die Ergebnisse übertreffen somit für alle Kategorien deutlich die Ergebnisse der Vollständigkeit und Präzision, die durch den Ansatz von Lee/Bradlow (2011) erzielt wurden. Darüber hinaus gehört diese Dissertation zu den wenigen Forschungsbeiträgen, welche die Anwendbarkeit von Text Mining für die Extrahierung von Produktattributen für Kategorien mit niedrigem Involvement, wie Zahnpasta oder Waschmittel, aufzeigt. Die Ergebnisse verdeutlichen jedoch auch, dass Kunden einen tendenziell stärkeren Fokus auf Erfahrungseigenschaften als auf Sucheigenschaften legen, wodurch der entwickelte Ansatz Sucheigenschaften (im Verhältnis zu der direkten Befragung) häufig unterbewertet. Die guten Ergebnisse (gemessen an der hohen Vollständigkeit und Präzision) lassen abschließend den Schluss zu, dass sich der automatische Ansatz auf Basis von Kundenrezensionen eignet, um traditionelle Methoden zur Bestimmung wichtiger Attribute zu ersetzen. Im Gegensatz zu den klassischen Verfahren auf Basis von Primärdaten, birgt die Analyse von nutzergenerierten Inhalten sogar entscheidende Vorteile: Erstens ist, durch den beobachtenden Charakter der freiwillig geteilten Informationen, eine mögliche Beeinflussung der Probanden durch die Methodenwahl oder Fragestellung nahezu ausgeschlossen. Zweitens kann eine solche Analyse kontinuierlich durchgeführt werden, woraus sich beispielsweise Markttrends ableiten lassen (z.B. in Form einer ansteigenden Häufigkeit an Nennungen bezüglich bestimmter Attribute). Querschnittsdaten, welche durch aufwändige Primärdatenerhebung gesammelt werden, repräsentieren hingegen lediglich den Status quo zu einem bestimmten Zeitpunkt. Drittens ist die Analyse aufgrund der frei verfügbaren Datengrundlage mit einem erheblich geringeren monetären sowie zeitlichen Ressourcenaufwand verbunden. Aufbauend auf diesen Ergebnissen betrachtet Kapitel 6 die zweite Forschungsfrage und analysiert, ob diese Datengrundlage dazu genutzt werden kann, Präferenzen von Konsumenten abzuleiten: Forschungsfrage 2: Können nutzergenerierte Online-Inhalte traditionelle Präferenzmessungen ersetzen, um Attributwichtigkeiten und Teilnutzenwerte zu erheben? „Was denken Kunden aktuell über meine Marke / Produkte?“, „Haben die Marketingmaßnahmen die Wahrnehmung meiner Kunden wie gewünscht verändert?“, „Welche
142
Schlussbetrachtung
Eigenschaften mögen die Kunden an meinen Produkten und an denen meiner Wettbewerber und welche lehnen sie ab?“. Die meisten Unternehmen können diese Fragen lediglich mit ihrem Bauchgefühl beantworten. Was jedoch häufig fehlt sind Daten, die eine faktenbasierte Entscheidungsgrundlage zulassen. Der Mangel an solchen Informationen zur Bewertung der Kundenwahrnehmung führt deshalb dazu, dass der generierte Mehrwert vieler Marketingaktivitäten nicht belegt werden kann. Für die Analyse von Präferenzen kommen in der Praxis häufig Conjoint Analysen zum Einsatz, woraus sich unter anderem Wichtigkeiten von zuvor definierten Attributen und Teilnutzenwerte ableiten lassen. Aufbauend auf den Ergebnissen der ersten Studie, untersucht diese Dissertation weiter, ob diese komplexen Kundenpräferenzen auch aus den Kundenrezensionen abgeleitet werden können. Dabei wird das Ziel einer vollkommen automatisierten Auswertung verfolgt, die, wie die Conjoint Analyse, Erkenntnisse zu Teilnutzenwerten und Attributwichtigkeiten liefert, um Stärken und Schwächen der Produkte einer Kategorie gegenüber den Wettbewerbsprodukten analysieren zu können. Der Ansatz der ersten Studie wurde dazu um zusätzliche Auswertungsverfahren erweitert, wodurch die Bewertung der Kundenwahrnehmung in Bezug auf einzelne Attribute ermöglicht wird. Die Grundlage bildet die entwickelte, domänenspezifische Sentiment Analyse, welche die Stimmungspolarität von Meinungsworten in Bezug auf einzelne Attribute – ohne manuelle Interaktion anhand der Kundenrezensionen und den numerischen Bewertungen (z.B. Sternebewertung auf Amazon) – erlernt. Durch die generierten Sentiment-Lexika konnten automatisch Trainingsdatensätze pro Attribut generiert werden, die für das Training kontextspezifischer Sentiment Classifier verwendet wurden. Zur Bestimmung der Valenzen, wurden diese Classifier anschließend auf die Meinungsäußerungen der jeweiligen Attribute angewendet. Anhand der aggregierten Ergebnisse wurden Teilnutzenwerte der Produkte berechnet und daraus Attributwichtigkeiten, in Anlehnung an die Berechnung in Conjoint Analysen, abgeleitet. Eine Graded Paired Comparison Conjoint Analyse für die zwei Kategorien Smartphones und Waschmittel lieferte den Vergleichsdatensatz der zweiten Studie. Hierfür wurden zwei repräsentative US-Konsumentenpanels aus 800 (Smartphones) bzw. 400 (Waschmittel) Probanden befragt.
Schlussbetrachtung
143
Da aufgrund der Limitationen von Conjoint Analysen nicht alle 15 Attribute untersucht werden konnten, wurde einerseits die Anzahl an Attributen (auf 9 bzw. 6 Attribute) reduziert und andererseits ein Optimierungsverfahren entwickelt, welches ein stark reduziertes Design erstellt. Bei der Auswahl der Attribute wurde auf schwer evaluierbare Merkmale, wie Geruch eines Waschmittels, verzichtet, da sich die Ausprägungen (z.B. guter Geruch) dieser qualitativen Attribute nicht den Produkten zuordnen lassen. Diese Verbindung wird allerdings für den Vergleich mit den Ergebnissen des entwickelten Ansatzes benötigt. Grundlage des reduzierten Designs liefern die Profile eines D-optimalen Designs, welches durch den Fedorov Algorithmus erzeugt wurde (vgl. Fedorov 1972). Unter Berücksichtigung mehrerer Gütekriterien generiert der entwickelte Optimierungsansatz anschließend die Paarvergleiche (die durch die Probanden bewertet werden sollen) aus diesen Profilen. Der Ansatz reduziert dabei das Auftreten sowohl dominanter Profile (Pareto-Optimalität) als auch gleicher Merkmalsausprägungen (Überlappung) in den Paarvergleichen. Des Weiteren werden die auftretenden Korrelationen zwischen den Merkmalsausprägungen über die Profile hinweg verringert, wodurch sich Schätzfehler minimieren lassen. Für die Evaluation der Ergebnisse des entwickelten Ansatzes wurden zunächst die Merkmalsausprägungen für alle inkludierten Produkte manuell recherchiert, um die Teilnutzenwerte der Conjoint Analyse den entsprechenden Produkten zuordnen zu können. Anschließend wurden die Attributwichtigkeiten und Teilnutzenwerte (pro Produkt) beider Verfahren verglichen. Die Analyse der Attributwichtigkeiten offenbart unterschiedliche Ergebnisse für die beiden Kategorien: Während die Approximation der Attributwichtigkeiten durch den entwickelten Ansatz für Waschmittel gut funktioniert, sind die Ergebnisse für Smartphones nahezu unkorreliert. Aus der Analyse gehen besonders starke Abweichungen für komplexe Produktattribute hervor, die in einer Conjoint Analyse nur bedingt durch einzelne Metriken (z.B. Megapixel einer Kamera) erfasst werden können. Dadurch bewerten beide Verfahren ein unterschiedliches Ausmaß dieser komplexen Attribute: Während Konsumenten ihre Meinungen in Online-Rezensionen in Bezug auf komplexe Attribute auf mehrere quantitative und qualitative Teilmerkmale (Facetten) beziehen, wurden aufgrund der Limitierung der Conjoint Analysen nur ein bis zwei dieser Teilmerkmale verwendet. Demnach evaluieren Konsumentenrezensionen beispielsweise das Attribut „camera“, indem die Facetten Zoom-Faktor, Anzahl an Megapixel, Größe des Sensors,
144
Schlussbetrachtung
maximale Blende oder Foto-Qualität berücksichtigt werden, während die durchgeführte Conjoint Analyse lediglich eine Teilmenge der Facetten, durch die Metriken Megapixel und Videoauflösung, erfasst. Die Analyse der Teilnutzenwerte hat gezeigt, dass absolute Bewertungen von Merkmalsausprägungen in Präferenzanalysen nicht mit den Ergebnissen aus Online-Rezensionen übereinstimmen. In der durchgeführten Conjoint Analyse werden die Präferenzen der Probanden über mehrere Auswahlentscheidungen erfasst, woraus Teilnutzenwerte der Level abgeleitet werden können. Im Gegensatz zu dieser absoluten Bewertung, evaluieren Kunden in Online-Rezensionen die Merkmale in Bezug auf die eigenen Erwartungen. Die abgeleiteten Teilnutzenwerte des automatisierten Ansatzes spiegeln deshalb eher die Zufriedenheit als den absoluten Nutzen wieder. Es kann daher festgehalten werden, dass sich Online-Rezensionen nicht eignen, um absolute Teilnutzenwerte einer Präferenzanalyse zu erheben. Die Vergleichsstudie hat jedoch aufzeigen können, dass sich gerade für einfache Attribute Wichtigkeiten ableiten lassen. Zusammengefasst liefert diese Dissertationsschrift drei zentrale Forschungsbeiträge: Erstens wurde ein Ansatz zur vollkommen automatisierten Bewertung der Kundenwahrnehmung aus Online-Rezensionen entwickelt. Im Vergleich zu bestehenden Ansätzen konnte, durch neu entwickelte Methoden zur sinnvollen Gruppierung von semantisch ähnlichen Begriffen sowie Verfahren zur automatischen Valenzbestimmung von Meinungswörtern, der Grad der Automatisierung gesteigert werden. Zweitens ist diese Arbeit eine der ersten Forschungen, die Textanalysen auf nutzergenerierte Inhalte von Kategorien mit niedrigem Involvement anwendet und damit den praktischen Nutzen für solche Kategorien demonstriert. Drittens schlagen die beiden Vergleichsstudien die Brücke zu traditionellen Präferenzmessungen. Durch die erste Vergleichsstudie konnte dabei gezeigt werden, dass sich nutzergenerierte Inhalte eignen, um aufwendigere Verfahren, die relevante Produktattribute auf Basis von Primärdaten identifizieren, zu ersetzen. Aus der zweite Studie gehen die Unterschiede zu traditionellen Präferenzmessungen für Teilnutzenwerte und Attributwichtigkeiten hervor. Im Gegensatz zu den Ergebnissen der durchgeführten Conjoint Analyse evaluieren Kundenrezensionen die Zufriedenheit bezüglich der Kundenerwartungen. Diese Dissertation trägt somit zu einem besseren Verständnis zwischen Social Media Analysen und traditionellen Marktforschungsansätzen bei.
Schlussbetrachtung
145
Diese Arbeit liefert viele interessante Ansatzpunkte für die zukünftige Forschung: In dem vorgestellten Ansatz wurden Classifier zur Extrahierung und Bewertung der Produktattribute aus textuellen Inhalten trainiert, welche anschließend lediglich auf Konsumentenrezensionen angewandt wurden. Um ein umfangreicheres Gesamtbild der Stimmungen in Online-Konversationen zu erlangen, könnten zukünftige Forschungsbeiträge weitere (textuelle) nutzergenerierte Daten (z.B. aus Blogs, Foren oder sozialen Netzwerken) in die Analyse integrieren. Um solche Daten einzubinden, wird jedoch ein zusätzlicher Analyseschritt benötigt, der Produktnennungen in Freitexten identifiziert. Erste Forschungsansätze haben bereits das Problemfeld analysiert und Ansätze der „Named Entity Recognition (NER)“ adaptiert. Im Gegensatz zu der Erkennung von Entitäten wie Personen, Unternehmen, Datums- oder Zeitangaben, Namen, Orten oder Preisangaben durch klassische „Named Entity Recognition“ Tagger, versuchen diese „Product Named Entity Recognition (PRONER)“ Tagger Produkte in Texten zu identifizieren (vgl. Feldman et al. 2007, Luo/Xiao/Chang 2011, Wu/Fang/Tang 2012). Mit solchen vorgelagerten Analysen könnten einerseits weitere Datenquellen integriert werden und andererseits der Grad an Automatisierung weiter gesteigert werden, indem das einmalige Mapping zwischen Produkt und Webseiten automatisiert wird. Ein weiterer Ansatzpunkt für zukünftige Forschungsarbeiten liegt in der Datenmenge: In dieser Arbeit wurden ausschließlich große Textkorpora analysiert, da alle Kategorien über einen großen Fundus an Online-Rezensionen verfügen (mindestens 25.000 Reviews wurden pro Kategorie analysiert). Eine große Datenverfügbarkeit kann jedoch nicht für jede Kategorie angenommen werden. Insbesondere in Business-to-Business (B2B) Märkten, wie beispielsweise dem Handel von Industriegütern (z.B. industrielle Kühlsysteme), existieren bis heute wenig Kundenmeinungen in Online-Quellen. Daraus ergeben sich zwei spannende Forschungsfragen: Zum einen kann untersucht werden, welche Datenmenge nötig ist, um valide Ergebnisse (z.B. relevante Produktattribute) zu produzieren. Zum anderen kann erforscht werden wie Unternehmen in Branchen ohne die notwendige Datenbasis vorgehen können, um die Daten zu beschaffen, ohne auf aufwendige Primärdaten zurückgreifen zu müssen (z.B. durch Incentivierung für Kundenfeedback). Für die Textklassifizierung wurden in dieser Dissertation Support Vector Machines verwendet. Zukünftige Forschung könnte an dieser Stelle untersuchen, ob Deep Learning Ansätze, welche ihre Überlegenheit in einigen Anwendungsgebieten der Textanalyse
146
Schlussbetrachtung
bereits gezeigt haben, die Genauigkeit des entwickelten Ansatzes in der Erkennung von Attributen und der Valenz-Bewertung verbessern können. Hier sind insbesondere Convolutional Neural Networks (CNN) (vgl. Kim 2014), Recursive Neural Networks (TreeRNN) (vgl. Socher et al. 2013) und Long Short-Term Memory (LSTM) Networks (vgl. Tai/Socher/Manning 2015) zu nennen. In Bezug auf die Erkenntnisse der zweiten Studie, können zukünftige Forschungsbeiträge außerdem untersuchen, inwieweit die Ergebnisse des entwickelten Ansatzes primäre Marktforschungsansätze zur Erhebung von Kundenzufriedenheiten bezüglich einzelner Attribute ersetzen können. Da insbesondere Online-Bewertungen die wahrgenommene Zufriedenheit durch die Nutzung wiedergeben, scheinen Metriken wie der Net Promoter Score (vgl. Homburg/Bucerius 2006) natürlichere Äquivalenzmetriken aus der traditionellen Marktforschung zu sein. Folgende praktische Implikationen können aus den Ergebnissen dieser Studie abgeleitet werden: Generell können nutzergenerierte Inhalte wichtige Informationen für Unternehmen liefern, indem die Kundenwahrnehmung von existierenden Produkten oder Services erfasst wird. Da absolute Teilnutzenwerte nicht mit den Ergebnissen des automatischen Ansatzes korrelieren, eignet sich diese Datengrundlage nicht für die Anwendungsgebiete der Preispolitik, der Neuproduktentwicklung (keine Möglichkeit neue Merkmalsausprägungen zu bewerten) oder der Marktsimulation. Der entwickelte Ansatz kann Unternehmen jedoch dabei helfen, kontinuierlich und mit geringem Aufwand relevante Produktattribute zu extrahieren und die Valenz der Meinungen bezüglich dieser Attribute zu messen. Solche Informationen können beispielsweise in der Produktpolitik verwendet werden, um Angebote stärker an die Bedürfnisse der Kunden anzupassen (z.B. indem der Fokus der Produktverbesserungen auf wichtige Attribute gelegt wird). Im Erwartungsmanagement können solche Erkenntnisse zudem helfen, die Kundenerwartungen hinsichtlich einzelner Attribute besser zu steuern (z.B. zur Vorbeugung von Unzufriedenheit durch übertriebene Erwartungen). Die Granularität der Stimmungsanalyse auf Basis einzelner Attribute ermöglicht außerdem eine detaillierte Wettbewerbsanalyse: Wie im Beispiel der entwickelten Webanwendung können somit Produktprofile aller Marktteilnehmer anhand von Wichtigkeit und relativer Stärke der Produktattribute visualisiert werden, um Stärken und Schwächen zu analysieren.
Literaturverzeichnis Abbasi, A., Chen, H. (2008). Writeprints: A Stylometric Approach to Identity-Level Identification and Similarity Detection in Cyberspace. ACM Transactions on Information Systems, 26, 2, 7. Aggarwal, C.C., Zhai, C. (2012). Mining Text Data. Springer Science & Business Media, New York, NY. Aizaki, H., Nishimura, K. (2008). Design and Analysis of Choice Experiments Using R: A Brief Introduction. Agricultural Information Research, 17, 2, 86–94. Archak, N., Ghose, A., Ipeirotis, P.G. (2011). Deriving the Pricing Power of Product Features by Mining Consumer Reviews. Management Science, 57, 8, 1485– 1509. Argamon, S., Koppel, M., Pennebaker, J.W., Schler, J. (2009). Automatically Profiling the Author of an Anonymous Text. Communications of the ACM, 52, 2, 119– 123. Backhaus, K., Erichson, B., Plinke, W., Weiber, R. (2015). Multivariate Analysemethoden: Eine anwendungsorientierte Einführung. Springer Gabler, Wiesbaden. Bickart, B., Schindler, R.M. (2001). Internet Forums as Influential Sources of Consumer Information. Journal of Interactive Marketing, 15, 3, 31–40. Blair-Goldensohn, S., Hannan, K., McDonald, R., Neylon, T., Reis, G.A., Reynar, J. (2008). Building a Sentiment Summarizer for Local Service Reviews. Proceedings of WWW-2008 workshop on NLP in the Information Explosion Era, 14, 339–348. Blattberg, R.C., Kim, B.-D., Neslin, S.A. (2008). Database Marketing. Springer Science & Business Media, New York, NY. Blei, D.M., Lafferty, J.D. (2009). Topic Models. In: Ashok N. Srivastava, Mehran Sahami (Hrsg.), Text Mining: Classification, Clustering, and Applications, 71–89. CRC Press, Boca Raton, FL. Bronnenberg, B.J., Kim, J.B., Mela, C.F. (2016). Zooming in on Choice: How do Consumers Search for Cameras Online? Marketing Science, 35, 5, 693–712.
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 T. Roelen-Blasberg, Automatisierte Präferenzmessung, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-23831-5
148
Literaturverzeichnis
Büschken, J., Allenby, G.M. (2016). Sentence-Based Text Analysis for Customer Reviews. Marketing Science, 35, 6, 953–975. Carroll, J.D., Green, P.E. (1997). Psychometric Methods in Marketing Research: Part II, Multidimensional Scaling. Journal of Marketing Research, 34, 2, 193–204. Chang, W., Cheng, J., Allaire, J.J., Xie, Y., McPherson, J. (2017). Shiny: Web Application Framework for R: R Package Version 1.0.3. URL: https://web.archive.org/web/20180102132426/https://cran.r-project.org/web/packages/shiny/index.html [02.01.2018]. Chen, P.-Y., Wu, S., Yoon, J. (2004). The Impact of Online Recommendations and Consumer Feedback on Sales. Proceedings of the International Conference on Information Systems (ICIS-2004), 711–724. Chevalier, J.A., Mayzlin, D. (2006). The Effect of Word of Mouth on Sales: Online Book Reviews. Journal of Marketing Research, 43, 3, 345–354. Chintagunta, P., Hanssens, D.M., Hauser, J.R. (2016). Editorial — Marketing Science and Big Data. Marketing Science, 35, 3, 341–342. Churchill, G.A., Iacobucci, D. (2006). Marketing Research: Methodological Foundations. Dryden Press, Chicago, IL. Consumer Reports (2017). Laundry Detergent Ratings. URL: https://web.archive.org/web/20180102132949/https://www.consumerreports.org/products/laundry-detergent/ratings-overview/ [02.01.2018]. Culotta, A., Cutler, J. (2016). Mining Brand Perceptions from Twitter Social Networks. Marketing Science, 35, 3, 343–362. Darby, M.R., Karni, E. (1973). Free Competition and the Optimal Amount of Fraud. The Journal of Law and Economics, 16, 1, 67–88. Dave, K., Lawrence, S., Pennock, D.M. (2003). Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Reviews. Proceedings of the 12th International Conference on World Wide Web, 519–528. De Marneffe, M.-C., Manning, C.D. (2008). Stanford Typed Dependencies Manual. Technical Report, Stanford University.
Literaturverzeichnis
149
Decker, R., Trusov, M. (2010). Estimating Aggregate Consumer Preferences from Online Product Reviews. International Journal of Research in Marketing, 27, 4, 293–307. Dellarocas, C., Zhang, X. (Michael), Awad, N.F. (2007). Exploring the Value of Online Product Reviews in Forecasting Sales: The Case of Motion Pictures. Journal of Interactive Marketing, 21, 4, 23–45. Estival, D., Gaustad, T., Pham, S.B., Radford, W., Hutchinson, B. (2007). Author Profiling for English Emails. Proceedings of the 10th Conference of the Pacific Association for Computational Linguistics (PACLING-2007),263–272. Esuli, A., Sebastiani, F. (2006). SentiWordNet: A High-Coverage Lexical Resource for Opinion Mining. Proceedings of the 5th Conference on Language Resources and Evaluation (LREC-2006),1–26. Fahrmeir, L., Heumann, C., Künstler, R., Pigeot, I., Tutz, G. (2016). Statistik: Der Weg zur Datenanalyse. Springer Spektrum, Berlin. Fahrmeir, L., Kneib, T., Lang, S., Marx, B. (2013). Regression: Models, Methods and Applications. Springer, Heidelberg. Farris, P.W., Bendle, N.T., Pfeifer, P.E., Reibstein, D.J. (2010). Marketing Metrics: The Definitive Guide to Measuring Marketing Performance. Pearson Education, Upper Saddle River, NJ. Fawareh, H.M.A., Jusoh, S., Osman, W.R.S. (2008). Ambiguity in Text Mining. Proceedings of the International Conference on Computer and Communication Engineering (ICCCE-2008), 1172–1176. Fedorov, V.V. (1972). Theory of Optimal Experiments. Academic Press, New York, NY. Feinerer, I. (2017). Introduction to the tm Package Text Mining in R: R Package Version 0.7-1. URL: https://web.archive.org/web/20180102132447/https://cran.rproject.org/web/packages/tm/index.html [02.01.2018]. Feldman, R., Fresco, M., Goldenberg, J., Netzer, O., Ungar, L. (2007). Extracting Product Comparisons from Discussion Boards. Proceedings of the Seventh IEEE International Conference on Data Mining (ICDM-2007),469–474.
150
Literaturverzeichnis
Feldman, R., Sanger, J. (2007). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press, Cambridge. Gensler, S. (2013). Heterogenität in der Präferenzanalyse: Ein Vergleich von hierarchischen Bayes-Modellen und Finite-Mixture-Modellen. Springer Gabler, Wiesbaden. Ghose, A., Ipeirotis, P.G. (2011). Estimating the Helpfulness and Economic Impact of Product Reviews: Mining Text and Reviewer Characteristics. IEEE Transactions on Knowledge and Data Engineering, 23, 10, 1498–1512. Ghose, A., Ipeirotis, P.G., Li, B. (2012). Designing Ranking Systems for Hotels on Travel Search Engines by Mining User-Generated and Crowdsourced Content. Marketing Science, 31, 3, 493–520. Godes, D., Mayzlin, D. (2004). Using Online Conversations to Study Word-of-Mouth Communication. Marketing Science, 23, 4, 545–560. Goel, S., Goldstein, D.G. (2013). Predicting Individual Behavior with Social Networks. Marketing Science, 33, 1, 82–93. Gopinath, S., Thomas, J.S., Krishnamurthi, L. (2014). Investigating the Relationship Between the Content of Online Word of Mouth, Advertising, and Brand Performance. Marketing Science, 33, 2, 241–258. Green, P.E., Krieger, A.M., Agarwal, M.K. (1991). Adaptive Conjoint Analysis: Some Caveats and Suggestions. Journal of Marketing Research, 28, 2, 215–222. Green, P.E., Srinivasan, V. (1978). Conjoint Analysis in Consumer Research: Issues and Outlook. Journal of Consumer Research, 5, 2, 103–123. Green, P.E., Srinivasan, V. (1990). Conjoint Analysis in Marketing: New Developments with Implications for Research and Practice. Journal of Marketing, 54, 4, 3–19. Großmann, H. (2003). Designs für Paarvergleiche in der metrischen Conjoint-Analyse. Deutscher Universitäts- Verlag/GWV Fachverlage GmbH, Wiesbaden. GSMArena (2017). GSMArena.com - Mobile Phone Reviews, News, Specifications and More. URL: https://web.archive.org/web/20180102133159/https://www.gsmarena.com/ [02.01.2018].
Literaturverzeichnis
151
Gupta, S., Hanssens, D., Hauser, J.R., Lehmann, D., Schmitt, B. (2014). Introduction to Theory and Practice in Marketing Conference Special Section of Marketing Science. Marketing Science, 33, 1, 1–5. Hagerty, M.R. (1986). The Cost of Simplifying Preference Models. Marketing Science, 5, 4, 298–319. Hahn, C. (1997). Conjoint-und discrete Choice-Analyse als Verfahren zur Abbildung von Präferenzstrukturen und Produktauswahlentscheidungen: ein theoretischer und computergestützter empirischer Vergleich. Lit, Münster. Hanssens, D.M., Pauwels, K.H., Srinivasan, S., Vanhuele, M., Yildirim, G. (2014). Consumer Attitude Metrics for Guiding Marketing Mix Decisions. Marketing Science, 33, 4, 534–550. Hardt, N., Varbanov, A., Allenby, G.M. (2016). Monetizing Ratings Data for Product Research. Marketing Science, 35, 5, 713–726. He, W., Zha, S., Li, L. (2013). Social Media Competitive Analysis and Text Mining: A Case Study in the Pizza Industry. International Journal of Information Management, 33, 3, 464–472. Helm, R., Steiner, M. (2008). Präferenzmessung: Methodengestützte Entwicklung zielgruppenspezifischer Produktinnovationen. Kohlhammer, Stuttgart. Homburg, C., Bucerius, M. (2006). Kundenzufriedenheit als Managementherausforderung. In: Christian Homburg (Hrsg.), Kundenzufriedenheit: Konzepte - Methoden - ErfahrungenSpringer Gabler, Wiesbaden. Homburg, C., Kuester, S., Krohmer, H. (2003). Marketing Management. Springer Gabler, Wiesbaden. Hu, M., Liu, B. (2004a). Mining and Summarizing Customer Reviews. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2004),168–177. Hu, M., Liu, B. (2004b). Mining opinion features in customer reviews. Proceedings of the Nineteenth National Conference on Artificial Intellgience (AAAI-2004), 755–760.
152
Literaturverzeichnis
Huber, J. (1997). What We Have Learned from 20 Years of Conjoint Research: When to Use Self-Explicated, Graded Pairs, Full Profiles or Choice Experiments. Sawtooth Software Conference Proceedings. Ikeda, K., Hattori, G., Ono, C., Asoh, H., Higashino, T. (2013). Twitter User Profiling Based on Text and Community Mining for Market Analysis. Knowledge-Based Systems, 51, 35–47. Jansen, B.J., Zhang, M., Sobel, K., Chowdury, A. (2009). Twitter Power: Tweets as Electronic Word of Mouth. Journal of the American Society for Information Science and Technology, 60, 11, 2169–2188. Johnson, F.R., Lancsar, E., Marshall, D., Kilambi, V., Mühlbacher, A., Regier, D.A., Bresnahan, B.W., Kanninen, B., et al. (2013). Constructing experimental designs for discrete-choice experiments: report of the ISPOR conjoint analysis experimental design good research practices task force. Value in Health, 16, 1, 3– 13. Johnston, J. (1984). Econometric methods. McGraw-Hill, New York, NY. Kamakura, W.A., Russell, G. (1989). A probabilistic choice model for market segmentation and elasticity structure. Journal of Marketing Research, 26, 379–390. Khan, A., Baharudin, B., Lee, L.H., Khan, K. (2010). A Review of Machine Learning Algorithms for Text-Documents Classification. Journal of Advances in Information Technology, 1, 1, 4–20. Kim, Y. (2014). Convolutional Neural Networks for Sentence Classification. Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP-2014),1746–1751. Krieger, A.M., Green, P.E. (1991). Designing Pareto Optimal Stimuli for Multiattribute Choice Experiments. Marketing Letters, 2, 4, 337–348. Kulkarni, G., Kannan, P.K., Moe, W. (2012). Using Online Search Data to Forecast New Product Sales. Decision Support Systems, 52, 3, 604–611. Lancaster, K.J. (1966). A New Approach to Consumer Theory. Journal of Political Economy, 74, 2, 132–157.
Literaturverzeichnis
153
Layton, R., Watters, P., Dazeley, R. (2010). Authorship Attribution for Twitter in 140 Characters or Less. 2010 Second Cybercrime and Trustworthy Computing Workshop, 1–8. Lee, T.Y., Bradlow, E.T. (2011). Automated Marketing Research Using Online Customer Reviews. Journal of Marketing Research, 48, 5, 881–894. Leeflang, P.S., Verhoef, P.C., Dahlström, P., Freundt, T. (2014). Challenges and Solutions for Marketing in a Digital Era. European Management Journal, 32, 1, 1– 12. Liu, B. (2007). Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data. Springer, Heidelberg. Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool, San Rafael, CA. Liu, Y. (2006). Word of Mouth for Movies: Its Dynamics and Impact on Box Office Revenue. Journal of Marketing, 70, 3, 74–89. Louviere, J.J., Flynn, T.N., Carson, R.T. (2010). Discrete Choice Experiments Are Not Conjoint Analysis. Journal of Choice Modelling, 3, 3, 57–72. Louviere, J.J., Hensher, D.A., Swait, J.D. (2000). Stated Choice Methods: Analysis and Applications. Cambridge University Press, Cambridge. Luo, F., Xiao, H., Chang, W. (2011). Product Named Entity Recognition Using Conditional Random Fields. Proceedings of the Fourth International Conference on Business Intelligence and Financial Engineering (BIFE-2011), 86–89. Maas, A.L., Daly, R.E., Pham, P.T., Huang, D., Ng, A.Y., Potts, C. (2011). Learning Word Vectors for Sentiment Analysis. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT-2011), 142–150. Manning, C.D. (2011). Part-of-Speech Tagging From 97% to 100%: Is It Time for Some Linguistics?. Computational Linguistics and Intelligent Text Processing, 171–189. Manning, C.D., Raghavan, P., Schütze, H. (2008). Introduction to Information Retrieval. Cambridge University Press, Cambridge.
154
Literaturverzeichnis
Manning, C.D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S.J., McClosky, D. (2014). The Stanford CoreNLP Natural Language Processing Toolkit. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics: System Demonstrations (ACL-2014), 55–60. McAuliffe, J.D., Blei, D.M. (2008). Supervised Topic Models. Proceedings of the 20th Conference on Neural Information Processing Systems (NIPS-2007), 121–128. McFadden, D. (1973). Conditional Logit Analysis of Qualitative Choice Behavior. In: Paul Zarembka (Hrsg.), Frontiers in Econometrics, 105–142. Academic Press, New York, NY. Meyer, D., Dimitriadou, E., Hornik, K., Weingessel, A., Leisch, F. (2014). e1071: Misc Functions of the Department of Statistics: R Package Version 1.6-8. URL: https://web.archive.org/web/20180102132541/https://cran.r-project.org/web/packages/e1071/index.html [02.01.2018]. Mikolov, T., Sutskever, I., Chen, K., Corrado, G.S., Dean, J. (2013). Distributed Representations of Words and Phrases and Their Compositionality. Proceedings of the 26th Conference on Neural Information Processing Systems (NIPS-2013), 3111–3119. Miller, G.A. (1995). WordNet: A Lexical Database for English. Communications of the ACM, 38, 11, 39–41. Moe, W.W. (2006). An Empirical Two-Stage Choice Model with Varying Decision Rules Applied to Internet Clickstream Data. Journal of Marketing Research, 43, 4, 680–692. Moe, W.W., Schweidel, D.A. (2012). Online Product Opinions: Incidence, Evaluation, and Evolution. Marketing Science, 31, 3, 372–386. Moe, W.W., Schweidel, D.A. (2014). Social Media Intelligence. Cambridge University Press, New York, NY. Moe, W.W., Trusov, M. (2011). The Value of Social Dynamics in Online Product Ratings Forums. Journal of Marketing Research, 48, 3, 444–456. Munzert, S., Rubba, C., Meißner, P., Nyhuis, D. (2014). Automated Data Collection with R: A Practical Guide to Web Scraping and Text Mining. John Wiley & Sons, Chichester.
Literaturverzeichnis
155
Nelson, P. (1970). Information and Consumer Behavior. Journal of Political Economy, 78, 2, 311–329. Nelson, P. (1974). Advertising as Information. Journal of Political Economy, 82, 4, 729–754. Netzer, O., Feldman, R., Goldenberg, J., Fresko, M. (2012). Mine Your Own Business: Market-Structure Surveillance through Text Mining. Marketing Science, 31, 3, 521–543. Nielsen (2015). Nielsen Global Trust in Advertising Report 2015. URL: https://web.archive.org/web/20180102131849/http://www.nielsen.com/us/en/insights/reports/2015/global-trust-in-advertising-2015.html [02.01.2018]. Pang, B., Lee, L. (2004). A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts. Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL-2004), 271– 278. Pang, B., Lee, L. (2008). Opinion Mining and Sentiment Analysis. Foundations and Trends® in Information Retrieval, 2, 1–2, 1–135. Pang, B., Lee, L., Vaithyanathan, S. (2002). Thumbs Up?: Sentiment Classification Using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP-2002), 79–86. Pennington, J., Socher, R., Manning, C.D. (2014). Glove: Global Vectors for Word Representation. Proceedings of the Conference on Empiricial Methods in Natural Language Processing (EMNLP-2014), 1532–1543. Popescu, A.-M., Etzioni, O. (2005). Extracting Product Features and Opinions from Reviews. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP-2005), 339–346. Popping, R. (2000). Computer-Assisted Text Analysis. SAGE, London. Poria, S., Cambria, E., Gelbukh, A. (2016). Aspect Extraction for Opinion Mining with a Deep Convolutional Neural Network. Knowledge-Based Systems, 108, 42–49. Porter, M.F. (1980). An Algorithm for Suffix Stripping. Program, 14, 3, 130–137.
156
Literaturverzeichnis
PostgreSQL (2017). PostgreSQL, Open Source Datenbanksystem. URL: https://web.archive.org/web/20180102132009/http://www.postgresql.de/index.whtml [02.01.2018]. Qiu, G., Liu, B., Bu, J., Chen, C. (2011). Opinion Word Expansion and Target Extraction through Double Propagation. Computational Linguistics, 37, 1, 9–27. Quester, P.G., Smart, J. (1998). The Influence of Consumption Situation and Product Involvement over Consumers’ Use of Product Attribute. Journal of Consumer Marketing, 15, 3, 220–238. Ransbotham, S., Kane, G.C., Lurie, N.H. (2012). Network Characteristics and the Value of Collaborative User-Generated Content. Marketing Science, 31, 3, 387– 405. Rao, V.R. (2014). Theory and Design of Conjoint Studies (Ratings Based Methods). In: Vithala R. Rao (Hrsg.), Applied Conjoint Analysis, 37–78. Springer, Heidelberg. Ringel, D.M., Skiera, B. (2016). Visualizing Asymmetric Competition among More than 1,000 Products Using Big Search Data. Marketing Science, 35, 3, 511– 534. Rui, H., Liu, Y., Whinston, A. (2013). Whose and What Chatter Matters? The Effect of Tweets on Movie Sales. Decision Support Systems, 55, 4, 863–870. Salton, G., McGill, M.J. (1986). Introduction to Modern Information Retrieval. McGraw-Hill, New York, NY. Sattler, H., Hensel-Börner, S. (2001). A Comparison of Conjoint Measurement with Self-Explicated Approaches. In: Anders Gustafsson, Andreas Herrmann, Frank Huber (Hrsg.), Conjoint Measurement, 121–133. Springer, Heidelberg. Schweidel, D.A., Moe, W.W. (2014). Listening In on Social Media: A Joint Model of Sentiment and Venue Format Choice. Journal of Marketing Research, 51, 4, 387–402. Selivanov, D. (2016). Text2vec: Modern Text Mining Framework for R: R Package Version 0.4.0. URL: https://web.archive.org/web/20180102132109/https://cran.r-project.org/web/packages/text2vec/index.html [02.01.2018].
Literaturverzeichnis
157
Silva, R.S., Laboreiro, G., Sarmento, L., Grant, T., Oliveira, E., Maia, B. (2011). ‘Twazn Me‼!;(’Automatic Authorship Analysis of Micro-Blogging Messages. Proceedings of the 16th International Conference on Natural Language Processing and Information Systems (NLDB-2011), 161–168. Socher, R., Perelygin, A., Wu, J.Y., Chuang, J., Manning, C.D., Ng, A.Y., Potts, C. (2013). Recursive Deep Models for Semantic Compositionality over a Sentiment Treebank. Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP-2013), 1631–1642. Somprasertsri, G., Lalitrojwong, P. (2008). Automatic Product Feature Extraction from Online Product Reviews Using Maximum Entropy with Lexical and Syntactic Features. Proceedings of the IEEE International Conference on Information Reuse and Integration (IRI-2008), 250–255. Statista (2015). Einzelhandelsumsatz mit Bier in den USA nach Segmenten 2014. URL: https://web.archive.org/web/20180102133738/https://de.statista.com/statistik/daten/studie/415958/umfrage/umsatz-mit-bier-im-einzelhandel-in-denusa-nach-segmenten/ [02.01.2018]. Stieglitz, S., Dang-Xuan, L., Bruns, A., Neuberger, C. (2014). Social Media Analytics. Wirtschaftsinformatik, 56, 2, 101–109. Tai, K.S., Socher, R., Manning, C.D. (2015). Improved Semantic Representations from Tree-Structured Long Short-Term Memory Networks. Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics (ACL2015),1556–1566. Tirunillai, S., Tellis, G.J. (2012). Does Chatter Really Matter? Dynamics of User-Generated Content and Stock Performance. Marketing Science, 31, 2, 198–215. Tirunillai, S., Tellis, G.J. (2014). Mining Marketing Meaning from Online Chatter: Strategic Brand Analysis of Big Data Using Latent Dirichlet Allocation. Journal of Marketing Research, 51, 4, 463–479. Toubia, O., Stephen, A.T. (2013). Intrinsic vs. Image-Related Utility in Social Media: Why Do People Contribute Content to Twitter? Marketing Science, 32, 3, 368– 392. Train, K.E. (2009). Discrete Choice Methods with Simulation. Cambridge University Press, New York, NY.
158
Literaturverzeichnis
Trusov, M., Bodapati, A.V., Bucklin, R.E. (2010). Determining Influential Users in Internet Social Networks. Journal of Marketing Research, 47, 4, 643–658. Turban, E., Sharda, R., Delen, D., Efraim, T. (2007). Decision Support and Business Intelligence Systems. Pearson Education, Upper Saddle River, NJ. Verhoef, P.C., Kooge, E., Walk, N. (2016). Creating Value with Big Data Analytics: Making Smarter Marketing Decisions. Routledge, New York, NY. Wei, T., Simko, V. (2013). Corrplot: Visualization of a Correlation Matrix: R Package Version 0.73. URL: https://web.archive.org/web/20180102132144/https://cran.r-project.org/web/packages/corrplot/index.html [02.01.2018]. Wheeler, B. (2011). AlgDesign: Algorithmic Experimental Design: R Package Version 1.1-7.3. URL: https://web.archive.org/web/20180102132236/https://cran.r-project.org/web/packages/AlgDesign/index.html [02.01.2018]. Wickham, H. (2016). Ggplot2: Elegant Graphics for Data Analysis: R Package Version 2.2.1. URL: https://web.archive.org/web/20180102132309/https://cran.rproject.org/web/packages/ggplot2/index.html [02.01.2018]. Witten, I.H., Frank, E., Hall, M.A., Pal, C.J. (2016). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann. Wu, C., Che, H., Chan, T.Y., Lu, X. (2015). The Economic Value of Online Reviews. Marketing Science, 34, 5, 739–754. Wu, S., Fang, Z., Tang, J. (2012). Accurate Product Name Recognition from User Generated Content. Proceedings of the IEEE 12th International Conference on Data Mining Workshops (ICDMW-2012), 874–877. Yu, J., Zha, Z.-J., Wang, M., Chua, T.-S. (2011). Aspect Ranking: Identifying Important Product Aspects from Online Consumer Reviews. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT-2011), 1496–1505. Zeng, D., Chen, H., Lusch, R., Li, S.-H. (2010). Social Media Analytics and Intelligence. IEEE Intelligent Systems, 25, 6, 13–16.
Literaturverzeichnis
159
Zhai, Z., Liu, B., Xu, H., Jia, P. (2011). Clustering Product Features for Opinion Mining. Proceedings of the Fourth ACM International Conference on Web Search and Data Mining (WSDM-2011), 347–354. Zhang, L., Liu, B. (2011). Identifying Noun Product Features That Imply Opinions. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: Short Papers - Volume 2 (HLT2011), 575–580. Zhang, L., Liu, B., Lim, S.H., O’Brien-Strain, E. (2010). Extracting and Ranking Product Features in Opinion Documents. Proceedings of the 23rd International Conference on Computational Linguistics: Posters (COLING-2010), 1462– 1470. Zhuang, L., Jing, F., Zhu, X.-Y. (2006). Movie review mining and summarization. Proceedings of the 15th ACM international Conference on Information and Knowledge Management (CIKM-2006), 43–50.
Anhangsverzeichnis Anhang A:
Vergleich der Attribut-Häufigkeiten beider Ansätze ........................ 162
Anhang B:
Paarvergleiche der Smartphone Conjoint Analyse ........................... 165
Anhang C:
Paarvergleiche der Waschmittel Conjoint Analyse........................... 169
© Springer Fachmedien Wiesbaden GmbH, ein Teil von Springer Nature 2019 T. Roelen-Blasberg, Automatisierte Präferenzmessung, Beiträge zur empirischen Marketing- und Vertriebsforschung, https://doi.org/10.1007/978-3-658-23831-5
162
Anhang
Anhang A: Vergleich der Attribut-Häufigkeiten beider Ansätze (1/3)
Anmerkung: Helle (linke) Balken beziehen sich auf die Studienergebnisse, während die dunklen (rechten) Balken die Häufigkeit der Attribute durch die automatisierte Extrahierung beschreiben.
Anhang
163
Anhang A: Vergleich der Attribut-Häufigkeiten beider Ansätze (2/3)
Anmerkung: Helle (linke) Balken beziehen sich auf die Studienergebnisse, während die dunklen (rechten) Balken die Häufigkeit der Attribute durch die automatisierte Extrahierung beschreiben.
164
Anhang
Anhang A: Vergleich der Attribut-Häufigkeiten beider Ansätze (3/3)
Anmerkung: Helle (linke) Balken beziehen sich auf die Studienergebnisse, während die dunklen (rechten) Balken die Häufigkeit der Attribute durch die automatisierte Extrahierung beschreiben.
20h
5h
10h
20h
15h
7.5h
20h
7.5h
15h
5h
15h
12.5h
200
600
400
500
500
300
400
500
300
400
Screen (ppi)
600
Battery
600
Price
750$
750$
750$
500$
500$
1250$
1000$
100$
250$
100$
750$
1000$
1000$
Camera MP
12.5h
5MP
5MP
20MP
12MP
8MP
20MP
16MP
12MP
24MP
12MP
20MP
8MP
24MP
Camera video
400
4K
Full HD
Full HD
HD
Full HD
Full HD
4K
4K
4K
HD
Full HD
Full HD
4K
Memory GB 64GB
32GB
64GB
16GB
64GB
32GB
16GB
8GB
16GB
128GB
16GB
128GB
128GB
no
yes
yes
no
no
yes
no
no
yes
no
no
no
yes
yes
no
Memory SD
8GB
4.5''
4.5''
6''
5.5''
5''
4''
5.5''
4''
4''
4.5''
4.5''
6''
4''
5''
4.5''
Size
32GB
Others
Samsung
Motorola
LG
Apple
Samsung
Motorola
Samsung
Samsung
Samsung
Samsung
Motorola
Samsung
HTC
Samsung
Brand
4K
500
500
400
300
500
600
300
200
400
600
400
500
500
600
600
Screen (ppi)
4K
12.5h
10h
15h
7.5h
20h
15h
15h
7.5h
10h
7.5h
5h
15h
20h
15h
20h
Battery
24MP
1250$
250$
100$
1000$
1000$
1000$
500$
500$
100$
250$
1250$
750$
250$
1000$
750$
Price
16MP
16MP
12MP
24MP
12MP
5MP
16MP
12MP
16MP
8MP
16MP
5MP
16MP
24MP
12MP
20MP
Camera MP
250$
4K
HD
HD
Full HD
HD
4K
HD
Full HD
HD
4K
4K
HD
Full HD
4K
HD
Camera video
250$
8GB
16GB
128GB
64GB
128GB
128GB
64GB
16GB
64GB
16GB
32GB
64GB
64GB
64GB
16GB
Memory GB
10h
yes
yes
no
yes
yes
no
yes
yes
no
no
yes
yes
no
no
no
Memory SD
12.5h
6''
4''
4.5''
4.5''
4.5''
5''
4''
5''
4.5''
5''
4''
5.5''
5.5''
5.5''
5''
Size
500
Rechtes Profil
Samsung
Apple
HTC
HTC
LG
LG
Samsung
LG
Samsung
LG
Others
Others
HTC
LG
Apple
Brand
300
Linkes Profil
Anhang B: Paarvergleiche der Smartphone Conjoint Analyse (Block 1/4)
Anhang 165
5h
600
15h
10h
400
7.5h
20h
500
300
20h
300
200
10h
500
7.5h
10h
600
Price
400
15h
200
250$
750$
750$
1000$
250$
100$
250$
1000$
1000$
1250$
750$
100$
Camera MP
1250$
12MP
24MP
12MP
8MP
20MP
24MP
5MP
16MP
8MP
8MP
20MP
8MP
16MP
Camera video
20h
15h
400
4K
Full HD
HD
4K
Full HD
Full HD
Full HD
HD
4K
Full HD
4K
4K
Full HD
Memory GB 16GB
16GB
128GB
64GB
64GB
32GB
16GB
8GB
128GB
8GB
32GB
32GB
128GB
yes
Memory SD no
no
yes
yes
no
no
no
no
no
yes
no
no
no
yes
5.5''
5.5''
5''
4''
4.5''
6''
6''
4.5''
4''
4.5''
4.5''
5''
4''
5''
4.5''
Size
64GB
Motorola
Apple
Motorola
Samsung
Samsung
Apple
LG
Samsung
Samsung
Others
Samsung
HTC
Samsung
HTC
LG
Brand
64GB
400
600
200
400
300
200
200
200
600
400
500
300
200
200
600
Screen (ppi)
4K
7.5h
7.5h
12.5h
10h
12.5h
12.5h
15h
15h
12.5h
5h
7.5h
12.5h
7.5h
15h
20h
Battery
HD
750$
1000$
1250$
1250$
100$
1000$
1250$
1250$
100$
100$
100$
1000$
500$
250$
250$
Price
20MP
20MP
12MP
16MP
12MP
5MP
20MP
12MP
20MP
5MP
16MP
24MP
8MP
16MP
24MP
12MP
Camera MP
24MP
Full HD
HD
Full HD
4K
4K
HD
HD
4K
Full HD
Full HD
HD
Full HD
4K
4K
HD
Camera video
500$
64GB
64GB
32GB
128GB
128GB
128GB
32GB
16GB
8GB
64GB
128GB
64GB
32GB
64GB
32GB
Memory GB
500$
yes
yes
no
no
no
yes
yes
yes
yes
no
no
yes
yes
no
yes
Memory SD
12.5h
20h
4''
4''
5.5''
4.5''
5.5''
5.5''
5''
4''
6''
5.5''
6''
4.5''
4.5''
4.5''
5''
Size
300
7.5h
Screen (ppi)
600
Rechtes Profil
Samsung
Samsung
Others
LG
Apple
Others
Apple
Others
Others
Apple
Others
LG
Motorola
Samsung
Apple
Brand
500
Battery
500
Linkes Profil
Anhang B: Paarvergleiche der Smartphone Conjoint Analyse (Block 2/4)
166 Anhang
Battery
Screen (ppi)
7.5h
15h
200
500
500
10h
20h
500
400
7.5h
400
5h
20h
300
10h
10h
200
600
12.5h
300
600
20h
12.5h
600
Price
1000$
250$
1000$
750$
750$
1250$
750$
500$
750$
750$
100$
100$
250$
Camera MP
5h
20MP
12MP
12MP
24MP
24MP
16MP
24MP
12MP
16MP
16MP
8MP
20MP
8MP
Camera video
600
Full HD
Full HD
4K
4K
4K
HD
HD
4K
4K
4K
Full HD
4K
4K
Memory GB 16GB
64GB
64GB
128GB
64GB
32GB
128GB
8GB
8GB
16GB
16GB
16GB
32GB
no
no
no
yes
no
no
no
yes
no
no
no
no
yes
yes
yes
Memory SD
128GB
5''
4.5''
6''
5.5''
4.5''
5.5''
4.5''
5.5''
6''
4''
4.5''
4.5''
4''
5''
4''
Size
128GB
Apple
Samsung
HTC
Samsung
Samsung
LG
Samsung
Motorola
Others
Apple
Samsung
Samsung
Samsung
Motorola
LG
Brand
HD
600
500
300
400
300
600
400
500
400
200
400
300
300
300
300
Screen (ppi)
Full HD
12.5h
5h
20h
12.5h
20h
10h
20h
10h
5h
5h
7.5h
15h
10h
20h
15h
Battery
24MP
750$
750$
500$
500$
500$
250$
250$
750$
1250$
100$
1000$
250$
1000$
100$
750$
Price
20MP
8MP
16MP
16MP
24MP
12MP
8MP
20MP
20MP
8MP
8MP
20MP
24MP
24MP
8MP
24MP
Camera MP
250$
HD
HD
HD
4K
Full HD
HD
Full HD
Full HD
Full HD
Full HD
HD
HD
HD
4K
Full HD
Camera video
100$
32GB
128GB
16GB
64GB
128GB
16GB
64GB
16GB
16GB
32GB
32GB
32GB
64GB
16GB
32GB
Memory GB
7.5h
no
yes
no
no
no
yes
no
no
yes
yes
no
yes
no
yes
no
Memory SD
12.5h
6''
6''
4.5''
4.5''
6''
4.5''
5''
5''
5.5''
5.5''
6''
6''
5''
4''
4.5''
Size
400
Rechtes Profil
Others
Others
Apple
Apple
Motorola
Motorola
Others
HTC
Samsung
Samsung
Motorola
LG
Motorola
Samsung
Samsung
Brand
300
Linkes Profil
Anhang B: Paarvergleiche der Smartphone Conjoint Analyse (Block 3/4)
Anhang 167
Battery
Screen (ppi)
12.5h
12.5h
20h
12.5h
15h
7.5h
20h
5h
10h
20h
600
600
400
300
300
400
500
600
500
600
500
5h
10h
200
Price
100$
500$
100$
100$
750$
250$
100$
1000$
1250$
500$
750$
1250$
1000$
Camera MP
20h
16MP
16MP
12MP
24MP
8MP
20MP
8MP
8MP
12MP
5MP
24MP
5MP
24MP
Camera video
300
4K
HD
4K
Full HD
4K
Full HD
HD
4K
Full HD
Full HD
4K
HD
4K
Memory GB 64GB
128GB
128GB
16GB
8GB
16GB
64GB
64GB
32GB
32GB
64GB
8GB
16GB
no
yes
no
no
no
no
yes
yes
no
yes
no
no
yes
yes
no
Memory SD
32GB
4.5''
5.5''
5''
4.5''
5.5''
4.5''
6''
4''
4''
4''
4''
4''
5''
4.5''
4.5''
Size
128GB
Samsung
HTC
Others
Samsung
LG
Motorola
Samsung
Samsung
LG
Samsung
Samsung
Samsung
HTC
Samsung
Apple
Brand
4K
600
500
400
500
200
200
500
300
400
200
300
500
600
600
200
Screen (ppi)
HD
7.5h
20h
15h
12.5h
10h
10h
10h
12.5h
5h
20h
15h
20h
7.5h
15h
5h
Battery
8MP
1000$
100$
1250$
1000$
1000$
250$
500$
250$
500$
1250$
250$
100$
250$
500$
750$
Price
20MP
24MP
8MP
20MP
8MP
16MP
5MP
8MP
20MP
20MP
8MP
8MP
20MP
8MP
24MP
16MP
Camera MP
250$
HD
4K
Full HD
4K
4K
4K
Full HD
4K
4K
4K
HD
4K
4K
4K
Full HD
Camera video
1000$
16GB
16GB
8GB
8GB
64GB
128GB
128GB
128GB
8GB
16GB
64GB
64GB
128GB
64GB
8GB
Memory GB
10h
yes
no
yes
yes
no
yes
no
no
no
no
yes
yes
no
no
yes
Memory SD
7.5h
5.5''
4.5''
4''
5''
4.5''
6''
4''
5.5''
4.5''
6''
6''
5.5''
4.5''
6''
4''
Size
200
Rechtes Profil
Apple
Samsung
Apple
Apple
Samsung
Apple
HTC
HTC
Others
LG
HTC
Motorola
Samsung
Motorola
LG
Brand
400
Linkes Profil
Anhang B: Paarvergleiche der Smartphone Conjoint Analyse (Block 4/4)
168 Anhang
All
Others
Tide
Xtra
0.05$
0.05$
0.05$
0.30$
poor (40)
worst (22)
Purex
Gain
Arm&Hammer
Arm&Hammer
best (82)
0.10$
poor (40)
worst (22)
0.20$
average (62)
Arm&Hammer
Persil
0.30$
poor (40)
Seventh Gen
Seventh Gen
0.50$
0.10$
good (70)
ECOS
good (70)
0.20$
average (62)
Brand
Mrs.Meyers
Form
0.50$
0.10$
best (82)
powder
powder
pads
liquid
powder
pads
pads
liquid
liquid
pads
pads
liquid
powder
powder
Skin sensitive
0.10$
0.05$
Cleaning power
average (62)
no
no
no
yes
no
no
no
yes
no
yes
yes
yes
yes
yes
Size regular
regular
large
small
small
large
small
small
small
large
regular
large
large
large
average (62)
best (82)
poor (40)
average (62)
worst (22)
worst (22)
average (62)
best (82)
best (82)
best (82)
best (82)
worst (22)
average (62)
best (82)
good (70)
Cleaning power
small
0.20$
0.50$
0.30$
0.20$
0.05$
0.05$
0.10$
0.20$
0.50$
0.50$
0.30$
0.10$
0.05$
0.30$
0.10$
Price
no
Others
Seventh Gen
Purex
Purex
ECOS
Persil
Mrs.Meyers
All
Mrs.Meyers
ECOS
Others
Mrs.Meyers
Tide
Persil
Persil
Brand
pads
pads
pads
liquid
pads
liquid
liquid
powder
pads
pads
liquid
liquid
pads
pads
pads
powder
Form
Tide
yes
yes
yes
no
yes
yes
no
yes
yes
no
no
no
no
no
yes
Skin sensitive
good (70)
0.30$
Rechtes Profil
small
small
small
large
regular
small
regular
regular
regular
small
large
regular
regular
regular
large
Size
good (70)
Price
best (82)
Linkes Profil
Anhang C: Paarvergleiche der Waschmittel Conjoint Analyse (Block 1/2)
Anhang 169
Arm&Hammer
Others
0.30$
0.50$
0.10$
0.05$
0.10$
0.05$
0.05$
0.50$
0.20$
0.30$
0.20$
0.05$
0.05$
0.10$
0.50$
Cleaning power
worst (22)
good (70)
worst (22)
worst (22)
best (82)
average (62)
good (70)
average (62)
poor (40)
poor (40)
best (82)
poor (40)
average (62)
good (70)
Brand
Tide
Arm&Hammer
Purex
All
Seventh Gen
Arm&Hammer
Gain
Persil
Xtra
ECOS
Form powder
liquid
powder
pads
pads
powder
powder
powder
liquid
pads
pads
pads
liquid
liquid
Skin sensitive
Gain
no
no
no
yes
yes
no
no
no
no
yes
no
yes
yes
yes
Size
Mrs.Meyers
large
regular
large
regular
regular
small
large
large
large
small
small
small
large
large
Cleaning power average (62)
good (70)
average (62)
best (82)
worst (22)
worst (22)
good (70)
poor (40)
best (82)
best (82)
average (62)
best (82)
good (70)
good (70)
0.20$
0.30$
0.20$
0.05$
0.30$
0.10$
0.50$
0.30$
0.50$
0.30$
0.20$
0.10$
0.10$
0.05$
0.05$
Price
poor (40)
Gain
Purex
Xtra
Mrs.Meyers
Xtra
Arm&Hammer
Gain
All
Xtra
Others
Tide
ECOS
Gain
Mrs.Meyers
Seventh Gen
Brand
regular
liquid
powder
liquid
liquid
liquid
liquid
pads
pads
powder
liquid
liquid
liquid
powder
powder
liquid
Form
yes
yes
yes
no
no
no
yes
no
yes
yes
no
yes
no
no
no
no
Skin sensitive
powder
Rechtes Profil
small
large
regular
small
large
large
regular
regular
regular
regular
regular
regular
small
small
large
Size
Purex
Price
average (62)
Linkes Profil
Anhang C: Paarvergleiche der Waschmittel Conjoint Analyse (Block 2/2)
170 Anhang