English Research Seminar 29.10.2019

29. Oktober 2019

Lecture: Dr Andrew Kehoe, Birmingham City University, UK: “All our items are pre-owned and may have musty odor”: Using automated linguistic analysis techniques to study e-commerce data Zeit: Dienstag 18.06.19, 18:15 – 19:45; Ort: WU, Gebäude D2, Eingang D, 2.OG, Besprechungsraum 228

Abstract: Corpus Linguistics is the analysis of a large collection of electronic texts (a corpus) in order to discover patterns and trends in language use. In this paper I describe research I have carried out over the past 20 years on the application of Corpus Linguistic techniques to online data, with a particular focus on web-based marketing and e-commerce.

I begin by describing the key methods in Corpus Linguistics and the software tools developed by my research team, including the WebCorp Linguist’s Search Engine (WebCorpLSE). I explain how we have used WebCorpLSE to crawl the web, downloading and processing texts to build a 10 billion word, linguistically-tagged corpus, including sub-corpora for specific research purposes: the Birmingham Blog Corpus, as well as literary, news, and general web corpora.

In the second part of the paper I present my more recent work with partners outside the field of Linguistics and outside academia. Corpus Linguistics is not a discipline as such; rather it is a collection of techniques for the systematic analysis of data which can be applied to a wide range of problems in a variety of fields.

My first example is my work with colleague Matt Gee on the Puma Dance Dictionary project. Here, we served as linguistic consultants to the Grey London advertising agency and Procter & Gamble, manufacturer of a new range of fragrances licensed under the Puma brand and targeted at consumers aged 14-25. The aim of the campaign was to raise awareness of the new brand through a social media campaign. Our specific task was to determine which words are likely to occur most frequently in social media communication between young people. I describe how we achieved this by building a social media corpus and applying our WebCorpLSE analysis tools.

My second example is our research on the language of eBay. Our eBay corpus contains over 400,000 item descriptions totalling 100 million words. I explain the linguistic differences we found between item categories, looking in particular at words describing used items (second-hand, pre-owned, pre-loved, etc) and words describing ‘fake’ items (non-original, generic, compatible, etc.). I also outline our findings on variation in language use across price bands on eBay, for example the fact that personal pronouns are significantly more frequent in the Antiques category, and that watches described as gents’ sell for more than twice as much as watches described as men’s.

Throughout the paper I highlight the fact that a deeper understanding of the language of online selling is vital as e-commerce continues to grow worldwide. I give examples of how corpus linguistic techniques can be applied to the study of this increasingly important social phenomenon, and suggest how our techniques could be used to improve the indexing and search functions on sites like eBay.

Dr Andrew Kehoe is Associate Professor in the School of English at Birmingham City University. He is Deputy Head of School and Director of the Research & Development Unit for English Studies (RDUES). The RDUES team carries out research in the field of corpus linguistics, and has in recent years developed both the WebCorp suite of online search tools for linguistic study (http://www.webcorp.org.uk/) and the eMargin collaborative text annotation system (http://emargin.bcu.ac.uk/).

zurück zur Übersicht

Name	Zweck	Ablauf	Anbieter
CookieConsent	Speichert Ihre Einwilligung zur Verwendung von Cookies.	30 Tage	WU
site-popup	Speichert ob ein Popup ausgefüllt oder geschlossen wurde.	30 Tage	WU
BACH_PRXY_ID	Zur Anzeige von einigen WU-spezifischen Inhalten müssen Informationen teilweise von nachgelagerten WU-System abgefragt werden. Notwendig um die Antwort einer Anfrage zuordnen zu können.	20 Jahre	WU
BACH_PRXY_SN	Zur Anzeige von einigen WU-spezifischen Inhalten müssen Informationen teilweise von nachgelagerten WU-System abgefragt werden. Notwendig um die Antwort einer Anfrage zuordnen zu können.	Session	WU
fe_typo_user	Notwendig für die Anmeldung und Zugriff auf geschützte Inhalte oder zur Bearbeitung des eigenen Profils.	Session	WU
be_typo_user	Notwendig für die Anmeldung und Bearbeitung von Inhalten im TYPO3 Backend.	Session	WU
be_lastLoginProvider	Speichert die zuletzt verwendete Methode zur Anmeldung für das TYPO3-Backend.	90 Tage	WU
ASP.NET_SessionId	Notwendig, um die Zuordnung von Besucher zu Formulareingabe sicherstellen zu können.	Session	WU (forms.wu.ac.at)
__RequestVerificationToken	Notwendig, um die Formulareingabe gegenüber Angriffen abzusichern.	Session	WU (forms.wu.ac.at)
ESRASOFTSID	Notwendig zur Identifizierung des angemeldeten Benutzers im Kursanmeldungsystem des Business Language Centers.	Session	WU (esrasoft.wu.ac.at)
esraSoftWiData	Notwendig um ausgewählte Sprache und Sprachkurse eines Besuchers nachverfolgen zu können.	Session	WU (esrasoft.wu.ac.at)
esraSimpleSAMLAuthToken	Notwendig zur Identifizierung als WU-Angehörige/r für Kursanmeldung.	Session	WU (esrasoft.wu.ac.at)
esraSimpleSAML	Notwendig zur Identifizierung als WU-Angehörige/r für Kursanmeldung.	Session	WU (esrasoft.wu.ac.at)
SimpleSAML	Notwendig zur Identifizierung als WU-Angehörige/r für Kursanmeldung.	Session	WU (esrasoft.wu.ac.at)

Name	Zweck	Ablauf	Anbieter
_pk_id	Eindeutige Kennzeichnung eines Besuchers durch Matomo.	30 Tage	WU (piwik.wu.ac.at)
_pk_ref	Speicherung des Referrers durch Matomo.	6 Monate	WU (piwik.wu.ac.at)
_pk_ses	Speicherung von Informationen über den aktuellen Webseitenbesuch durch Matomo.	1 Stunden	WU (piwik.wu.ac.at)
_gcl_au	Enthält eine zufallsgenerierte User-ID.	3 Monate	Google
AMP_TOKEN	Enthält ein Token, das verwendet werden kann, um eine Client-ID vom AMP-Client-ID-Service abzurufen. Andere mögliche Werte zeigen Opt-out, Anfrage im Gange oder einen Fehler beim Abrufen einer Client-ID vom AMP Client ID Service an.	1 Jahr	Google
_dc_gtm_--property-id--	Wird von DoubleClick (Google Tag Manager) verwendet, um die Besucher nach Alter, Geschlecht oder Interessen zu identifizieren.	2 Jahre	Google
_ga	Contains a randomly generated user ID. Using this ID, Google Analytics can recognize returning users on this website and merge the data from previous visits.	2 Jahr	Google
_gat_gtag	Certain data is only sent to Google Analytics a maximum of once per minute. As long as it is set, certain data transfers are prevented.	1 Minute	Google
_gid	Contains a randomly generated user ID. Using this ID, Google Analytics can recognize returning users on this website and merge the data from previous visits.	24 Stunde	Google
_gac_gb	Contains campaign-related information for the user. If Google Analytics and Google Ads accounts are linked, the conversion tags on the Google Ads website read this cookie.	90 Tag	Google
_dc_gtm	Used to throttle the request rate.	1 Minute	Google
IDE	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann Google den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	1 Jahr	Google
player	Dieses Cookie speichert nutzerspezifische Einstellungen, bevor ein eingebettetes Vimeo-Video abgespielt wird. Das bedeutet, dass beim nächsten Anschauen eines Vimeo-Videos die bevorzugten Einstellungen geladen werden.	1 Jahr	Vimeo
vuid	Dieser Cookie wird dazu eingesetzt, um den Nutzungsverlauf des Benutzers zu speichern.	2 Jahr	Vimeo
__cf_bm	Dieses Cookie wird verwendet, um zwischen Menschen und Bots zu unterscheiden. Dies ist für Vimeo notwendig, um, um gültige Daten über die Nutzung des Service zu sammeln	1 Tag	Vimeo
_uetvid	Dieses Cookie wird gesetzt, um die Nutzung des Vimeo Videoplayers zu ermöglichen	1 Jahr	Vimeo
_tt_enable_cookie	Dieses Cookie wird verwendet, um die Vimeo-Videoeinbettung auf der WU-Website zu ermöglichen und für andere nicht näher bezeichnete Zwecke.	1 Jahr	Vimeo
afUserId	Dieses Cookie sammelt Daten von Nutzer*innen, die mit eingebetteten Vimeo-Videos interagieren.	2 Jahre	Vimeo
_abexps	Dieses Cookie speichert getroffene Einstellungen des/ der Nutzerin, zB. voreingestellte Sprache, Region oder Benutzernamen sowie Interaktionsdaten des/ der Nutzerin	10 Monate	Vimeo
_clck	Dieses Cookie ermöglicht die Nutzung des eingebetteten Vimeo Video Players	1 Jahr	Vimeo
has_logged_in	Dieses Cookie speichert Anmeldeinformationen und ob sich der/ die Nutzer*in jemals angemeldet hat.	10 Jahre	Vimeo
language	Dieses Cookie merkt sich die Spracheinstellung des/ der Nutzer*in. So wird sichergestellt, dass Vimeo in der vom Nutzer ausgewählten Sprache erscheint.	11 Jahre	Vimeo
_ttp	Dieser Cookie wird gesetzt, um die Nutzung des Vimeo Videoplayers zu ermöglichen	1 Jahr	Vimeo
sd_client_id	Dieses Cookie speichert Daten über die aktuellen Videoeinstellungen des/ der Benutzer*in und einen persönliches Identifikationstoken	2 Jahr	Vimeo
_rdt_uuid	Dieses Cookie sammelt Daten über die Interaktionen der Benutzer*innen auf Websites, auf denen ein Vimeo-Video eingebettet ist.	3 Monate	Vimeo
vimeo_cart	Dieses Cookie wird verwendet, um zu überprüfen, wie oft ein Video abgespielt wurde	10 Jahre	Vimeo
OptanonConsent	Dieses Cookie speichert Informationen über den Zustimmungsstatus (Consent) eines Besuchers.	1 Jahr	Vimeo
_scid	Dieses Cookie wird verwendet, um einem/einer Benutzer*in eine eindeutige ID zuzuweisen	10 Monate	Vimeo
hjSessionBenutzer_	Wird gesetzt, wenn ein Benutzer zum ersten Mal eine Seite aufruft. Speichert die Hotjar-Benutzer-ID, die für diese Seite eindeutig ist. Hotjar verfolgt Benutzer nicht über verschiedene Websites hinweg.Stellt sicher, dass Daten von nachfolgenden Besuchen auf derselben Website derselben Benutzer-ID zugeordnet werden.	1 Jahr	Hotjar
_hjid	Dies ist ein altes Cookie, das wir nicht mehr setzen, aber wenn ein Benutzer es noch in seinem Browser hat, werden wir seinen Wert wiederverwenden und zu _hjSessionUser_{site_id} migrieren. Wird gesetzt, wenn ein Benutzer zum ersten Mal eine Seite aufruft. Behält die Hotjar-Benutzer-ID bei, die für diese Seite eindeutig ist. Stellt sicher, dass die Daten von nachfolgenden Besuchen derselben Seite derselben Benutzer-ID zugeordnet werden.	1 Jahr	Hotjar
_hjFirstSeen	Identifiziert die erste Sitzung eines neuen Benutzers. Wird von Aufzeichnungsfiltern verwendet, um neue Benutzersitzungen zu identifizieren. Speicherdauer Verlängert sich bei Benutzeraktivität.	30 Minuten	Hotjar
_hjHasCachedUserAttributes	Ermöglicht es nachzuvollziehen, ob die Daten in _hjUserAttributes Local Storage auf dem neuesten Stand sind oder nicht.	Session	Hotjar
_hjUserAttributesHash	Ermöglicht es nachzuvollziehen, wann sich ein Benutzerattribut geändert hat und aktualisiert werden muss.	2 Minuten	Hotjar
_hjBenutzerAttribute	Speichert Benutzerattribute, die über die Hotjar Identify API gesendet werden. Keine explizite Gültigkeitsdauer.	Session	Hotjar
hjViewportId	Speichert Benutzer-Viewport-Details.	Session	Hotjar
hjActiveViewportIds	Speichert die IDs der aktiven Benutzer-Viewports. Speichert einen expirationTimestamp, der zur Validierung aktiver Ansichtsfenster bei der Skriptinitialisierung verwendet wird.	Session	Hotjar
_hjSession_	Enthält die aktuellen Sitzungsdaten. Stellt sicher, dass nachfolgende Anfragen im Sitzungsfenster der gleichen Sitzung zugeordnet werden.	30 Minuten	Hotjar
_hjSessionTooLarge	Veranlasst Hotjar, die Datenerfassung zu beenden, wenn eine Sitzung zu viel wird. Wird automatisch durch ein Signal des Servers bestimmt, wenn die Sitzung das Limit überschreitet.	1 Stunde	Hotjar
_hjSessionResumed	Wird gesetzt, wenn eine Sitzung/Aufzeichnung nach einer Unterbrechung der Verbindung wieder mit den Hotjar-Servern verbunden wird.	Session	Hotjar
_hjCookieTest	Prüft, ob der Hotjar Tracking Code Cookies verwenden kann. Wenn ja, wird ein Wert von 1 gesetzt. Wird fast sofort nach seiner Erstellung gelöscht.	Session	Hotjar
_hjLocalStorageTest	Prüft, ob der Hotjar Tracking Code Local Storage verwenden kann. Wenn ja, wird der Wert 1 gesetzt. Die in _hjLocalStorageTest gespeicherten Daten haben keine Verfallszeit, werden aber fast sofort nach ihrer Erstellung gelöscht.	Keine	Hotjar
_hjSessionStorageTest	Prüft, ob der Hotjar Tracking Code Session Storage verwenden kann. Wenn ja, wird ein Wert von 1 gesetzt.	Keine	Hotjar
_hjIncludedInPageviewSample	Wird gesetzt, um festzustellen, ob ein Nutzer in die Datenstichprobe einbezogen wird, die durch das Seitenaufruflimit Ihrer Website definiert ist.	2 Minuten	Hotjar
_hjIncludedInSessionSample_	Wird gesetzt, um festzustellen, ob ein Nutzer in die Datenstichprobe einbezogen wird, die durch das tägliche Sitzungslimit Ihrer Website definiert ist.	2 Minuten	Hotjar
_hjAbsoluteSessionInProgress	Wird verwendet, um den ersten Seitenaufruf eines Benutzers zu erkennen.	30 Minuten	Hotjar
_hjTLDTest	_hjTLDTest-Cookie für verschiedene URL-Teilstrings, bis dies fehlschlägt. Ermöglicht, den allgemeinsten Cookie-Pfad zu ermitteln, der anstelle des Hostnamens der Seite zu verwenden ist. Das bedeutet, dass Cookies über Subdomänen hinweg gemeinsam genutzt werden können (sofern zutreffend). Nach dieser Prüfung wird das Cookie entfernt.	Session	Hotjar

Name	Zweck	Ablauf	Anbieter
test_cookie	Wird testweise gesetzt, um zu prüfen, ob der Browser das Setzen von Cookies erlaubt. Enthält keine Identifikationsmerkmale.	15 Minute	Google
IDE	Enthält eine zufallsgenerierte User-ID. Anhand dieser ID kann Google den User über verschiedene Websites domainübergreifend wiedererkennen und personalisierte Werbung ausspielen.	1 Jahr	Google
_gcl_au	Enthält eine zufallsgenerierte User-ID.	90 Tag	Google
_gcl_aw	Dieses Cookie wird gesetzt, wenn ein User über einen Klick auf eine Google Werbeanzeige auf die Website gelangt. Es enthält Informationen darüber, welche Werbeanzeige geklickt wurde.	90 Tag	Google
xs	Wird verwendet, um eine Facebook-Sitzung aufrechtzuerhalten. Es funktioniert in Verbindung mit dem c_user-Cookie, um die Identität des Users bei Facebook zu authentifizieren.	1 Jahr	Facebook
fr	Wird verwendet, um Werbeanzeigen auszuliefern und ihre Relevanz zu messen und zu verbessern.	90 Tag	Facebook
m_pixel_ratio	Performance-Cookie, das von Facebook mit Facebook-Pixel verwendet wird.	Session	Facebook
wd	Wird für Analyse-Zwecke verwendet. Unter Anderem werden technische Parameter protokolliert (z.B. Seitenverhältnis und Abmessungen des Bildschrims), damit facebook Apps korrekt dargestellt werden können.	7 Tag	Facebook
dpr	Wird für Analyse-Zwecke verwendet. Unter Anderem werden technische Parameter protokolliert (z.B. Seitenverhältnis und Abmessungen des Bildschirms), damit facebook Apps korrekt dargestellt werden können.	7 Tag	Facebook
sb	Wird verwendet, um Browser-Details und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahr	Facebook
dbln	Wird verwendet, um Browser-Details und Sicherheitsinformationen des Facebook-Kontos zu speichern.	2 Jahr	Facebook
spin	Cookie für Werbezwecke und die Berichterstattung über soziale Kampagnen.	Session	Facebook
presence	Enthält den "Chat"-Status eines angemeldeten Benutzers.	1 Monat	Facebook
x-referer	Performance-Cookie, das von Facebook in Kombination mit Facebook-Pixel verwendet wird.	Session	Facebook
cppo	Cookie für statistische Zwecke.	90 Tag	Facebook
datr	Identifiziert den Browser für Zwecke der Sicherheit und Website-Integrität, einschließlich der Kontowiederherstellung und Identifizierung von möglicherweise kompromittierten Konten.	2 Jahr	Facebook
locale	Speichert Spracheinstellungen	Session	Facebook
_fbp	Ein Cookie für Facebook-Werbung, das verwendet wird, um die Relevanz zu tracken und zu verbessern sowie Serienanzeigenprodukte auf Facebook bereitzustellen.	90 Tag	Facebook
_fbc	Ein Cookie für Facebook-Werbung, das verwendet wird, um die Relevanz zu tracken und zu verbessern sowie Serienanzeigenprodukte auf Facebook bereitzustellen.	90 Tag	Facebook
UserMatchHistory	Mit diesem Cookie werden die IDs von LinkedIn Ads synchronisiert.	30 Tag	LinkedIn
AnalyticsSyncHistory	Mit diesem Cookie wird der Zeitpunkt der Synchronisierung des Nutzers mit dem Cookie „lms_analytics“ gespeichert.	30 Tag	LinkedIn
li_oatml	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn zu Werbe- und Analysezwecke identifiziert.	30 Tag	LinkedIn
lms_ads	Mit diesem Cookie werden LinkedIn Mitglieder außerhalb von LinkedIn identifiziert.	30 Tag	LinkedIn
lms_analytics	Mit diesem Cookie werden LinkedIn Mitglieder zu Analysezwecken identifiziert.	30 Tag	LinkedIn
li_fat_id	Bei diesem Cookie handelt es sich um eine indirekte Mitgliederkennung, die für Conversion-Tracking, Retargeting und Analysen verwendet wird.	30 Tag	LinkedIn
li_sugr	Mit diesem Cookie werden wahrscheinlichkeitstheoretische Übereinstimmungen der Identität eines Nutzers festgestellt.	90 Tag	LinkedIn
U	Bei diesem Cookie handelt es sich um eine Browserkennung für Nutzer.	3 Monat	LinkedIn
_guid	Mit diesem Cookie wird ein LinkedIn Mitglied für Werbung über Google Ads identifiziert.	90 Tag	LinkedIn
BizographicsOptOut	Mit diesem Cookie wird der Ablehnungsstatus für das Tracking durch Drittanbieter ermittelt.	10 Jahr	LinkedIn
lidc	Dieses Cookie erleichtert die Auswahl des Datenzentrums von LinkedIn.	24 Stunden	LinkedIn
aam_uuid	Dieses Cookie dient der ID-Synchronisierung mit Adobe Audience Manager.	30 Tage	LinkedIn
AMCV_XXX_at_AdobeOrg	Dieses Cookie enthält eine eindeutige Kennung für die Adobe Experience Cloud.	180 Tage	LinkedIn
li_mc	Dieses Cookie wird als temporärer Cache verwendet. Es dient dazu, Einwilligungsinformationen des/ der Nutzer*in aus der Datenbank client-seitig verfügbar zu haben.	2 Jahre	LinkedIn
lang	Dieses Cookie merkt sich die Spracheinstellung des/ der Nutzer*in. So wird sichergestellt, dass die LinkedIn.com-Website in der vom Nutzer ausgewählten Sprache erscheint.	Session	LinkedIn
twll	Dieses Cookie wird gesetzt, wenn X auf der Seite eingebettet ist. X sammelt Daten, die hauptsächlich für Tracking und Targeting verwendet werden.	4 Jahr	X
secure_session	Dieses Cookie wird gesetzt, wenn X auf der Seite eingebettet ist. z.B. X's Like- oder Sharing-Funktionen.	14 Jahr	X
guest_id	Dieses Cookie wird von X gesetzt, wenn ein Besucher Inhalte der WU-Website auf X teilt.	2 Jahr	X
personalization_id	Dieses Cookie wird von X gesetzt, um die Leistung von X-Werbekampagnen in Browsern und Geräten eines Benutzers zu messen.	2 Jahr	X
remember_checked	Dieses Cookie wird gesetzt, wenn X auf der Seite eingebettet ist. X sammelt Daten, die hauptsächlich für Tracking und Targeting verwendet werden.	4 Jahr	X
remember_checked_on	Dieses Cookie wird gesetzt, wenn X auf der Seite eingebettet ist. z.B. X's Like- oder Sharing-Funktionen.	4 Jahr	X
mbox	Dieses Cookie dient der Identifizierung von X-Benutzer*innen, der Analyse der Interaktion mit dem X-Dienst und der Werbung innerhalb des Dienstes	2 Jahre	X
guest_id_ads	Dieses Cookie wird aufgrund der X-Integration auf der Website und zum Teilen von Inhalten in sozialen Medien gesetzt	10 Monate	X
d_prefs	Dieses Cookie wird verwendet, um den LogIn Status zu überprüfen	90 Tage	X
ct0	Dieses Cookie wird aufgrund der X-Integration auf der Website und zum Teilen von Inhalten in sozialen Medien gesetzt	10 Monate	X
kdt	Dieser Cookie wird verwendet, um den Anmeldestatus des/ der Nutzer*in auf X zu überwachen	10 Monate	X
guest_id_marketing	Dieses Cookie wird für Tracking und Analyse-Zwecke gesetzt.	10 Monate	X
twid	Dieses Cookie überprüft ob Sie während einer Browser Session auf X eingelogged sind.	1 Jahr	X
auth_token	Dieses Cookie wird für die Authentifizierung benötigt und überprüft, ob der/ die Nutzer*in eingelogged ist	10 Monate	X
external_referer	Dieses Cookie sammelt Statistik-Daten, unter anderem wie oft Sie X besuchen und wie lange ein/e Nutzer*in auf X verweilt	1 Tag	X
NID	Dieses Cookie enthält eine eindeutige ID, über die nutzerspezifische Einstellungen und andere Informationen gespeichert werden, insbesondere Ihre bevorzugte Sprache, wie viele Suchergebnisse pro Seite angezeigt werden sollen und ob der Google SafeSearch-Filter aktiviert sein soll.	6 Monat	YouTube
1P_JAR	Dieser Google-Cookie wird zur Optimierung von Werbung eingesetzt, um für Nutzer relevante Anzeigen bereitzustellen, Berichte zur Kampagnenleistung zu verbessern oder um zu vermeiden, dass ein Nutzer dieselben Anzeigen mehrmals sieht.	1 Monat	YouTube
CONSENT	Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen.	20 Jahr	YouTube
OTZ	Aggregierte Analyse der Webseiten Besucher.	17 Tag	YouTube