Workshop tekstmining

Data scientist

Op 28 maart 2018 vindt het jaarlijkse VOGIN-IP-lezing event weer plaats met deze keer ‘Zoeken en vinden’ als centraal thema. Ik sta die dag op het programma om een workshop te verzorgen over data- en tekstmining. Heleen refereerde in haar vorige blog over e-mail-archivering er al aan dat ik aan mining een blog zou gaan wijden. Dus bij deze. Belofte maakt immers schuld … 🙂

De workshop over mining wil ik heel praktisch gaan aanpakken. Geen theoretische verhandeling of moeilijke wiskundige formules, maar daadwerkelijk zelf aan de slag met mining. Een workshop vóór en dóór informatiespecialisten. Op een conceptueel en toegepast abstractieniveau. Voor de Haagse Hogeschool ben ik bij de opleiding HBO-ICT (en specifiek voor de differentiaties IMS en IDM) betrokken als docent en onderwijsontwikkelaar voor het onderdeel ‘Mining’ binnen een onderwijsmodule over ‘Big data’. Deze module zal ik ook als uitgangspunt nemen voor de VOGIN-IP workshop. Maar hoe een lesmodule van 10 weken te vatten in een workshop van 2 uur? Dat leek mij in eerste instantie schier onmogelijk. Na wat overleg kwamen we tot de conclusie dat de enige oplossing hiervoor is om de workshop volgens het ‘flipped classroom‘ principe te gaan organiseren: van te voren krijgen de deelnemers ‘huiswerk’ en de opdracht om wat filmpjes te bekijken en software op een laptop te installeren. De voor deze opdrachten benodigde theorieoverdracht vindt dus voorafgaand aan de workshop plaats. Tijdens de workshop zelf gaan de deelnemers heel concreet zelf aan de slag met één of meerdere tekstminingopdrachten. Dus lekker activerend en constructivistisch bezig zijn met een casus en géén slaapverwekkende PowerPoint-terreur.

Data- en tekstmining is het domein van de ‘data scientist’. Tijdens het voorbereiden van deze workshop realiseer ik mij dat: a) Data scientists schapen zijn met vijf of meer poten, b) Dat ik geen ‘data scientist’ ben en dat waarschijnlijk ook niet zal worden (het slechte nieuws) en c) Dat de vaardigheden en kennis waarover de informatiespecialist van nu beschikt één van de poten van het ‘data science’ schaap kan vertegenwoordigen (het goede nieuws). En dan met name op het gebied van het minen van ongestructureerde (tekstuele) informatie. Informatiespecialisten zijn immers van oudsher bezig met het vinden, ordenen, structureren, classificeren en metadateren van (ongestructureerde) informatie. Laat dat nou ook taken zijn die bij data- en tekstmining heel belangrijk zijn.

In Europa is het EDISON Project gestart om het beroepsprofiel van de data scientist vorm te gaan geven. In dit project, een consortium van zeven organisaties, wordt gewerkt aan een framework voor de beroepstaken en competenties van de ‘data scientist’ professional. Dit framework bestaat uit 5 competentiegebieden: 1) Data Science Analytics, 2) Data Science Engineering, 3) Data Management, 4) Research Methods and Project Management en 5) Business Analytics. Met name het competentiegebied ‘Data Management’ bevat competenties en vaardigheden die de informatiespecialist bekend zullen voorkomen. Hieronder vallen bijvoorbeeld zaken als ‘Make available’, ‘Data quality’, ‘Data governance’, ‘Archive’, ‘Preserve’, ‘Ontology’ en ‘Metadata’.

Kunnen informatiespecialisten een rol gaan spelen binnen het data science vakgebied? Ik denk van wel. In ieder geval ga ik hierover graag met jullie in discussie. Reageer dus gerust op deze blog! (HB)