Die Merkmalskonstruktion auch Feature Engineering genannt ist ein entscheidender
Arbeitsschritt bei der Datenaufbereitung für das maschinelle Lernen der die Leistung der
Modelle stark beeinflusst. In diesem praxisnahen Buch lernen Sie Techniken um Merkmale -
numerische Repräsentationen eines bestimmten Aspekts von Rohdaten - zu gewinnen und mit
maschinellen Lernmodellen nutzbar zu machen. Jedes Kapitel führt Sie durch eine spezifische
Aufgabe der Datenanalyse wie etwa die Darstellung von Text- oder Bilddaten. Diese Beispiele
veranschaulichen die wichtigsten Prinzipien der Merkmalskonstruktion. Statt diese Prinzipien
nur zu beschreiben legen die Autorinnen Alice Zheng und Amanda Casari im gesamten Buch den
Schwerpunkt auf die praktische Anwendung mit Übungen. Das Schlusskapitel vertieft das Gelernte
indem es verschiedene Techniken der Merkmalskonstruktion auf einen realen strukturierten
Datensatz anwendet. In den Beispielen werden Python-Pakete wie numpy Pandas scikit-learn und
Matplotlib verwendet.Aus dem Inhalt:- Merkmalskonstruktion an numerischen Daten: Filter
Klasseneinteilung Skalierung logarithmische und Potenz-Transformationen- Techniken für
natürlichen Text: Bag-of-Words-Modelle n-Gramme und Phrasenerkennung- Frequenzfilterung und
Merkmalsskalierung zum Entfernen aussageloser Merkmale- Kodierungstechniken für
Kategorievariablen darunter Merkmals-Hashing und Klassenzählung- Modellgesteuerte
Merkmalskonstruktion mit der Hauptkomponentenanalyse- Das Konzept der Modellkombination mit dem
k-Means-Algorithmus als Technik zur Merkmalserzeugung- Gewinnung von Bildmerkmalen anhand
manueller und Deep-Learning-Techniken Datenaufbereitung und Merkmalskonstruktion haben sich in
vielen Anwendungen als die wichtigsten Einflussfaktoren für die Leistungsfähigkeit der Modelle
erwiesen. Ich freue mich dass es endlich ein Buch gibt das sich nur diesem Thema widmet.
Alice und Amanda erklären sehr detailliert die Feinheiten vieler verbreiteter Techniken.-
Andreas C. MüllerDozent für Machine Learning an der Universität von Columbia und Kernentwickler
bei scikit-learn