Für unsere Väter

Data Science für Unternehmen

Data Mining und datenanalytisches Denken praktisch anwenden

Foster Provost, Tom Fawcett

Übersetzung aus dem Amerikanischen von Knut Lorenzen

Quellenverzeichnis

Aamodt, A. und Plaza, E. (1994). Case-based reasoning: Foundational issues, methodological variations, and system approaches. Artificial Intelligence Communications, 7(1), Seiten 39-59. Verfügbar unter: http://www.iiia.csic.es/People/enric/AICom.html.

Adams, N. M. und Hand, D. J. (1999). Comparing classifiers when the misallocations costs are uncertain. Pattern Recognition, 32, Seiten 1139-1147.

Aha, D. W. (Herausgeber). (1997). Lazy learning. Kluwer Academic Publishers, Norwell, MA, USA.

Aha, D. W., Kibler, D. und Albert, M. K. (1991). Instance-based learning algorithms. Machine Learning, 6, Seiten 37-66.

Aggarwal, C. und Yu, P. (2008). Privacy-preserving Data Mining: Models and Algorithms. Springer, USA.

Aral, S., Muchnik, L. und Sundararajan, A. (2009). Distinguishing influence-based contagion from homophily-driven diffusion in dynamic networks. Proceedings of the National Academy of Sciences, 106(51), Seiten 21544-21549.

Arthur, D. und Vassilvitskii, S. (2007). K-means++: the advantages of careful seeding. In Proceedings of the Eighteenth Annual ACM-SIAM Symposium on Discrete Algorithms, Seiten 1027-1035.

Attenberg, J., Ipeirotis, P. und Provost, F. (2011). Beat the machine: Challenging workers to find the unknown unknowns. In Workshops at the Twenty-Fifth AAAI Conference on Artificial Intelligence.

Attenberg, J. und Provost, F. (2010). Why label when you can search?: Alternatives to active learning for applying human resources to build classification models under extreme class imbalance. In Proceedings of the 16th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seiten 423-432. ACM.

Bache, K. und Lichman, M. (2013). UCI Machine Learning Repository. http://archive.ics.uci.edu/ml. Irvine, CA: University of California, School of Information and Computer Science.

Bolton, R. und Hand, D. (2002). Statistical Fraud Detection: A Review. Statistical Science, 17(3), Seiten 235-255.

Breiman, L., Friedman, J., Olshen, R. und Stone, C. (1984). Classification and regression trees. Wadsworth International Group, Belmont, CA.

Brooks, D. (2013). What Data Can’t Do. New York Times, 18. Februar 2013.

Brown, L., Gans, N., Mandelbaum, A., Sakov, A., Shen, H., Zeltyn, S. und Zhao, L. (2005). Statistical analysis of a telephone call center: A queueing-science perspective. Journal of the American Statistical Association, 100(469), Seiten 36-50.

Brynjolfsson, E. und Smith, M. (2000). Frictionless commerce? A comparison of internet and conventional retailers. Management Science, 46, Seiten 563-585.

Brynjolfsson, E., Hitt, L. M. und Kim, H. H. (2011). Strength in numbers: How does data-driven decision making affect firm performance? Tech. rep. Verfügbar über SSRN unter: http://ssrn.com/abstract=1819486 oder http://dx.doi.org/10.2139/ssrn.1819486.

Business Insider (2012). The Digital 100: The world’s most valuable private tech companies. Verfügbar unter: http://www.businessinsider.com/2012-digital-100.

Ciccarelli, F. D., Doerks, T., Von Mering, C., Creevey, C. J., Snel, B. und Bork, P. (2006). Toward automatic reconstruction of a highly resolved tree of life. Science, 311 (5765), Seiten 1283-1287.

Clearwater, S. und Stern, E. (1991). A rule-learning program in high energy physics event classification. Comp Physics Comm, 67, Seiten 159-182.

Clemons, E. und Thatcher, M. (1998). Capital One: Exploiting and Information-based Strategy. In Proceedings of the 31st Hawaii International Conference on System Sciences.

Cohen, L., Diether, K. und Malloy, C. (2012). Legislating Stock Prices. Harvard Business School Working Paper, No. 13–010.

Cover, T. und Hart, P. (1967). Nearest neighbor pattern classification. Information Theory, IEEE Transactions on, 13(1), Seiten 21-27.

Crandall, D., Backstrom, L., Cosley, D., Suri, S., Huttenlocher, D. und Kleinberg, J. (2010). Inferring social ties from geographic coincidences. Proceedings of the National Academy of Sciences, 107(52), Seiten 22436-22441.

Deza, E. und Deza, M. (2006). Dictionary of distances. Elsevier Science.

Dietterich, T. G. (1998). Approximate statistical tests for comparing supervised classification learning algorithms. Neural Computation, 10, Seiten 1895-1923.

Dietterich, T. G. (2000). Ensemble methods in machine learning. Multiple Classifier Systems, Seiten 1-15.

Duhigg, C. (2012). How Companies Learn Your Secrets. New York Times, 19. Februar 2012.

Elmagarmid, A., Ipeirotis, P. und Verykios, V. (2007). Duplicate record detection: A survey. Knowledge and Data Engineering, IEEE Transactions on, 19(1), Seiten 1-16.

Evans, R. und Fisher, D. (2002). Using decision tree induction to minimize process delays in the printing industry. In Klosgen, W. und Zytkow, J. (Herausgeber), Handbook of Data Mining and Knowledge Discovery, Seiten 874-881. Oxford University Press.

Ezawa, K., Singh, M. und Norton, S. (1996). Learning goal oriented Bayesian networks for telecommunications risk management. In Saitta, L. (Herausgeber), Proceedings of the Thirteenth International Conference on Machine Learning, Seiten 139-147. San Francisco, CA. Morgan Kaufmann.

Fawcett, T. (2006). An introduction to ROC analysis. Pattern Recognition Letters, 27(8), Seiten 861-874.

Fawcett, T. und Provost, F. (1996). Combining data mining and machine learning for effective user profiling. In Simoudis, Han und Fayyad (Herausgeber), Proceedings of the Second International Conference on Knowledge Discovery and Data Mining, Seiten 8-13. Menlo Park, CA. AAAI Press.

Fawcett, T. und Provost, F. (1997). Adaptive fraud detection. Data Mining and Knowledge Discovery, 1 (3), Seiten 291-316.

Fayyad, U., Piatetsky-Shapiro, G. und Smyth, P. (1996). From data mining to knowledge discovery in databases. AI Magazine, 17, Seiten 37-54.

Frank, A. und Asuncion, A. (2010). UCI machine learning repository.

Friedman, J. (1997). On bias, variance, 0/1-loss, and the curse-of-dimensionality. Data Mining and Knowledge Discovery, 1(1), Seiten 55-77.

Gandy, O. H. (2009). Coming to Terms with Chance: Engaging Rational Discrimination and Cumulative Disadvantage. Ashgate Publishing Company.

Goldfarb, A. und Tucker, C. (2011). Online advertising, behavioral targeting, and privacy. Communications of the ACM 54(5), Seiten 25-27.

Haimowitz, I. und Schwartz, H. (1997). Clustering and prediction for credit line optimization. In Fawcett, Haimowitz, Provost und Stolfo (Herausgeber), AI Approaches to Fraud Detection and Risk Management, Seiten 29-33. AAAI Press. Verfügbar als Technical Report WS-97-07.

Hall, M., Frank, E., Holmes, G., Pfahringer, B., Reutemann, P. und Witten, I. (2009). The WEKA data mining software: An update. SIGKDD Explorations, 11 (1).

Hand, D. J. (2008). Statistics: A Very Short Introduction. Oxford University Press.

Hastie, T., Tibshirani, R. und Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction (2. Auflage). Springer.

Hays, C. L. (2004). What they know about you. The New York Times.

Hernández, M. A. und Stolfo, S. J. (1995). The merge/purge problem for large databases. SIGMOD Rec., 24, Seiten 127-138.

Hill, S., Provost, F. und Volinsky, C. (2006). Network-based marketing: Identifying likely adopters via consumer networks. Statistical Science, 21 (2), Seiten 256-276.

Holte, R. C. (1993). Very simple classification rules perform well on most commonly used datasets. Machine Learning, 11, Seiten 63-91.

Ipeirotis, P., Provost, F. und Wang, J. (2010). Quality management on Amazon Mechanical Turk. In Proceedings of the 2010 ACM SIGKDD Workshop on Human Computation, Seiten 64-67. ACM.

Jackson, M. (1989). Michael Jackson’s Malt Whisky Companion: a Connoisseur’s Guide to the Malt Whiskies of Scotland. Dorling Kindersley, London.

Japkowicz, N. und Stephen, S. (2002). The class imbalance problem: A systematic study. Intelligent Data Analysis, 6 (5), Seiten 429–450.

Japkowicz, N. und Shah, M. (2011). Evaluating Learning Algorithms: A Classification Perspective. Cambridge University Press.

Jensen, D. D. und Cohen, P. R. (2000). Multiple comparisons in induction algorithms. Machine Learning, 38(3), Seiten 309-338.

Junqué de Fortuny, E., Martens, D. und Provost, F. (2013). Predictive Modeling with Big Data: Is Bigger Really Better? Big Data, online veröffentlicht im Oktober 2013: http://online.liebertpub.com/doi/abs/10.1089/big.2013.0037

Kass, G. V. (1980). An exploratory technique for investigating large quantities of categorical data. Applied Statistics, 29(2), Seiten 119-127.

Kaufman, S., Rosset, S., Perlich, C. und Stitelman, O. (2012). Leakage in data mining: Formulation, detection, and avoidance. ACM Transactions on Knowledge Discovery from Data (TKDD), 6(4), 15.

Kohavi, R., Brodley, C., Frasca, B., Mason, L. und Zheng, Z. (2000). KDD-cup 2000 organizers’ report: Peeling the onion. ACM SIGKDD Explorations. 2(2).

Kohavi, R., Deng, A., Frasca, B., Longbotham, R., Walker, T. und Xu, Y. (2012). Trustworthy online controlled experiments: Five puzzling outcomes explained. In Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seiten 786-794. ACM.

Kohavi, R. und Longbotham, R. (2007). Online experiments: Lessons learned. Computer, 40 (9), Seiten 103-105.

Kohavi, R., Longbotham, R., Sommerfield, D. und Henne, R. (2009). Controlled experiments on the web: Survey and practical guide. Data Mining and Knowledge Discovery, 18(1), Seiten 140-181.

Kohavi, R. und Parekh, R. (2003). Ten supplementary analyses to improve e-commerce web sites. In Proceedings of the Fifth WEBKDD workshop.

Kohavi, R. und Provost, F. (1998). Glossary of terms. Machine Learning, 30(2-3), Seiten 271-274.

Kolodner, J. (1993). Case-Based Reasoning. Morgan Kaufmann, San Mateo.

Koren, Y., Bell, R. und Volinsky, C. (2009). Matrix factorization techniques for recommender systems. Computer, 42 (8), Seiten 30-37.

Kosinski, M., Stillwell, D. und Graepel, T. (2013). Private traits and attributes are predictable from digital records of human behavior. Proceedings of the National Academy of Sciences, doi: 10.1073/pnas.1218772110.

Lapointe, F.-J. und Legendre, P. (1994). A classification of pure malt Scotch whiskies. Applied Statistics, 43 (1), Seiten 237-257.

Leigh, D. (1995). Neural networks for credit scoring. In Goonatilake, S. und Treleaven, P. (Herausgeber), Intelligent Systems for Finance and Business, Seiten 61-69. John Wiley and Sons Ltd., West Sussex, England.

Letunic und Bork (2006). Interactive tree of life (iTOL): an online tool for phylogenetic tree display and annotation. Bioinformatics, 23 (1).

Lin, J.-H. und Vitter, J. S. (1994). A theory for memory-based learning. Machine Learning, 17, Seiten 143-167.

Lloyd, S. P. (1982). Least square quantization in PCM. IEEE Transactions on Information Theory, 28 (2), Seiten 129-137.

MacKay, D. (2003). Information Theory, Inference and Learning Algorithms, Kapitel 20. An Example Inference Task: Clustering. Cambridge University Press.

MacQueen, J. B. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability, Seiten 281-297. University of California Press.

Malin, B. und Sweeney, L. (2004). How (not) to protect genomic data privacy in a distributed network: Using trail re-identification to evaluate and design anonymity protection systems. Journal of Biomedical Informatics, 37(3), Seiten 179-192.

Martens, D. und Provost, F. (2011). Pseudo-social network targeting from consumer transaction data. Working paper CeDER-11-05, New York University – Stern School of Business.

McCallum, A. und Nigam, K. (1988). A comparison of event models for naive Bayes text classification. In AAAI Workshop on Learning for Text Categorization.

McDowell, G. (2008). Cracking the Coding Interview: 150 Programming Questions and Solutions. CareerCup LLC.

McNamee, M. (2001). Credit Card Revolutionary. Stanford Business 69 (3).

McPherson, M., Smith-Lovin, L. und Cook, J. M. (2001). Birds of a feather: Homophily in social networks. Annual Review of Sociology, 27. Seiten 415-444.

Mittermayer, M. und Knolmayer, G. (2006). Text mining systems for market response to news: A survey. Working Paper No.184, Institute of Information Systems, Universität Bern.

Muoio, A. (1997). They have a better idea ... do you? Fast Company, 10.

Nissenbaum, H. (2010). Privacy in context. Stanford University Press.

Papadopoulos, A. N. und Manolopoulos, Y. (2005). Nearest Neighbor Search: A Database Perspective. Springer.

Pennisi, E. (2003). A tree of life. Nur online verfügbar: http://www.sciencemag.org/site/feature/data/tol/.

Perlich, C., Provost, F. und Simonoff, J. (2003). Tree Induction vs. Logistic Regression: A Learning-Curve Analysis. Journal of Machine Learning Research, 4, Seiten 211-255.

Perlich, C., Dalessandro, B., Stitelman, O., Raeder, T. und Provost, F. (2013). Machine learning for targeted display advertising: Transfer learning in action. Machine Learning (im Druck; online veröffentlicht am 30. Mai 2013. DOI 10.1007/s10994-013-5375-2).

Poundstone, W. (2012). Are You Smart Enough to Work at Google?: Trick Questions, Zen-like Riddles, Insanely Difficult Puzzles, and Other Devious Interviewing Techniques You Need to Know to Get a Job Anywhere in the New Economy. Little, Brown and Company.

Provost, F. und Fawcett, T. (1997). Analysis and visualization of classifier performance: Comparison under imprecise class and cost distributions. In Proceedings of the Third International Conference on Knowledge Discovery and Data Mining (KDD-97), Seiten 43-48, Menlo Park, CA. AAAI Press.

Provost, F. und Fawcett, T. (2001). Robust classification for imprecise environments. Machine learning, 42(3), Seiten 203–231.

Provost, F., Fawcett, T. und Kohavi, R. (1998). The case against accuracy estimation for comparing induction algorithms. In Shavlik, J. (Herausgeber), Proceedings of ICML-98, Seiten 445-453, San Francisco, CA. Morgan Kaufmann.

Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann.

Quine, W.V.O. (1951). Two dogmas of empiricism, The Philosophical Review 60: 20-43. Neudruck 1953 in: From a Logical Point of View. Harvard University Press.

Quinlan, J. R. (1993). C4.5: Programs for machine learning. Morgan Kaufmann.

Quinlan, J. (1986). Induction of decision trees. Machine Learning, 1 (1), Seiten 81-106.

Raeder, T., Dalessandro, B., Stitelman, O., Perlich, C. und Provost, F. (2012). Design principles of massive, robust prediction systems. In Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.

Rosset, S. und Zhu, J. (2007). Piecewise linear regularized solution paths. The Annals of Statistics, 35(3), Seiten 1012-1030.

Schumaker, R. und Chen, H. (2010). A Discrete Stock Price Prediction Engine Based on Financial News Keywords. IEEE Computer, 43(1), Seiten 51-56.

Sengupta, S. (2012). Facebook’s prospects may rest on trove of data.

Shakhnarovich, G., Darrell, T. und Indyk, P.(Herausgeber, 2005). Nearest-Neighbor Methods in Learning and Vision. Neural Information Processing Series. The MIT Press, Cambridge, Massachusetts, USA.

Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27, Seiten 379-423.

Shearer, C. (2000). The CRISP-DM model: The new blueprint for data mining. Journal of Data Warehousing, 5(4), Seiten 13-22.

Shmueli, G. (2010). To explain or to predict?. Statistical Science, 25(3), Seiten 289-310.

Silver, N. (2012). The Signal and the Noise. The Penguin Press HC., auf Deutsch erschienen unter dem Titel Die Berechnung der Zukunft

Solove, D. (2006). A taxonomy of privacy. University of Pennsylvania Law Review, 154(3), Seiten 477-564.

Stein, R. M. (2005). The relationship between default prediction and lending profits: Integrating ROC analysis and loan pricing. Journal of Banking and Finance, 29, Seiten 1213-1236.

Sugden, A. M., Jasny, B. R., Culotta, E. und Pennisi, E. (2003). Charting the evolutionary history of life. Science, 300(5626).

Swets, J. (1988). Measuring the accuracy of diagnostic systems. Science, 240, Seiten 1285-1293.

Swets, J. A. (1996). Signal Detection Theory and ROC Analysis in Psychology and Diagnostics: Collected Papers. Lawrence Erlbaum Associates, Mahwah, NJ.

Swets, J. A., Dawes, R. M. und Monahan, J. (2000). Better decisions through science. Scientific American, 283, Seiten 82-87.

Tambe, P. (2013). Big Data Investment, Skills, and Firm Value. Working Paper, NYU Stern. Verfügbar unter: http://papers.ssrn.com/sol3/papers.cfm?abstract_id=2294077.

WEKA (2001). Weka machine learning software. Verfügbar unter: http://www.cs.waikato.ac.nz/~ml/index.html.

Wikipedia (2012). Determining the number of clusters in a data set. Verfügbar unter: http://en.wikipedia.org/wiki/Determining_the_number_of_clusters_in_a_data_set (Abgerufen am 14. Februar 2013).

Wilcoxon, F. (1945). Individual comparisons by ranking methods. Biometrics Bulletin, 1(6), Seiten 80-83. Verfügbar unter: http://sci2s.ugr.es/keel/pdf/algorithm/articulo/wilcoxon1945.pdf.

Winterberry Group (2010). Beyond the grey areas: Transparency, brand safety and the future of online advertising. White Paper, Winterberry Group LLC. Verfügbar unter: http://www.winterberrygroup.com/ourinsights/wp

Wishart, D. (2006). Whisky Classified: Choosing Single Malts by Flavour. Pavilion.

Witten, I. und Frank, E. (2000). Data mining: Practical machine learning tools and techniques with Java implementations. Morgan Kaufmann, San Francisco. Software verfügbar über http://www.cs.waikato.ac.nz/~ml/weka/.

Zadrozny, B. (2004). Learning and evaluating classifiers under sample selection bias. In Proceedings of the Twenty-first International Conference on Machine Learning, Seiten 903-910.

Zadrozny, B. und Elkan, C. (2001). Learning and making decisions when costs and probabilities are both unknown. In Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, Seiten 204-213. ACM.

Impressum

Bibliografische Information der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.d-nb.de> abrufbar.

ISBN 978-3-95845-548-1

1. Auflage 2017

www.mitp.de

E-Mail: mitp-verlag@sigloch.de

Telefon: +49 7953 / 7189 - 079

Telefax: +49 7953 / 7189 - 082

© 2017 mitp Verlags GmbH & Co. KG

Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften.

Authorized German translation of the English edition of Data Science for Business
ISBN 9781449361327 © 2015 Foster Provost and Tom Fawcett
This translation is published and sold by permission of O’Reilly Media, Inc., which owns or controls all rights to publish and sell the same.

Lektorat: Sabine Schulz

Sprachkorrektorat: Simone Fischer

Coverbild: © sdecoret / fotolia.com

electronic publication: III-satz, Husby, www.drei-satz.de

Dieses Ebook verwendet das ePub-Format und ist optimiert für die Nutzung mit dem iBooks-reader auf dem iPad von Apple. Bei der Verwendung anderer Reader kann es zu Darstellungsproblemen kommen.

Der Verlag räumt Ihnen mit dem Kauf des ebooks das Recht ein, die Inhalte im Rahmen des geltenden Urheberrechts zu nutzen. Dieses Werk, einschließlich aller seiner Teile, ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheherrechtsgesetzes ist ohne Zustimmung des Verlages unzulässig und strafbar. Dies gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und Einspeicherung und Verarbeitung in elektronischen Systemen.

Der Verlag schützt seine ebooks vor Missbrauch des Urheberrechts durch ein digitales Rechtemanagement. Bei Kauf im Webshop des Verlages werden die ebooks mit einem nicht sichtbaren digitalen Wasserzeichen individuell pro Nutzer signiert.

Bei Kauf in anderen ebook-Webshops erfolgt die Signatur durch die Shopbetreiber. Angaben zu diesem DRM finden Sie auf den Seiten der jeweiligen Anbieter.

Glossar

Hinweis: Dieses Glossar ist eine Erweiterung der von Ron Kohavi und Foster Provost (1998) zusammengestellten Version. Abdruck mit freundlicher Genehmigung von Springer Science and Business Media.

Abdeckung​ Der Anteil einer Datenmenge, für die ein Klassifizierer eine Vorhersage trifft. Wenn ein Klassifizierer nicht alle Instanzen klassifizieren kann, ist es womöglich wichtig, die Leistung zu kennen, die er bei den klassifizierten Instanzen erzielt.

A priori​ Der Begriff entstammt der Philosophie und bedeutet »vor jeder Erfahrung«. In der Data Science ist damit der Glauben an eine Tatsache gemeint, die als Hintergrundwissen eingebracht wird, im Gegensatz zu einem Wissen, das sich aus der Untersuchung der Daten ergibt. Man könnte beispielsweise sagen: »Es gibt a priori keinen Grund anzunehmen, dass diese Beziehung linear ist.« Nach der Untersuchung der Daten könnten Sie dann feststellen, dass eine lineare Beziehung zwischen zwei Variablen besteht (und eine lineare Regression ziemlich gut funktionieren würde), es gab jedoch keinen Grund, von vornherein anzunehmen, dass dieser Zusammenhang vorhanden ist. Das Gegenteil von a priori ist a posteriori.

Assoziationsmining​ Verfahren zum Auffinden von Regeln, die einen Zusammenhang der Form »X und Y A und B« (Assoziationen) herstellen und bestimmte Kriterien erfüllen.

Attribut​ Siehe Merkmal (Attribut, Datenfeld, Variable)

Beispiel Siehe Instanz (Beispiel, Fall, Eintrag)

Data Mining​ Der Begriff Data Mining besitzt mehrere Bedeutungen. Manchmal ist damit der gesamte Data-Mining-Prozess gemeint, manchmal aber auch nur die Anwendung bestimmter Verfahren auf die Daten, um Modelle zu erstellen oder Muster bzw. Gesetzmäßigkeiten zu finden.

Datenbereinigung​ Die Verbesserung der Datenqualität​ durch Modifizierung von Form oder Inhalt, beispielsweise durch das Entfernen oder Korrigieren fehlerhafter Daten. Für gewöhnlich findet die Datenbereinigung vor der Modellbildung statt, allerdings kann ein erster Durchlauf des Data-Mining-Prozesses Hinweise darauf geben, dass eine weitere Bereinigung der Daten erforderlich ist und mögliche Methoden zur Verbesserung der Datenqualität nahe legen.

Datenfeld​ Siehe Merkmal (Attribut, Datenfeld, Variable)

Datenmenge​ Ein Schema und eine Reihe von Instanzen, die diesem Schema entsprechen. Eine Datenmenge ist im Allgemeinen nicht geordnet. Für das Data Mining wird meistens ein einzelnes festgelegtes Tabellenformat oder eine Sammlung von Merkmalsvektoren verwendet.

Datensatz​ Siehe Merkmalsvektor (Datensatz, Tupel)

Deployment​ Die Nutzung eines trainierten Modells zur Lösung einer in der Praxis auftretenden Aufgabe. Dem Deployment wird häufig die Verwendung des Modells in der Beurteilungsphase des Data-Mining-Prozesses gegenübergestellt. In Letzterer wird das Deployment für gewöhnlich mit Daten simuliert, für die das tatsächliche Ergebnis bereits bekannt ist.

Dimension Ein Merkmal oder mehrere Merkmale zur Beschreibung einer Eigenschaft. Eine geografische Dimension könnte beispielsweise aus drei Merkmalen bestehen: Stadt, Straße und Hausnummer. Eine zeitliche Dimension könnte fünf Merkmale besitzen: Jahr, Monat, Tag, Stunde und Minute.

Eintrag​ Siehe Instanz (Beispiel, Fall, Eintrag)

Fall​ Siehe Instanz (Beispiel, Fall, Eintrag)

Fehlender Wert​ Ein Wert, der unbekannt oder nicht vorhanden ist. Für fehlende Werte kommen verschiedene Gründe infrage: Es wurde versäumt, sie zu messen, es gab Fehlfunktionen der Messgeräte, Merkmale sind nicht vorhanden oder nicht messbar usw. Manche Algorithmen haben Schwierigkeiten, mit fehlenden Werten zurechtzukommen.

Fehlerquote​ Siehe Korrektklassifizierungsrate (Fehlerquote)

Induktion​ Der Vorgang, anhand einer Datenmenge ein allgemeines Modell (z.B. einen Klassifizierungsbaum oder eine Gleichung) herzuleiten. Der Induktion kann die Deduktion gegenübergestellt werden: Hier sind die Ausgangspunkte allgemeine Regeln oder allgemeine Modelle sowie verschiedenen Fakten, aus denen weitere Fakten abgeleitet werden. Bei der Induktion geht man in umgekehrter Richtung vor: Aus den Fakten werden allgemeine Regeln oder Modelle abgeleitet. In diesem Buch ist die Induktion gleichbedeutend mit dem Trainieren oder Auswerten eines Modells, und die Regeln oder Modelle sind im Allgemeinen statistischer Natur.

Instanz (Beispiel, Fall, Eintrag) Ein einzelnes Objekt, mit dem ein Modell trainiert wird oder auf das ein Modell angewendet wird. Im Allgemeinen werden Instanzen durch einen Merkmalsvektor beschrieben. Gelegentlich kommen auch komplexere Repräsentierungen zum Einsatz (die beispielsweise Beziehungen zu anderen Instanzen oder Teilen von anderen Instanzen umfassen).

KDD​ Ursprünglich die Abkürzung für Knowledge Discovery from Databases (Wissensentdeckung in Datenbanken). Inzwischen beschreibt der Begriff ganz allgemein die Wissensextraktion aus Daten und wird oft als Synonym für Data Mining gebraucht.

Klasse(Label) Eine zu einer kleinen Menge sich gegenseitig ausschließender Kennzeichnungen gehörende Bezeichnung, die als mögliche Werte für die Zielvariable einer Klassifizierungsaufgabe infrage kommen. Bei der Klassifizierung von Geldscheinen könnten beispielsweise die Klassen echt und gefälscht verwendet werden. Bei der Beurteilung von Aktien könnte man die Klassen Sprunghafter Anstieg, Stabil und Absturz verwenden.

Klassifizierer​ Die Zuordnung ungekennzeichneter Instanzen zu (diskreten) Klassen. Klassifizierer gehören zu einem bestimmten Typ (z.B. Klassifizierungsbaum) und besitzen ein Interpretationsverfahren (wie etwa unbekannte bzw. fehlende Werte behandelt werden). Die meisten Klassifizierer liefern außerdem Wahrscheinlichkeitsabschätzungen (oder ein anderes Wahrscheinlichkeitsmaß), die durch Vergleich mit Schwellenwerten eine Zuordnung zu diskreten Klassen ermöglichen und dabei eine Kosten-Nutzen-Funktion berücksichtigen.

Konfusionsmatrix​ Siehe Wahrheitsmatrix

Korrektklassifizierungsrate(Fehlerquote) Der Anteil der richtigen (falschen) Vorhersagen eines Modells bezüglich einer gegebenen Datenmenge (vgl. Abdeckung). Die Korrektklassifizierungsrate wird für gewöhnlich anhand einer unabhängigen (zurückgehaltenen) Datenmenge abgeschätzt, die für das Trainieren des Modells nicht verwendet wurde. Komplexere Verfahren zum Abschätzen der Korrektklassifizierungsrate, wie z.B. die mehrfache Kreuzvalidierung oder die Bootstrap-Kreuzvalidierung, sind ebenfalls gebräuchlich und werden insbesondere bei Datenmengen verwendet, die nur aus wenigen Instanzen bestehen.

Kosten/Nutzen/Verlust​ Ein Maß für die Kosten (oder den Nutzen bzw. den Verlust) einer Klassifizierungsaufgabe, die Vorhersage zu treffen, wenn das tatsächliche Label y ist. Die Korrektklassifizierungsrate zur Beurteilung eines Modells zu verwenden, setzt eine gleichmäßige Verteilung der Kosten bzw. des Nutzens von Fehlern und richtigen Klassifizierungen voraus.

Kreuzvalidierung​ Eine Methode zum Abschätzen der Korrektklassifizierungsrate durch Aufteilen der Datenmenge in k elementfremde Untermengen von ungefähr gleicher Größe. Der Klassifizierer wird k-mal mit der Datenmenge abzüglich einer der k Untermengen trainiert und getestet. Zum Testen dient die jeweils nicht enthaltene Untermenge. Die Abschätzung der Korrektklassifizierungsrate ergibt sich als durchschnittliche Korrektklassifizierungsrate der k Untermengen oder als Korrektklassifizierungsrate der vereinigten Testmengen.

Machine Learning​ In der Data Science ist mit Machine Learning für gewöhnlich die Anwendung von Induktionsalgorithmen auf Daten gemeint. Der Begriff wird häufig als Synonym für die Modellbildungsphase des Data-Mining-Prozesses gebraucht. Das Fachgebiet Machine Learning befasst sich mit Induktionsalgorithmen und anderen Algorithmen, bei denen man davon sprechen kann, dass sie »lernen«.

Merkmal(Attribut, Datenfeld, Variable) Ein Wert zur Beschreibung einer Instanz. Merkmale sind von einem bestimmten Typ, der festlegt, welche Werte sie annehmen können. Gebräuchlich sind:

Wir unterscheiden in diesem Buch nicht zwischen Attributen und Merkmalen, aber andere Autoren geben häufig an, dass ein Merkmal ein Attribut einer Instanz ist und dessen Wert beschreibt. »Die Farbe ist blau« ist beispielsweise ein Attribut einer Instanz. Viele Transformationen der Merkmalsmenge verändern die Attribute selbst nicht (z.B. eine Umgruppierung der Attributwerte oder die Transformation multivariater Attribute in binäre). In diesem Buch folgen wir der Konvention vieler Autoren und Praktiker und verwenden Merkmal als Synonym für Attribut.

Merkmalsvektor(Datensatz, Tupel) Eine Liste der Merkmale zur Beschreibung einer Instanz.

Modell Eine Struktur und ein dazugehöriges Interpretationsverfahren, die eine Datenmenge zwecks Beschreibung oder Vorhersage ganz oder teilweise zusammenfassen. Die meisten induktiven Algorithmen erzeugen Modelle, die als Klassifizierer, für Regressionen, als Muster für menschliches Verhalten und/oder als Eingabe für nachfolgende Phasen des Data-Mining-Prozesses einsetzbar sind.

Nutzen Siehe Kosten/Nutzen/Verlust

OLAP​ Abkürzung für Online Analytical Processing (Analytische Onlineverarbeitung). Für gewöhnlich synonym mit MOLAP (Mehrdimensionales OLAP). OLAP-Engines erleichtern das Erkunden von Daten bezüglich verschiedener (vorher festgelegter) Dimensionen. Üblicherweise werden dabei zum Speichern vorab berechneter Ergebnisse mehrdimensionaler Daten zwischengeschaltete Datenstrukturen eingesetzt, die schnellere Berechnungen ermöglichen. ROLAP (Relationales OLAP) bezieht sich auf mithilfe relationaler Datenbanken durchgeführtes OLAP.

Schema​ Die Beschreibung der Merkmale und Eigenschaften einer Datenmenge.

Sensitivität​ Die Rate richtig Positiver. Siehe Wahrheitsmatrix

Spezifität​ Die Rate richtig Negativer. Siehe Wahrheitsmatrix

Tupel​ Siehe Merkmalsvektor (Datensatz, Tupel)

Überwachtes Lernen​ Das zum Erlernen des Zusammenhangs zwischen unabhängigen Merkmalen und einem abhängigen Merkmal (dem Label) eingesetzte Verfahren. Die meisten Induktionsalgorithmen gehören zu dieser Kategorie.

Unüberwachtes Lernen​ Lernverfahren, die Instanzen ohne vorgegebene Zielvariablen gruppieren. Clustering-Algorithmen gehören zu dieser Kategorie.

Variable​ Siehe Merkmal (Attribut, Datenfeld, Variable)

Verlust​ Siehe Kosten/Nutzen/Verlust

Wahrheitsmatrix​ Eine Matrix, deren Werte die vorhergesagten und die tatsächlichen Klassifizierungen sind. Bei einer l×l-Wahrheitsmatrix gibt l die Anzahl der möglichen Werte des Labels an. Die Beurteilungskriterien einer Reihe von Klassifizierern beruhen auf der Wahrheitsmatrix, unter anderem die Korrektklassifizierungsrate, die Rate richtig Positiver, die Rate falsch Positiver, die Rate richtig Negativer, die Rate falsch Negativer, die Sensitivität, die Spezifität, der positive Vorhersagewert und der negative Vorhersagewert.

Wissensentdeckung​ Der nichttriviale Vorgang, aussagekräftige, neuartige, potenziell nützliche und letztlich verständliche Muster in den Daten​ aufzuspüren. (Diese Definition entstammt dem Artikel »Advance in Knowledge Discovery and Data Mining« von Fayyad, Piatetsky-Shapiro und Smyth (1996).

Anhang B: Ein weiteres Beispiel für einen Projektvorschlag

In Anhang A wurden Leitfäden und Fragen für die Beurteilung von Data-Science-Projektvorschlägen vorgestellt. Kapitel 13 enthält ein Beispiel für einen Projektvorschlag​ (Abschnitt 13.7.1, Beispiel für einen Data-Mining-Projektvorschlag), nämlich eine Kundenmigrationskampagne, und zeigt ihre Schwachstellen auf (Abschnitt 13.7.2, Mängel des Projektvorschlags von Big Red).

Wir haben im gesamten Buch wiederholt die Kundenabwanderung als Beispiel verwendet. Hier stellen wir einen weiteren Projektvorschlag nebst Kritik vor, der auf der Aufgabe beruht, die Kundenabwanderung vorherzusagen.

B.1  Szenario und Projektvorschlag

Sie haben bei Green Giant Consulting (GGC) ihren Traumjob gefunden und managen ein Team von Analysten, das gerade dabei ist, seine Data-Science-Fähigkeiten aufzubauen. GGC schlägt TelCo, dem zweitgrößten Anbieter von Mobilfunkdiensten des Landes, ein Data-Science-Projekt vor, um deren Problem der Kundenabwanderung anzugehen. Ihr Analystenteam hat den nachstehen Vorschlag ausgearbeitet, den Sie beurteilen, bevor er TelCo vorgelegt wird. Können Sie irgendwelche Mängel entdecken? Oder haben Sie Verbesserungsvorschläge?

Verringerung der Kundenabwanderung durch gezielte Anreize – ein Projektvorschlag von GGC

Wir schlagen vor, dass TelCo anhand einer Vorhersage von Abwanderungen testet, ob es möglich ist, die Kundenabwanderung in den Griff zu bekommen. Die entscheidende Idee besteht darin, dass TelCo die Daten über das Kundenverhalten nutzen kann, um vorherzusagen, wann Kunden abwandern und diesen Kunden dann gezielt Anreize bietet, um bei TelCo zu verbleiben. Wir schlagen das folgende Projekt vor, das mit den schon im Besitz von TelCo befindlichen Daten ausgeführt werden kann.

Wir werden ein Modell zur Vorhersage der Wahrscheinlichkeit entwickeln, dass ein Kunde innerhalb von 90 Tagen nach Vertragsablauf abwandert oder nicht abwandert. Dabei sind wir uns bewusst, dass es ein eigenständiges Problem darstellt, Kunden zum Verbleiben zu bewegen, die auch lange nach Vertragsablauf die Dienste auf monatlicher Basis weiternutzen. Wir sind der Ansicht, dass die Vorhersage für das Zeitfenster von 90 Tagen ein geeigneter Ausgangspunkt ist, und die gewonnenen Erkenntnisse sich möglicherweise auch auf andere Vorhersagen von Abwanderungen übertragen lassen. Das Modell verwendet eine Datenbank mit vorhandenen Daten von Kunden, die abgewandert sind. Die Vorhersage beruht auf den Daten 45 Tage vor Vertragsablauf, damit TelCo genügend Zeit verbleibt, das Kundenverhalten durch gezielte Anreize zu beeinflussen. Wir sagen die Abwanderung anhand eines Ensembles von Entscheidungsbäumen vorher (Random Forest), das bekanntermaßen bei einem breiten Spektrum von Abschätzungsaufgaben eine hohe Korrektklassifizierungsrate erzielt.

Wir schätzen, dass wir 70% der Kunden, die innerhalb des Zeitfensters von 90 Tagen abwandern, richtig vorhersagen können. Wir werden das überprüfen, indem wir das Modell auf die Datenbank anwenden, um zu bestätigen, dass das Modell dieses Niveau der Genauigkeit auch tatsächlich erreicht. Durch den Austausch mit den Beteiligten bei TelCo wissen wir, dass die für die Kundenbindu​ng zuständige Abteilungsleiterin neue Kundenbindungsverfahren unbedingt genehmigen muss. Sie hat uns darauf hingewiesen, dass sie ihre Entscheidung zum einen von ihrer eigenen Beurteilung abhängig macht, ob die Verfahren für die Identifizierung abwanderungswilliger Kunden sinnvoll sind, und zum anderen von den Meinungen ausgewählter Fachexperten in der Abteilung für Kundenbindung. Daher ermöglichen wir der Abteilungsleiterin und den Fachexperten Zugang zu dem Modell, damit sie überprüfen können, dass es effektiv und korrekt funktioniert. Wir schlagen vor, das Modell wöchentlich anzuwenden, um die Abwanderungswahrscheinlichkeiten der Kunden abzuschätzen, deren Verträge in 45 Tagen (plus/minus einer Woche) ablaufen. Wir erstellen eine nach Abwanderungswahrscheinlichkeit sortierte Rangfolge der Kunden, und den in der Liste auf den obersten N Plätzen befindlichen Kunden wird der Anreiz angeboten, wobei N von den Kosten des Anreizes und dem wöchentlichen Budget für Kundenbindung abhängt.

B.2  Mängel des Projektvorschlags von GGC

Wir können unsere Kenntnis der fundamentalen Prinzipien und weiterer Konzepte der Data Science nutzen, um die Mängel in diesem Projektvorschlag ausfindig zu machen. In Anhang A finden Sie einen Leitfaden für die Beurteilung solcher Vorschläge, in der die wichtigsten Fragen aufgeführt sind, die man dabei stellen sollte. Im Grunde genommen kann dieses Buch als Ganzes als eine Anleitung zur Beurteilung​ von Projektvorschlägen betrachtet werden. Hier die schlimmsten Mängel des Projektvorschlags von Green Giant Consulting:

  1. Der Vorschlag erwähnt lediglich die Verwendung der Daten »von Kunden, die abgewandert sind«. Für das Training (und das Testen) sollten wir jedoch auch Daten von Kunden verwenden, die nicht abgewandert sind, um Informationen zu finden, die sie von abgewanderten Kunden unterscheiden. (Kapitel 2, 3, 4 und 7)

  2. Warum werden die Kunden nach ihrer Abwanderungswahrscheinlichkeit sortiert? Warum werden sie nicht nach dem zu erwartenden Verlust sortiert, die durch die Standardberechnung des Erwartungswertes ermittelt wird? (Kapitel 7 und 11)

  3. Noch besser wäre es, die Rangfolge nach der Wahrscheinlichkeit zu sortieren, dass die Kunden sich durch den Anreiz (positiv) beeinflussen lassen. (Kapitel 11 und 12)

  4. Wenn wir wie unter Punkt 3. beschrieben vorgehen, fehlen die benötigten Trainingsdaten. Wir müssten in die Beschaffung von Trainingsdaten investieren. (Kapitel 3 und 11)

Beachten Sie, dass der Projektvorschlag in seiner jetzigen Form womöglich nur ein erster Schritt in Richtung auf das geschäftliche Ziel ist, allerdings müsste das auch ausdrücklich gesagt werden: Wir müssen überprüfen, ob wir die Wahrscheinlichkeiten gut abschätzen können. Ist dem so, ist es sinnvoll, fortzufahren, anderenfalls sollten wir die Investition in dieses Projekt überdenken.

  1. Der Projektvorschlag macht keine Angaben zur Beurteilung der Verallgemeinerungsfähigkeit (also eine Beurteilung durch zurückgehaltene Daten). Es hört sich so an, als ob die Trainingsdaten zum Testen verwendet werden sollen (»...das Modell auf die Datenbank anwenden ...«). (Kapitel 5)

  2. Im Projektvorschlag sind die zu verwendenden Merkmale nicht definiert (sie werden noch nicht einmal erwähnt)! Ist das ein Versehen? Oder hat sich das Team gar keine Gedanken darüber gemacht? Was ist geplant? (Kapitel 2 und 3)

  3. Wie schätzt das Team ab, dass mit dem Modell 70% der abwanderungswilligen Kunden richtig vorhergesagt werden können? Von einer Vorstudie ist keine Rede, auch auf Stichproben beruhende Lernkurven scheinen nicht erstellt worden zu sein, und es wird auch sonst nichts erwähnt, das diese Behauptung stützt. Ist diese Abschätzung geraten? (Kapitel 2, 5 und 7)

  4. Ohne Angabe einer Fehlerquote oder der Erwähnung falsch Positiver und falsch Negativer bleibt unklar, was »70% der abwanderungswilligen Kunden richtig vorhersagen« eigentlich bedeutet. Wenn ich die Rate falsch Positiver unerwähnt lasse, kann ich 100% der abwanderungswilligen Kunden identifizieren, indem ich einfach vorhersage, dass alle Kunden abwandern. Die Rate richtig Positiver anzugeben, ergibt nur einen Sinn, wenn auch die Rate falsch Positiver genannt wird. (Kapitel 7 und 8)

  5. Warum ein bestimmtes Modell auswählen? Mit modernen Toolkits können wir problemlos verschiedene Modelle auf dieselben Daten anwenden und vergleichen. (Kapitel 4, 7 und 8)

  6. Die Leiterin der Abteilung für Kundenbindung muss neue Kundenbindungsverfahren genehmigen und hat darauf hingewiesen, dass sie überprüft, ob die Verfahren sinnvoll sind (Überprüfung durch Fachwissen). Nun sind Ensembles von Entscheidungsbäumen aber Blackbox-Modelle. Der Projektvorschlag lässt offen, wie die Abteilungsleiterin die Funktionsweise der Entscheidungsfindung des Modells verstehen kann. In Anbetracht dieses Wunsches wäre es vielleicht besser, zunächst ein verständlicheres Modell mit niedrigerer Korrektklassifizierungsrate zu entwickeln, und wenn die Abteilungsleiterin Vertrauen gefasst hat, weniger gut verständliche Verfahren einzusetzen, um höhere Korrektklassifizierungsraten zu erzielen. (Kapitel 3, 7 und 12)

Über die Autoren

Foster Provost ist Professor und Fakultätsmitglied an der New York University (NYU) Stern School of Business, an der er Business Analytics und Data Science lehrt und Vorlesungen über Betriebswirtschaftslehre hält. Seine preisgekrönten Forschungsarbeiten sind weltweit bekannt und werden häufig zitiert. Bevor er zur NYU wechselte, war er fünf Jahre lang als Data Scientist bei dem Unternehmen tätig, aus dem schließlich Verizon, der größte amerikanische Mobilfunkbetreiber, hervorging. In den letzten zehn Jahren hat Professor Provost verschiedene erfolgreiche Unternehmen mitbegründet, die schwerpunktmäßig Data Science einsetzen.

Tom Fawcett hat einen Doktortitel für Machine Learning und war mehr als zwei Jahrzehnte in verschiedenen Branchen (GTE Laboratories, NYNEX/Verizon Labs, HP Labs usw.) in der Forschung und Entwicklung tätig. Die von ihm veröffentlichten Arbeiten zur Methodologie (wie etwa die Beurteilung von Ergebnissen des Data Minings) und Anwendung von Data Science (z.B. Erkennung von Betrugsfällen und Spamfilter) sind zu Standardwerken geworden.

Anhang A: Leitfaden zur Beurteilung von Projektvorschlägen

Eine effektive datenanalytische Denkweise​ sollte es Ihnen ermöglichen, potenzielle Data-Mining-Projekte systematisch zu beurteilen. Dieses Buch soll Ihnen das erforderliche Hintergrundwissen vermitteln, um Vorschläge für Data-Mining-Projekte zu beurteilen und mögliche Mängel zu erkennen. Sie können diese Fähigkeit sowohl zur Selbstbeurteilung eigener Projektvorschläge als auch bei der Beurteilung der Vorschläge interner Data-Science-Teams oder externer Berater einsetzen.​​

Im Folgenden finden Sie eine Reihe von Fragen, die Sie bei der Beurteilung von Data-Mining-Projekten berücksichtigen sollten. Sie sind Bestandteil des in Kapitel 2 ausführlich erläuterten Data-Mining-Prozesses und dienen im gesamten Buch als konzeptioneller Handlungsrahmen. Nach der Lektüre dieses Buchs sollten Sie in der Lage sein, sie konzeptionell auf neue geschäftliche Aufgaben anzuwenden. Die folgende Liste erhebt (wie das Buch als Ganzes) keinen Anspruch auf Vollständigkeit, sie enthält jedoch eine Auswahl der wichtigsten Fragen, die man stellen sollte.

Wir haben uns im gesamten Buch auf Data-Science-Projekte konzentriert, deren Schwerpunkte auf dem Entdecken von Gesetzmäßigkeiten, Mustern oder der Modellentwicklung anhand der Daten lagen. Das spiegelt dieser Leitfaden zur Beurteilung von Projektvorschlägen wider. Bei manchen Data-Science-Projekten sind diese Ordnungsmäßigkeiten nicht so ausdrücklich definiert. So gibt es beispielsweise bei vielen Datenvisualisierungsprojekten zumindest anfänglich keine klar vorgegebenen Ziele für die Modellbildung. Dessen ungeachtet kann der Data-Mining-Prozess hilfreich sein, um das datenanalytische Denken bei solchen Projekten in die richtigen Bahnen zu lenken – sie ähneln eher dem unüberwachten Data Mining als dem überwachten.

A.1  Aufgaben- und Datenverständnis​

A.2  Datenaufbereitung​

A.3  Modellbildung​

A.4  Beurteilung​ und Deployment