Die Industrie, der Handel und mindestens jeder vierte menschliche Erdbewohner greift tagtäglich auf „Big Data“, also auf Massendaten zu. Sei es um sich über die Kaufgewohnheiten der Kunden, die Statistiken in der Wirtschaft oder eben ganz persönlich über die eigene Gesundheit und Fitness zu erkundigen. Die Datenmenge nimmt dabei täglich so drastisch zu, dass es immer schwieriger wird, diese Daten effektiv und sinnvoll zu nutzen. In allen Bereichen wird aber fleißig weiter gesammelt. Wir nutzen Fitnessarmbänder, Software für Ernährungsberatung, Messgeräte für den Blutzucker oder den Blutdruck, Smartphones im Allgemeinen, Überwachungskameras und „googeln“ jeden Tag nach Informationen.
Für die Analyse dieser Datenmengen gibt es verschiedene Methoden. Darunter fallen z. B. „Neuronale Netze“ und statistische Methoden wie „SIMCA“ (Soft Independent Modeling of Class Analogy) oder „PAT“ (Process Analytical Technology).
Unternehmen, die eine Webseite besitzen, kennen heute oftmals schon eine Form von “analytics”: die Datenanalyse von Google selbst – Google Analytics. Mit ihrem Algorithmus wird das Verhalten der Seiten-Besucher bereits ziemlich komplex auswertet und sogar mit bekannten Daten verglichen.
Big Data für die Gesundheit
Mittlerweile liegen die sogenannten Fitnessarmbänder sehr im Trend und sollen den Nutzern dabei helfen besser auf ihre Gesundheit zu achten, kleinere gesundheitliche Probleme wie z B. erhöhter Blutdruck zu beobachten und die sportlichen Aktivitäten anhand von Kalorien- und Schrittzählern oder Ähnliches effektiver zu gestalten. Messgeräte für verschiedenste Blutwerte, insbesondere für den Blutzucker, können regelmäßig Daten sammeln und dem Nutzer zur Verfügung stellen.
Allerdings erhält der Nutzer eine regelrechte Flut von Daten, welche er dann zu allem Überfluss auch noch selbst auswerten soll, um danach entsprechende Entscheidungen treffen zu können wie z. B. Die Regulierung der Insulinmenge.
Die Daten würden über ein effektives Auswertungssystem einen wesentlich höheren Wert für den Nutzer bekommen. Passiert dies nicht, bleibt ein Großteil der Daten vollkommen ungenutzt! So wird aus Big Data ganz schnell sinnloser Datenmüll. Siehe Wiki
Für die Analyse von solchen „medizinischen“ Daten kann man 2 wichtige Verfahren anwenden: die neuronalen Netze oder verschiedene statistische Methoden.
Für diese Verfahren gibt es schon Softwarelösungen, welche eine große Hilfe bei der Datenauswertung sein können.
Im Folgenden sollen die beiden Verfahren vorgestellt werden.
Neuronale Netze – das künstliche Gehirn
Unser Gehirn ist der das komplexeste und komplizierteste Netzwerk auf diesem Planeten überhaupt. So liegt es nahe, dass man sich auch in der technischen Welt dieser Methodik bedienen möchte, um komplexe Daten effektiver auswerten zu können. Unter Zuhilfenahme der neuronalen Netze kann in den Daten nach speziellen Attributen und Zuständen gesucht werden, welche daraufhin verglichen werden, um ein bestimmtes Muster zu erkennen. Das neuronale Netz lernt verknüpft mit einer künstlichen Intelligenz mit fortschreitender Anwendung dazu und erkennt immer mehr Muster. Grundsätzlich aber muss es zu Beginn immer wissen, nach welchem Muster es suchen soll. Es wird dann auf die erforderlichen Muster trainiert.
Was hinter Big Data steckt
Beispielsweise kann ein neuronales Netz mit der chemischen Zusammensetzung verschiedener Lebensmittel gespeist werden.
Die Daten werden zunächst von Gourmets oder Lebensmittelexperten für geschmacklich und gegebenenfalls auch gesundheitlich gut oder schlecht bewertet. Nun muss das System nach Mustern in den erfassten Daten suchen, welche mit den vorherigen Bewertungen übereinstimmen.
Daraufhin kann der Algorithmus diese Muster immer wieder erkennen und ein Lebensmittel automatisch für geschmacklich und gesundheitlich gut oder schlecht befinden.
Wenn also Sensoren, welche die chemischen Bestandteile eines neuen Lebensmittels erfassen können, die Daten nun an das neuronale Netz senden, dann kann es anhand der bereits gelernten Daten erkennen, ob das neue Lebensmittel gut schmeckt oder nicht! Die Industrie nutzt solche Systeme bereits heute, um die Lebensmittelexperten, Gourmets, Vorkoster usw. zu entlasten. Eine Maschine kann bei solchen Anforderungen eben wesentlich mehr und wesentlich schneller arbeiten.
Interessant ist die Möglichkeit der neuronalen Netze auch bei Analyse von Kundendaten. Welche Produkte, welcher Kunde wann und wo braucht, um diesen genau dann und dort bedienen zu können, ist eine Frage mit der sich jede Vertriebsfirma auseinandersetzt. Hier wäre Big Data die erfassten Nachfragedaten des eigenen und auch konkurrierenden Unternehmens. Mit einem klugen Auswertungssystem kann das Verhalten und Verlangen des bestehenden und potenziellen Kunden vorhergesagt werden. Produktion, Marketing und Werbung können daraufhin sinnvoll und frühzeitig angepasst werden. Trends können vorhergesagt werden und der eigene wirtschaftliche Wachstum wird besser eingeschätzt.
Statistische Methoden wie SIMCA
Die SIMCA-Modellierung ist eine statistische Methode von vielen data Technologien, die ebenfalls durch überwachtes Lernen Daten klassifiziert. Es werden zuerst die Hauptkomponenten der Daten ermittelt, welche im Prinzip die Hauptunterschiede der erfassten Daten darstellen. Im nächsten Schritt kann schnell erkannt werden, welche der Datenkomponenten sinnvoll für das gewollte Ergebnis sind und welche nicht. So kann potenzieller Datenmüll von Beginn an herausgefiltert werden!
Ist dies geschafft, müssen nun die wichtigen Daten Sinn gebend für das Ergebnis modelliert werden. Möchte man z. B. das Kaufverhalten der Kunden eines Kaufhauses auswerten, so wären diese Daten von jedem Kunden unterschiedlich, lediglich die Hauptkomponente wurde schon festgelegt und ist bei allen gleich. Deshalb wird nun anhand vorgegebener Parameter, die für das gewollte Ergebnis unabdingbar sind, ein Modell für den sinnvollen Vergleich der Daten erstellt. Mit so einem Modell kann man dann beispielsweise für den Parameter „Kaufmenge“ klare Strukturen einzelner Kunden erkennen. Wird ein bestimmtes Produkt oft gekauft, lassen sich daraus also verschiedene Dinge über den Kunden annehmen.
In industriellen- und Forschungsbetrieben wird SIMCA bei Datenanalyse (data analytics) von Datenwissenschaftlern (data scientist) für die Optimierung von Geschäftsprozessen und wissenschaftliche Studien genutzt. Dies wachsende „business intelligence“ verbessert so die Reaktionsfähigkeit eines Unternehmens. Entscheidungen können anhand gut ausgewerteter Daten schneller getroffen werden. Studienergebnisse sind wesentlich genauer, verlässlicher und können vor allem viel schneller erfasst werden.
In der Forschung wäre hier der Bereich der Pollen-Analyse erwähnenswert. Im Frühjahr beginnt für viele Menschen die Qual mit den Pollen. Meistens kann man nur vermuten, welche Pflanze denn nun wieder Schuld an der morgendlichen Niesattacke schuld sein könnte. Wissenschaftler arbeiten daher jährlich daran den Pollenflug zu analysieren, um auf die problematischen Pollen reagieren zu können. Dabei werden oft Hochleistungsmikroskope eingesetzt. So ein „Mias“ (Microscope Image Analysis System) verarbeitet Millionen von Pollen einer Probe innerhalb weniger Sekunden. Die Datenwissenschaft (data science) hilft hier enorm bei der Erkennung maßgebenden Strukturen. So können wichtige Erkenntnisse z. B. für das Gesundheitswesen, der Archäologie, Klimaforschung und sogar für die Kriminalistik gewonnen werden.
Fazit – Big Data wird zu smart Data
Eines ist klar: Die Datenflut wird nicht weniger! Immer mehr technische Geräte sammeln Unmengen an Daten, welche auf bestimmte Art und Weise ausgewertet werden müssen, damit diese Datensammlung nicht ihren Sinn verliert. Es entwickelt sich weltweit eine Datenwirtschaft, in der es darum geht, die besten Wege zur Nutzung der Daten zu finden. Achtet ein Unternehmen gar nicht oder zu wenig auf diese Dinge, so wird es zwangsläufig nicht konkurrenzfähig bleiben. Denn andere Firmen werden unter Beachtung der data analytics auf ihre Kunden „besser“ reagieren!
Regelmäßig treffen sich heute Datenwissenschaftler zur sogenannten data summit , eine Art Gipfeltreffen für diese Branche, um neuste data Lösungen vorzustellen und kennenzulernen. Führt man ein Unternehmen mit Big Data, so lohnt sich ab und zu ein Blick auf solch ein summit.
Die Techniken der Analyse werden immer komplexer und intelligenter. Es macht damit endlich Sinn, verschiedene Daten zu sammeln. Arbeitsprozesse, Gesundheitswesen, Produktentwicklung und Vieles mehr können drastisch verbessert werden. Big Data kann also mit dem richtigen Umgang eine ganze Menge und ist keineswegs eine Verschwendung von Speicherkapazität.