Was macht ein gutes Datenset aus?
Die Auswahl der richtigen Daten ist entscheidend für den Erfolg eines KI-Projekts. Für eine gute Treffergenauigkeit bzw. Erkennungsrate benötigt man genügend Daten, welche eine hohe Qualität aufweisen sollten.
Nachfolgend werden einige Prinzipien erläutert, welche den Aufbau eines erfolgreichen Datensets gewährleisten. Obwohl es hierbei primär um die KI-Klassifizierung geht, lassen sich diese Prinzipien auch auf die „Detection“ oder weitere KI-Anwendungen übertragen.
Wie ist ein KI-Datenset aufgebaut?
Ein Datenset für künstliche Intelligenz besteht im Wesentlichen aus Daten, welche mit einem Label versehen werden. In der Bild-Klassifizierung wird dies meist über verschiedenen Ordnern, in welchen Beispielbilder der jeweiligen Klasse liegen, abgebildet. Möchte man also eine KI erstellen, welche verschiedene Obstsorten klassifizieren kann, würde man einen Ordner für „Äpfel“, einen für „Bananen“ und einen für „Orangen“ erstellen und diese mit Bildmaterial füllen.
Bei den folgenden Prinzipien werde ich mich auf eine unsere künstlichen Intelligenzen beziehen, welche Fahrzeugtypen klassifiziert. Wir haben dazu folgende Typen definiert: Auto, LKW, Transporter, Wohnmobil, Bus, Motorrad und „Andere“.
Prinzip 1: Fokus
Noch bevor man beginnt geeignetes Material zu suchen, zu generieren oder aufzubereiten sollte man sich des Problems bewusst sein, welches die KI später einmal lösen soll. In unserem Fall soll die Fahrzeugtypen-Erkennung primär mit dem Bildmaterial von Überwachungskameras funktionieren.
Anschließend sollte man sich Gedanken dazu machen, wie die typische Welt des Problems später in der Realität aussieht: Welche Auflösung haben die Bilder? Sind sie farbig oder schwarz/weiß? Aus welcher Position werden die Objekte aufgenommen? Und viele weitere Fragen.
Unsere Definition des Problems sieht also ungefähr so aus:
- Bildmaterial aus Überwachungskameras
- farbig und schwarz/weiß
- geringe bis mittlere Auflösung
- Aufnahmen von vorn/oben
- wechselnde Lichtverhältnisse
Prinzip 2: Weitblick
Nachdem man das Problem so genau wie möglich eingegrenzt und definiert hat, sollte man den Blick wieder etwas lösen und den Rahmen des Problems etwas weiter stecken. Im Konkreten geht es darum, alle sinnvollen Randfälle des Problems zu definieren, damit diese in das Bildmaterial übernommen werden können.
In unserem Fall haben wir zwar primär „Aufnahmen von vorne/oben“ definiert, doch es kann durchaus auch vorkommen, dass eine Kamera Bildmaterial von hinten oder aus anderen Perspektiven aufnimmt. Diese Fälle sollte man auf jeden Fall auch in das Datenset mit aufnehmen. Genauso wie verschiedene Licht- und Sichtverhältnisse, wie z.B. Nachtbilder oder Bilder bei starkem Regen.
Prinzip 3: Balance
Die Balance des Bildmaterials zur Klassifizierung ist der schwierigste Teil bei der Erstellung eines Datensets. Hierbei muss sowohl die Balance innerhalb einer Klasse als auch die Balance der Klassen zueinander beachtet werden.
Der Schwerpunkt eines Datensets sollte auf dem Kern des Problems liegen, bedeutet in unserem Fall, dass ca. 50 % der Bilder das in Prinzip 1 definiertes Problem treffen sollten. Die weiteren 50 % sollten möglichst gleichmäßig alle Randfälle abdecken. Hat man den Schwerpunkt falsch gesetzt oder das Problem ungenau definiert kann es sein, dass Fahrzeuge von hinten perfekt klassifiziert werden, bei einem Bild von vorne aber keinerlei nutzbaren Ergebnisse entstehen.
Probleme können entstehen, wenn sich falsche Schwerpunkte im Datenset einschleichen, welche auf den ersten Blick nicht zu erkennen sind. Befinden sich z.B. in der Klasse „Auto“ sehr viele Polizeiautos, doch in den anderen Klassen keinerlei Bilder die sich im Polizei-Kontext bewegen, so kann es passieren, dass die KI später auch Polizei-Transporter als „Auto“ klassifiziert, da sie gelernt hat: „Immer wenn dieses Logo zu sehen ist, handelt es sich um ein Auto“.
Ein weiteres Beispiel: Befinden sich in der Klasse „Wohnmobil“ fast ausschließlich Bilder mit sonnigem Wetter und schönen Landschaften, könnte die KI eine Vorliebe dafür entwickeln, Bilder in diesem Stil als „Wohnmobil“ zu erkennen.
Bei der Balance eines Datensets gibt es sehr viele Fallstricke und es benötigt einiges an Erfahrung, Übung und Testen, bis man ein gutes Gespür für die richtige Balance entwickelt hat.
Prinzip 4: Abgrenzung
Zusätzlich zu der Definition der Klassen sollte man auch definieren, was man nicht in einer Klasse erkannt haben möchte. Solche Fälle sollte man dann in eine separate Klasse auslagern. Hierbei ist allerdings zu beachten, dass Klassen mit extremen Ähnlichkeiten sich gegenseitig negativ in der Erkennungsrate beeinflussen können. Deshalb sollte man den Fokus bei dem Bildmaterial der abgegrenzten Klasse auf den wesentlichen Unterschied zu den anderen Klassen legen.
Ein Beispiel aus unserem Fall: Ein Schneeräumfahrzeug hat teilweise eine große Ähnlichkeit mit einem LKW, trotzdem sollen diese nicht als LKWs erkannt werden. Dazu wird also eine eigene Klasse erstellt, welche allerdings primär die Fahrzeuge von vorn, mit der gut sichtbaren Schaufel darstellt, da das Führerhaus nahezu identisch mit einem LKW ist. Zusätzlich befinden sich in dieser Klasse logischerweise fast ausschließlich Bilder im Winter, wodurch die KI im Winter eine bessere Erkennungsrate auf „Schneeräumfahrzeuge“ hat bzw. im Umkehrschluss im Sommer LKWs nicht fälschlicherweise als Schneeräumfahrzeug erkannt werden.
Prinzip 5: Genauigkeit
Daten, welche doppelt in verschiedenen Klassen vorkommen oder sogar in der falschen Klasse liegen, sind äußerst kritisch. Sie werden die gesamte Erkennungsrate der KI senken und sollten somit unter allen Umständen vermieden werden. Bilder, welche innerhalb einer Klasse doppelt vorkommen, sind nicht so fatal, könnten allerdings den Schwerpunkt der Klasse verschieben.
Prinzip 6: Menge
Die benötigte Anzahl des Bildmaterials pro Klasse hängt von verschiedenen Faktoren ab, zu einem Großteil allerdings von der Komplexität des Problems. So lassen sich z.B. Autos und Motorräder relativ einfach voneinander unterschieden, hierbei sind nicht so viele Bilder nötig, wie bei der Unterscheidung zwischen Bus und LKW.
Die Anzahl der Bilder, die Komplexität des Problems und die Größe des Netzwerks, stehen hierbei immer in einem engen Zusammenhang und müssen aufeinander abgestimmt sein.
Durch eine gute Data Acceleration (in der Fach-Literatur häufig „Data Augmentation“ genannt) lässt sich die Anzahl des Bildmaterials durch das Hinzufügen von Informationen nahezu beliebig erweitern. Dadurch reduziert sich der Aufwand bei der Erstellung und Recherche des Bildmaterials und die Erkennungsrate der KI wird verbessert.
Woher bekommt man geeignete Daten?
In diesem Punkt ist vor allem Kreativität und Fleiß gefragt. Es gibt unterschiedliche Methoden an geeignete Daten zu kommen, unter anderem: Generierung, Recherche, vorhandene Datenquellen usw… Hierbei sollte allerdings beachtet werden, ob die Daten aus rechtlicher Sicht verwertet werden dürfen. Die konkrete Methode sollte je nach Problemfall individuell ausgewählt werden. Häufig lohnt es sich, auch verschiedene Methoden zu kombinieren, um einen besseren Durchschnitt der möglichen Fälle abzudecken.
Zusammengefasst: Darauf sollten Sie achten:
- Ist das Problem genau definiert?
- Gibt es einen sinnvollen Rahmen für das Problem?
- Ist das Bildmaterial ausgeglichen und der Schwerpunkt richtig gesetzt?
- Sind unerwünschte Fälle aus den Klassen ausgeschlossen?
- Wurden doppelte und falsche Daten beseitigt?
- Liegt ausreichend Bildmaterial für die Komplexität des Problems vor?
Wie schon zu Beginn geschrieben ist die Auswahl des richtigen Materials eines Datensets ein elementarer Bestandteil für eine zuverlässige künstliche Intelligenz und sollte immer mit größter Sorgfalt behandelt werden.