OK, aber was *ist* Künstliche Intelligenz?
12. Oktober 2020In den meisten Fällen nicht wesentlich mehr als ein Funktionsfit.
Ein simples Beispiel
Werfen wir einen Blick auf eines der einfachsten Beispiele - ein Beispiel, das so einfach ist, dass es Ihnen völlig banal erscheinen wird. Stellen Sie sich vor, Sie haben eine Liste von zwanzig Wohnungen, welche Informationen über Preis und Größe jeder Wohnung enthält. Sie beschließen, ein zweidimensionales Diagramm zu erstellen, dessen Achsen mit "Preis" bzw. "Größe" beschriftet sind. Innerhalb dieses Diagramms markieren Sie für jede Wohnung auf Ihrer Liste einen Datenpunkt, wobei die Koordinaten durch den Preis und die Größe der Wohnung gegeben sind. Sie werden höchstwahrscheinlich beobachten, dass der Preis im Wesentlichen mit zunehmender Grösse steigt. Nun ziehen Sie auf optimale Art und Weise eine Linie durch Ihr Diagramm. Optimal mag hier bedeuten, dass die Abstände zwischen Datenpunkt und Linie im Durchschnitt so gering wie möglich sind. Ihre neu gezeichnete Linie gibt Ihnen eine Vorhersage für den Preis einer beliebigen Wohnung in Abhängigkeit ihrer Größe. Sie können einen Computer programmieren, für Sie diese optimale Linie für Ihre Liste von Wohnungen zu finden. Ein geeigneter Algorithmus startet mit einer unspezifischen Linie und entwickelt sie Schritt für Schritt hin zu der gewünschten optimalen Linie. Dieser Konvergenzprozess ist das Wesen des Maschinellen Lernens, und das Maschinelle Lernen ist die Art und Weise, wie heutzutage an KI herangegangen wird.
Ein etwas realistischeres Beispiel
Eine gerade Linie ist eine sehr starke Einschränkung an einen Funktionsfit. Eine starke Einschränkung erleichtert das Lernen, jedoch kann eine gerade Linie nur lineare Abhängigkeiten abdecken, und das ist in den meisten Fällen einfach zu restriktiv. Sie unterfittet die interessanteren Abhängigkeiten. Was der Computer zeichnet, muss aber nicht unbedingt eine Linie sein, es kann auch eine Kurve sein. Die Bedeutung von optimal muss dann neu bewertet werden. Mit einer Kurve ist es möglich, alle Datenpunkte direkt miteinander zu verbinden, wodurch der durchschnittliche Abstand zwischen den Daten und der Kurve Null wird. Obwohl der durchschnittliche Abstand Null ist, ist diese Kurve nicht unbedingt optimal. Beispielsweise könnte Ihre Wohnungsliste eine höchst ungewöhnliche Stichprobe enthalten, was zu entsprechend ungewöhnlichen Vorhersagen für die Preise anderer Wohnungen derselben Größe führt. Dies wird als Überanpassung bezeichnet. Beachten Sie, dass das Clustering ähnlicher Wohnungen nach einem so genannten unüberwachten Algorithmus ebenfalls in dieses Bild passt. Die richtige Balance zwischen Unter- und Überanpassung des Funktionsfits zu finden, ist ein technisches Problem, ebenso wie die Unterscheidung zwischen überwachtem und unüberwachtem Lernen.
Realistischere Szenarien
Zu erwarten, dass der Wohnungspreis nur von der Größe der Wohnung abhängt, ist natürlich viel zu naiv. Was ist mit der Lage, der Architektur, der Ausstattung, der umgebenden Infrastruktur? Jede Wohnung hat eine lange Liste von Eigenschaften, und viele von ihnen dienen als Features für die Preisprognose. Wenn wir den obigen Prozess wiederholen, wird jedes dieser Merkmale eine eigene Achse im Diagramm erfordern. Wir sind allerdings nicht in der Lage, bijektiv etwas in mehr als zwei Dimensionen zu zeichnen und uns etwas in mehr als drei Dimensionen vorzustellen. Aber vielleicht brauchen wir hundert Dimensionen. Um eine Vorhersage des Preises auf der Grundlage von beispielsweise Größe und Qualitätsniveau zu machen, müssten wir eine Fläche anstelle einer Kurve zeichnen. Im Falle der Berücksichtigung von mehr als zwei Features würden wir die höherdimensionalen Analoga einer Fläche zeichnen, wenn wir das könnten. Wir können es nicht, daher nennt man sie Hyperflächen. Ein Computer hat diese Probleme mit der Vorstellungskraft nicht - er ist pragmatisch und behandelt eine weitere Dimension lediglich als ein weiteres Element in einer Liste von Zahlen. Hierbei gibt es jedoch ein großes Problem.
Was ist der Algorithmus zur Optimierung auf einem hochdimensionalen Feature-Raum?
Die Berechnungszeit wächst im Allgemeinen exponentiell mit zunehmender Anzahl der Dimensionen. Jedes einzelne Pixel eines Bildes beim Maschinellen Sehen würde eine eigene Dimension im Merkmalsraum darstellen. Die Anzahl der Wörter im Vokabular eines Computerlinguistikproblems würde der Anzahl der Dimensionen im Feature-Raum entsprechen. Daher werden effiziente Algorithmen benötigt. In dem Bemühen, die Rechenkomplexität zu reduzieren, erstellen Physiker vereinfachte Modelle, die gerade eben komplex genug sein sollen, um die relevanten Effekte zu erfassen. Sollte sich später herausstellen, dass doch nicht alle relevanten Effekte durch das Modell abgebildet werden, ist ein neues und komplexeres Modell erforderlich. (Beachten Sie, dass ein komplexeres Modell durch den Stil seiner Formulierung einfacher *aussehen* kann und dadurch einen Sinn für logische Vollständigkeit bis zu einem gewissen Grad widerspiegelt). Von der linearen und logistischen Regression bis hin zu sehr tiefen neuronalen Netzen ist der Raum für Modelle des Maschinellen Lernens sehr groß. Die Eigenschaften all dieser verschiedenen Modelle werden an anderer Stelle diskutiert. Im Wesentlichen ist die Idee jedoch immer dieselbe. Geben Sie dem Modell gerade genug Struktur, damit es lernen kann, was es lernen soll. Geben Sie ihm Augen, wenn es sehen soll, und Ohren, wenn es hören soll. Aber geben Sie ihm nicht mehr Struktur als nötig, sonst verlassen Sie den schmalen Grat zwischen konzeptionellem Fortschritt und verfügbarer Rechenkapazität.