(Wobei) kann KI helfen?

GPT and a lot of data

Title image with material from Pexels: Mojahid Mottakin and Fauxels

Diskussion

Dieser Artikel ist Teil 2 der KI-Einführung und soll ein breites Spektrum an Beispielen aufzeigen, wozu KI eingesetzt werden kann, um den Alltag in Unternehmen effizienter zu gestalten.

Der Schwerpunkt liegt dabei auf der breiten Anwendung von KI, spezielle KI-Anwendungen wie automatisiertes Fahren werden hier nicht behandelt. Diejenigen, die in diesen Bereichen tätig sind, kennen bereits den aktuellen Stand der Technik. Auch werde ich den Artikel aus technologischer Sicht oberflächlich halten und nicht erklären, wie KI im Einzelfall funktioniert oder was ihre Stärken und Schwächen sind – es soll ein Überblick sein. Wenn ich gut erklärende weiterführende Literatur kenne, werde ich sie verlinken.
Der Artikel soll Methoden vorstellen und ist kein Überblick über KI-Produkte von kommerziellen Anbietern.

KI Anwendungsfälle

Die erste Frage ist, wo KI überhaupt helfen kann. Hier haben wir einen Überblick über KI-Anwendungsfälle, erstellt vom Fraunhofer IPT:

Aus betriebswirtschaftlicher Sicht kann man also festhalten: KI kann eigentlich überall eingesetzt werden.

Die Frage ist eher „Welche KI ist die richtige?“.

Es gibt grundlegend verschiedene Arten von KI mit entsprechend unterschiedlichen Anwendungsbereichen. [Humm 2020] hat eine Landkarte der KI erstellt um eine Übersicht zu erhalten.

Landkarte der KI nach [Humm 2020]

Grundsätzlich muss zwischen den Bereichen „maschinelles Lernen“ und „wissensbasierte Systeme“ unterschieden werden.

  • Im ersten Fall lernt die KI selbst – entweder unüberwacht oder sie wird mit richtigen/falschen Daten („ground truth“) trainiert – und kann dann das gesammelte Wissen anwenden oder reproduzieren. Dies ist z. B. bei den derzeit diskutierten Neuronalen Netzen oder Deep Learning der Fall, sei es GPT oder das Framework für automatisiertes Fahren von Nvidia .
  • Im zweiten Fall wird das Wissen von Experten modelliert und darauf aufbauend arbeitet eine KI daran, Erkenntnisse zu generieren oder Wissen darzustellen. Dazu gehören zum Beispiel klassische Optimierungsprobleme oder logisches Denken, bei dem Schlussfolgerungen auf der Basis vorgegebener Regeln abgeleitet werden.
  • Natürlich gibt es auch Mischformen und Zwischenformen.

Beispiele wie KI im Betrieb helfen kann

Schauen wir uns zunächst den Zweck der KI und die möglichen Daten an:

Zweck der KI
• KI zur Kostenreduktion bzgl. Gemeinkosten der Deckungskostenbeiträge
• KI zum Entlasten
– von Kreativen
– Customer Service
– Software Entwicklern
– KI zum Trainieren von KI

Arten von Wissen
• Geschäfts-Dokumente
• Technische Dokumente
• Bild-Daten
• Aufgezeichnete Daten von Testfahrzeugen
• Software Code

(Kein Anspruch auf Vollständigkeit)

KI zum Unterstützen in Geschäftsprozessen und Verwaltung

Zweck: Kostenreduktion

Wissen:

  • Geschäfts-Dokumente
  • Allgemeines Wissen

Generative KI / Large Language Models  (ChatGPT/GPT, LLaMA, BARD)

Generative KI kann hier den Teil des „allgemeinen Wissens“ abdecken. LLMs haben enorme Mengen an Wissen aus dem Internet angesammelt und sind in der Lage, dieses anhand eines vorgegebenen Kontextes („Prompt“) zu reproduzieren.

Die Anwendungsmöglichkeiten im Alltag sind nahezu grenzenlos. Überall dort, wo Sie „googeln“ würden, können Sie stattdessen LLM einsetzen, denn sie liefern nicht nur individuelle Suchergebnisse, sondern aggregiertes Wissen.

Ich verwende ChatGPT für den IT-Support, die Formulierung technischer Konzepte, die Erstellung von PR-Material, das Schreiben von Angeboten und die Programmierung von Tools wie dem Videokiosk für eine Messe.

ChatGPT Version 3.5 ist sehr gut darin, detaillierte Inhalte zu generieren und Inhalte zu kürzen, wobei die Kerninformationen erhalten bleiben. Sehr nützlich für Angebote oder andere Dokumente mit Längenbeschränkungen. Etwas, für das Sie selbst eine halbe bis ganze Stunde brauchen würden, kann in 5 Minuten erledigt werden. GPT ist meiner Erfahrung nach nicht so gut darin, kurze Texte auf Anhieb zu erstellen, diese sind dann sehr oberflächlich. Tipp: Ich erstelle zuerst einen ausführlichen Text und lasse ihn dann kürzen.

Bei NISAR haben wir GPT mittlerweile in einen Teams-Chat-Bot integriert, so dass es einfach zu benutzen ist.

Kürzen von Texten in wenigen Minuten – unter Wahrung des Inhaltes

Lokale Indizierungsmodelle

Im Gegensatz zu LLM, wo das „Wissen des gesamten Internets“ enthalten ist, ist es manchmal von ist es manchmal von Interesse, Informationen nur aus einem ganz bestimmten Datensatz zu erhalten. Hier kann KI eingesetzt werden, um einen Index aus operativen Dokumenten zu erstellen. Genauer gesagt, werden hier Graphen gebildet, wie die verschiedenen Wörter aus den Dokumenten zusammenhängen, wo sie vorkommen, usw. Es ist auch relativ einfach, diese auf dem lokalen Firmennetzwerk laufen zu lassen – Sie wollen nicht, dass Ihre Betriebsdaten der Außenwelt sichtbar werden.

Ein weiterer Vorteil ist, dass das Wissen „exakt“ vorliegt auch „exakt“ wieder extrahiert werden kann. Es wird nicht nur indirekt in einem riesigen Neuronalen Netzwerk mit all den anderen Daten vermischt.

Was ist nun der Vorteil gegenüber einer klassischen Datenbank? Eine Datenbank muss ich erst modellieren, ich muss definieren, welche Tabellen und Felder es gibt und wie sie zusammenhängen. Dann muss ich Queries definieren, daher ich muss Suchanfragen bzgl. der definierten Felder stellen. Das setzt von einem Experten vorgegebene Queries voraus oder der Bediener muss sich mit der Struktur auskennen.

In dem KI Index sind die verschiedenen Daten verknüpft, ohne vorher Felder definieren zu müssen. Wenn ich Suche, wird alles durchsucht und bei einem Treffer die verknüpften Zusammenhänge ausgegeben. Im Gegensatz zu komplizieren Queries kann ich hier die „Prompts“ in natürlicher Sprache formulieren.

Hier ein Beispiel mit dem rohen Modell (llama-index) ohne es in ein anwenderfreundliches Tool eingebettet zu haben.

Tools, die dieses oder ähnliche Konzepte nutzen, gibt es mittlerweile von einer Vielzahl von Firmen. Diese Tools lernen die Workflows der Benutzer mit den Dokumenten und können so direkt die benötigten Daten extrahieren und in die entsprechenden Prozesse einpflegen.

Schrifterkennung – OCR

Eine Voraussetzung für eine Dokumenten-Verarbeitungs-KA ist die Schrifterkennung. Früher war es üblich, dass gescannte Dokumente im PDF defacto ein Bild enthielten. Heute unterstützt eigentlich jeder Scanner „OCR“ womit die Schrift des Dokuments erkannt wird und somit zur Weiterverarbeitung zur Verfügung steht. Es gibt hier zwei Arten, die einen geben den Text als Textdatei aus, die anderen betten den Text in das PDF ein.

OCR Schrifterkennung

Selbst bei Recycling-Papier und Knicken ist OCR heute kein Problem mehr. Der Text kann digital weiterverarbeitet werden.

KI als Übersetzer

Die heutigen KI-gestützten Übersetzer sind im täglichen Leben angekommen. Sie formulieren Texte oft besser, als man es selbst tun würde. Ich benutze sie sogar, um Rechtschreibfehler und Formulierungen zu verbessern.

Vorbei sind die Zeiten von „Lost in Translation“, in denen man scherzhaft einen Übersetzer 10x zwischen Deutsch und Englisch hin- und herübersetzen lässt und sich über die kuriosen Ergebnisse freut. Deepl zum Beispiel ist führend, aber auch der Microsoft-Übersetzer ist inzwischen sehr gut und hat den Vorteil, dass man direkt in Office-Dokumenten übersetzen kann.

Deepl
Microsoft Office übersetzt direkt im Dokument

KI zum Unterstützen von PR, Marketing, Customer Support oder Kreativen allgemein

Zweck:

  • Schnellere Ergebnisse
  • Geringerer Aufwand
  • Wissensverteilung
  • Veranschaulichung von Wissen

Daten:

  • Firmen-Dokumente
  • Bilddaten

Bild-Generierung

Mit den aktuellen Modellen zur Bilderzeugung wie zum Beispiel DALL-E von OpenAI oder Stable Diffusion lassen sich Bilder für Marketingzwecke in wenigen Minuten erstellen. Das Pyramiden Bild aus Teil 1 des Artikels wurde zum Beispiel mit DALL-E erstellt.

Der Vorteil:

  • Das geht oft viel schneller als die Suche in Archivbildern – finden Sie eine mit Pyramiden bedeckte Ebene oder Roboter, die abwaschen.
  • Es umgehet das Problem der Lizenzen – kann ich das Bild privat nutzen? Gewerblich? Auf Websites mit bis zu 5000 Klicks? Für welche Dauer eigentlich? Darf ich es drucken oder verändern?

Verständlicherweise finden Fotographen und andere Kreative, die Bilder erstellen, das gefährlich. Hier ist die Gesellschaft gefragt ein Vergütungsmodell zu etablieren, dass die Erzeuger der Bilder, die zum Training verwendet wurde, später an den Einnahmen der daraus erzeugten Bilder teilhaben lässt.

DALL-E: Digital art of a plain covered in pyramids

DALL-E: Foto of a service robot helping to do the dishes

Virtuelle Avatare

Virtuelle Avatare werden uns in Zukunft immer häufiger begegnen. Es sind virtuelle Personen, die täuschend echt oder völlig künstlich aussehen können, die einem Sachverhalte erklären, Fragen beantworten oder Kundensupport leisten können.

Der Vorteil liegt auf der Hand: da diese Avatare durch KI erzeugt werden entfallen aufwändige Video-Drehs. Die Avatare sprechen jede erdenkliche Sprache. Um einen Avatar von einer echten Person zu erzeugen, reicht mittlerweile ein einziges, gutes Foto.

Hier kommen verschiedene KIs in Kombination vor: vielleicht LLMs zur Erzeugung von Text, Übersetzer, um alle Sprachen abdecken zu können, Erzeugung von Bildsequenzen für das Video sowie Spracherzeugung in unterschiedlichen Sprachen. Das Spannende ist, dass die Mimik in den Videos zu der gesprochenen Sprache passt.

Text: GPT, Bild: Stable Diffusion, Video D-ID

Ein eher menschlicher Avatar ist in diesem Video zu sehen:

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Produkt Design mit GAN

Es gibt mittlerweile sehr mächtige GANs („Generative Adversarial Networks“) – einige Hintergrundmaterialien hier: Paper von Nvidia, zweites animiertes Paper und ein erklärendes Video hier. Diese können verwendet werden um fotorealistische Bilder zu erzeugen bzw. um Bilder von einer „Domäne“ in eine andere zu transformieren.

Ein Beispiel dafür, wie diese Fähigkeiten genutzt werden können, ist das Rapid Prototyping für das Produktdesign. Aus einfachen, schnellen Skizzen von Produkten lassen sich realistische Bilder erstellen, wie sie später aussehen könnten. So können beispielsweise erste Umfragen und Experimente mit Kundensegmenten durchgeführt werden.

Video über AI Bilder-Translation – Produkt Design bei 00:45:

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

KI zum Unterstützen in R&D / F&E

Zweck:

  • Schnellere Ergebnisse
  • Geringerer Aufwand

Daten:

  • Firmen-Dokumente
  • Bilddaten
  • Software Code

Lokale Indizierungsmodelle für die Bereitstellung von Wissen

Diese Modelle habe wir vorher schon gesehen. Hier ein anderes Anwendungsgebiet. Statt Verwaltungsdokumenten akkumulieren wir nun Konferenzbände oder wissenschaftliche Paper-Sammlungen.

Wenn wir dann anschließend Abfragen machen, erhalten wir Antworten, die sich genau aus diesen Papieren zusammensetzen – im Gegensatz zu LLM, wo viel breiteres, aber unschärferes Wissen enthalten ist. Hier wird auch der Unterschied zu Datenbanken deutlicher: Ich erhalte eine kohärente, zusammenhängende, zusammenfassende Antwort auf eine Abfrage und nicht die Treffer in einer Datenbank.

Hier ein Beispiel mit dem rohen Modell (llama-index) ohne es in ein anwenderfreundliches Tool eingebettet zu haben.

 Tools, die dieses oder ähnliche Konzepte nutzen gibt es mittlerweile von einer Vielzahl von Firmen.

Large Language Models  (ChatGPT/GPT, LLaMA, BARD) für Software Entwicklung

Auch für Software Engineering und Programmierung können LLMs eingesetzt werden. Es gibt eine Vielzahl an Anwendungen. Die wohl bekannteste ist der GitHub CoPilot in Zusammenarbeit mit OpenAI. Er ist für die Vervollständigung von Code auf der Grundlage von Prompts in natürlicher Sprache sowie für Code-Reviews entwickelt worden.

Die Codegenerierung mit LLMs funktioniert ziemlich gut, ich habe es mit mehreren Beispielen ausprobiert, z. B. einem Java-Script-basierten Pong-Browsergame oder einem Kalman-Filter. In NISAR haben wir auch mit Gesichtserkennung und Robotik experimentiert.

LLMs können nicht nur Code generieren, sondern sind auch eine Unterstützung bei der Fehlersuche. Bei typischen Fehlern stellen sie passable Vermutungen darüber an, wo der Fehler liegen könnte. Das geht so weit, dass sie auch den Code für die Korrekturen generieren können.

In dem Pong-Spiel hat zum Beispiel das Paddle des menschlichen Spielers den Ball nicht reflektiert. Das konnte in diesem Fall GBT automatisch korrigieren.

Hier das Video dazu. Man beachte die wirklich abstrakte, untechnische Beschreibung des Fehlers!

Somit ist es naheliegend, dass man versucht mit LLM ganze Applikationen programmieren zu lassen, indem man einfach die Fehler wieder zurückspiegelt.

Hier ein Beispiel von der Erzeugung einer Koch-APP (natürlich API basiert):

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Erstellung einer (API basierten) Koch-App mittels GPT

Domänen Transformation von Videos mit GAN

Es gibt mittlerweile sehr mächtige GANs („Generative Adversarial Networks“) – einige Hintergrundmaterialien noch einmal hier: Paper von Nvidia, zweites animiertes Paper und ein erklärendes Video hier. Damit lassen sich nicht nur Bilder, sondern auch ganze Videos von einer „Domäne“ in eine andere umwandeln. Dies ist zum Beispiel für die Entwicklung des automatisierten Fahrens interessant, weil man das Wetter der aufgezeichneten Daten ändern kann. So wird es beispielsweise schwierig sein, aufgezeichnete Fahrzeugdaten aus Wüstenregionen mit Schnee zu erhalten. Mit GANs kann man sie dennoch erzeugen.

Hier klicken, um den Inhalt von YouTube anzuzeigen.
Erfahre mehr in der Datenschutzerklärung von YouTube.

Transfer eines Videos zwischen Sommer und Winter

Einordnung der Beispiele

Abschließen möchte ich diesen Artikel mit einer Einordung, was für mich KI im betrieblichen Umfeld bedeutet.

1) Kurz gesagt: KI erledigt für mich die Arbeit eines Junior Mitarbeiters.

  • Mangels Erfahrung wir mal etwas falsch verstanden
  • Es ist auch mit ein oder zwei Fehlern mehr zu rechen als bei einem Senior Experten
  • Es gibt aber auch überraschende Antworten, die man in seiner „Betriebsblindheit“ nicht erwartet hat

Allerdings ist es nicht ein Junior, sondern skaliert fast beliebig. Das heißt, dass die erfahrenden Mitarbeiter effektiv erhebliche Teile der Routinearbeit an die KI abgeben können und sich auf die kritischen Bereiche konzentrieren können.

2) KI ist Change

  • Wie immer gibt Early Adaptors, aber auch skeptische Personen
  • Wie immer gibt es Chancen, aber auch Risiken
  • Wir müssen es wie im Change-Management angehen: bewerten, was Sinn macht und was nicht. Und bei dem was Sinn macht, die Leute möglichst frühzeitig einbinden.

3) Es gibt gesellschaftliche Einflüsse, die man Diskutieren muss. Sie können positiv sein, wie die Abschwächung des Fachkräftemangels. Sie können aber auch negativ sein, wie die immer einfachere Erstellung von Fehlinformationen. Oder KI-unterstütztes Hacking.

Allerdings: Wenn wir uns nicht an der KI beteiligen, entgehen uns zwar die Vorteile, aber wir spüren trotzdem die Nachteile.

Nicht zuletzt stellt sich auch das Problem der Entlohnung. Wenn KI auf der Grundlage der Arbeit von Kreativen trainiert wird, was dann genau diese Kreativen aus dem Markt verdrängt, dann müssten die Kreativen an den Einnahmen beteiligt werden.

Ich hoffe, dass ich bei dem einen oder anderen Leser Interesse an dem Thema wecken konnte!

Tags:

2 Responses

  1. Ich hoffe ich konnte bei meinem Vortrag beim bayme vmb Business Excellence Day Interesse für das Thema wecken, und denen, die schon Interesse hatten, evtl. die eine oder andere neue Inspiration geben!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Latest Comments