Datenanalyse: Kann ich der KI trauen? (Gesponsert)

Shownotes

„Wenn es darum geht, der KI zu trauen, dass sie mir korrekte Aussagen macht, auf die ich dann zum Beispiel meine Budgetplanung ausrichte – dann würde ich sagen: lieber nicht“, warnt Michael Berthold, Gründer und Geschäftsführer der Datenanalyse-Plattform KNIME. Er sieht KI als Ideengeber, die interessante Hypothesen generiert, die jedoch kritisch überprüft werden müssen.

Der Informatik-Professor erklärt, wie Unternehmen KI gewinnbringend für die Datenarbeit nutzen können. Ob Predictive Maintenance in der Autoindustrie, Reporting bei Banken oder Bewerberauswahl im Recruiting: Die Anwendungsfälle sind vielfältig. Dabei geht es vor allem darum, die Datenauswertung zu demokratisieren und mehr Mitarbeitern zugänglich zu machen – auch ohne Programmierkenntnisse.

Mit der Open-Source-Plattform KNIME will Berthold genau das ermöglichen: Datenanalyse für alle – von einfachen Statistiken bis hin zu komplexen KI-Modellen. Wichtig ist ihm dabei Transparenz: Wer einen KNIME-Workflow baut, soll jederzeit nachvollziehen können, was im Hintergrund passiert. So lassen sich Fehler vermeiden und Vertrauen in KI-Ergebnisse aufbauen.

Wie aber lässt sich prüfen, ob ein KI-Modell zuverlässig arbeitet? Im Gespräch mit „heise meets …“ gibt der Experte wertvolle Praxistipps. Erfahren Sie außerdem,

  • wo die Risiken beim KI-Einsatz liegen
  • wie Anfänger von KI-Assistenten profitieren
  • welche Vorteile die Open-Source-Community bietet

Keine Folge verpassen: Abonnieren Sie jetzt den Podcast heise meets… – Der Entscheider-Talk auf Apple Podcasts, Spotify und Deezer oder per RSS.

Transkript anzeigen

Sprecher: Heise meets… der Entscheider-Talk. Wir besprechen kritische, aktuelle und zukunftsgerichtete Themen aus der Perspektive eines Entscheiders. Heise Business Services begrüßt Persönlichkeiten aus Wirtschaft, Wissenschaft und Politik - immer aktuell und nah am Geschehen.

heise meets… willkommen zur aktuellen Folge! Wir beschäftigen uns heute mit einer Frage, die kann man in einer IT-Runde ebenso engagiert diskutieren wie am Stammtisch - nämlich: Kann man KI in der Datenarbeit trauen? Vermutlich gibt es dazu über 1000 Meinungen. Für uns bei „heise meets …" ist heute eine Meinung wichtig, und das ist die von Michael Berthold von der KNIME AG.

Sprecher: Hallo Michael in Konstanz!

Michael Berthold: Hallo Matthias!

Matthias: Michael, wenn man das googelt, „Michael Berthold", dann stößt man schnell auf einen Wikipedia-Eintrag und stellt fest: Du bist der Urenkel von Professor Gottfried Berthold, Professor für Botanik an der Universität Göttingen - schon ein paar Tage her, 1887 war er da Professor bis 1923. Meine Frage: Liegt die Wissenschaft bei euch in der Familie?

Michael Berthold: In den jüngeren Generationen wahrscheinlich tatsächlich ein bisschen. Also mein Großvater war Physiker, mein Vater ist promovierter Physiker und hat Halbleiterforschung gemacht bei Bosch, viele, viele Jahre. Aber original ist mein Urgroßvater der Sohn eines Bauers. Und das war der klassische zweite Sohn, der damals eben nicht den Hof bekommen hat, sondern die Ausbildung finanziert bekam.

Sprecher: Und du profitierst noch ein bisschen heute davon?

Michael Berthold: Kaum, den Hof wüsste ich nicht, dass es den noch gibt. Aber die Geschichte geht nicht besonders weit zurück.

Sprecher: Michael, wir sprechen über KNIME, die kostenlose Open Source Plattform, die es Menschen ermöglicht, ganz einfach und intuitiv mit Daten zu arbeiten - von einfachen Tabellenanalysen bis hin zu komplexen KI-Anwendungen. Du hast das auch als Autokennzeichen: KN für Konstanz ist naheliegend. Wie ist das entstanden?

Michael Berthold: Genau. Und eigentlich sollte das Kind früher KIM heißen - Konstanz Information Miner. Weil man üblicherweise nicht nach Daten gräbt, sondern nach Informationen in diesen Daten. Und KIM ist natürlich als Name schon besetzt. Also haben wir aus dem Konstanz das KN vom Nummernschild genommen, das I und M, und das E rundet das Ganze so ein bisschen ab. Und natürlich kann man das dann auch als Kennzeichen bekommen, wenn man ein E-Auto fährt - dann kriegt man nämlich auch das E am Ende.

Sprecher: Wenn ich so daran denke - bei heise sind vier E-Autos drin. Man müsste mal in den Fuhrpark gucken, wie viele E-Autos da tatsächlich stehen. Ich kann es dir nicht sagen. Aber vom Auto zu unserem Thema: Kann man der KI trauen in der Datenarbeit? Michael, wie erklärst du das, wenn dich jemand fragt: „Kann man KI trauen?"

Michael Berthold: Ich würde sagen, es hängt gewaltig davon ab. Wenn es darum geht, ist KI gut genug, um mir irgendwelche Vorschläge zu machen, um erste Einsichten in Daten zu generieren - dann durchaus. Wenn es darum geht, der KI zu trauen, dass sie mir korrekte Aussagen macht, auf die ich dann zum Beispiel meine Budgetplanung ausrichte - dann würde ich sagen, lieber nicht.

Sprecher: Kannst du das an einem Beispiel vertiefen?

Michael Berthold: Genau. Wenn ich zum Beispiel die KI frage: „Gibt es interessante Zusammenhänge zwischen Verkäufen von gestern und dem, was wir drei Tage vorher getan haben?" Dann liefert mir die KI irgendwelche Muster. Dann werde ich aber hinterher trotzdem noch mal nachschauen, ob die Muster tatsächlich statistisch signifikant sind, ob die wirklich vorliegen - oder ob das eine dieser berühmten Halluzinationen war.

Wenn ich die KI allerdings frage: „Wie sieht mein Umsatz in drei Monaten aus, damit ich dann entweder drei Leute mehr einstelle oder eben nicht?" Dann sollte ich mir hinterher sehr genau angucken, wie die KI zu diesem Schluss gekommen ist, dass wir tatsächlich im nächsten Quartal 300.000 Euro mehr verdienen.

Sprecher: Das heißt, wenn ich das jetzt so zusammenfasse: KI in der Datenarbeit mit Vorsicht - Fragezeichen?

Michael Berthold: Genau. Es kommt gewaltig darauf an, was ich will. Also ich sehe KI immer als einen Ideengeber, als einen Hypothesengenerierer- aber nicht als den, der mir die tatsächliche Wahrheit gibt.

Sprecher: Wir haben am Anfang schon ein bisschen darüber gesprochen, wie KNIME eigentlich entstanden ist - der Wissenschaftler spielte eine Rolle. Wie habt ihr KNIME ins Leben gerufen?

Michael Berthold: Seit 30 Jahren mache ich Forschung im Bereich KI. Ich habe also mit neuronalen Netzen auch schon angefangen während meiner Diplomarbeit. Wir haben, als ich den Lehrstuhl in Konstanz bekommen habe - im Jahre 2004 habe ich da angefangen - haben wir mit der Entwicklung dieser Open-Source-Plattform angefangen.

Und die Idee war eigentlich zu Beginn, dass wir, da wir angewandte Forschung bei mir im Lehrstuhl machten, wir brauchen eine Werkbank, in die wir alle unsere Forschungsergebnisse reinstöpseln können, sodass die Leute in der echten Welt, also in der Industrie, das tatsächlich auch einsetzen können. Das war der Initialgedanke hinter dieser Open-Source-Plattform.

Open-Source macht Sinn, das sorgt nämlich dafür, dass wir sehr viele andere Open-Source-Projekte, die wir auch brauchen - einfach nur für Vergleich, für Visualisierung, für Daten, für viele andere coole Dinge - leicht einbinden können und dass wir auch dafür sorgen können, dass andere Forscher ihre Sachen in KNIME einbinden. Das hat eigentlich sehr gut funktioniert.

Sprecher: Und wie ging es dann weiter?

Michael Berthold: Es ging dann so weiter, dass diese Open-Source-Plattform ziemlich von alleine relativ viel eingesetzt und relativ breit eingesetzt wurde. Und dann kamen zwei Firmen auf uns zu, mit denen wir damals sowieso ein bisschen kollaboriert hatten auf Forschungsebene, und sagten: „Das ist ja super cool, damit kann der Einzelne unglaublich schöne Sachen machen mit seinen Daten oder ihren Daten. Aber wir brauchen Software, die uns ermöglicht, auch zu kollaborieren, ein bisschen Rechtemanagement, diese klassischen Enterprise-Themen eben auch abzudecken."

Und das hat dann dazu geführt, dass wir 2008 eine Firma ausgegründet haben aus der Uni, die sich um diese eher kommerzielle Softwareentwicklung gekümmert hat.

Sprecher: Das klingt so bescheiden, wenn du das sagst: „Wir haben eine kleine Firma gegründet und wir machen das." Ihr habt Niederlassungen, die gehen weit über Konstanz hinaus.

Michael Berthold: Ja, mittlerweile sind wir ein bisschen größer. Wir haben also auch in Texas, in Austin - da muss man glaube ich dazu sagen - ein Büro. Wir haben Büros in Berlin, auch in Zürich. Genau, wir sind mittlerweile über 200 Mitarbeiter. Das ist über die Jahre schon gewachsen.

Sprecher: Und sagst du uns auch einen Satz zu den Kunden von KNIME, dass man das so ein bisschen einordnen kann? 200 Mitarbeiter sind ja nicht so für den Selbstzweck da.

Michael Berthold: Das stimmt. Wir haben Kunden so ziemlich aus allen großen Bereichen international. Ich war vor kurzem erst in Australien und habe da ein paar Kunden besucht. Das sind große Banken, das sind Telekommunikationsunternehmen, das sind die berühmten Retailer, das sind Automobilfirmen unter anderem hier in Deutschland. Das findet sich alles.

Das hat natürlich ein bisschen damit zu tun, dass üblicherweise die Kunden zu uns kommen, dadurch, dass sie vorher schon die Open Source Plattform eingesetzt haben - und die ist beliebig einsetzbar. Da geht es darum, Daten zu bearbeiten, Daten auszuwerten, Daten zu visualisieren. Das trifft man überall. Und diese Art von Use Cases, diese Art von Anwendungen schlagen dann bei uns auf und dann sehen wir teilweise mit Erstaunen, was die Leute damit alles machen.

Sprecher: Ich muss noch mal nachbohren, damit ich das besser verstehe: Autoindustrie, hast du gesagt. Und du hast am Anfang auch gesagt, naja, ich kann relativ klar sagen, was war, aber ich kann noch nicht abbilden, was wird - ich weiß noch nicht, wie sind meine Verkäufe, was brauche ich und so weiter. Was macht beispielsweise die Autoindustrie?

Michael Berthold: Die Autoindustrie - also das klassische Thema dort nennt sich Predictive Maintenance. Und die Idee dabei ist, zu überwachen, was die Autos da so draußen alle tun. Deswegen mag die Automobilindustrie es auch sehr gerne, wenn die Autos nach Hause telefonieren sozusagen und dann frühzeitig zu erkennen, dass da irgendeine merkwürdige Auffälligkeit ist.

Das muss gar nicht unbedingt schon heißen, dass ich weiß, was kaputt geht. Aber ich sehe schon, da ist aber irgendwas Komisches, was sich da aufbaut. Und das kann dafür sorgen, dass ich vielleicht nur wenige Tage vor dem üblichen Werkstattbesuch merke, dass da ein großer Rückruf auf mich zukommt als Automobilhersteller. Das ist so klassisches Ausreißererkennung - in den Daten Dinge versucht zu finden, die sonderbar aussehen.

Sprecher: Soweit leuchtet mir das ein. Du hast auch die Finanzbranche genannt - ich hoffe, dass die auch Rückrufe haben. Wie nutzt die Finanzbranche euer Tool? Wie kann KNIME mir da helfen?

Michael Berthold: Das ist ein schönes Beispiel, weil es eine völlig andere Art von Anwendung ist. In der Finanzbranche sind wir üblicherweise nicht in den Vorhersagen unterwegs, weil da hängen doch immer viele Millionen dran.

Sondern in der Finanzbranche wird KNIME viel verwendet, um Daten kontrolliert, dokumentierbar, transparent aufzubereiten, zusammenzuführen und auszuwerten. Also ich hatte eine schöne kleine Anekdote: Ganz zu Beginn war KNIME bei einer kleinen Schweizer Bank im Einsatz. Die hatten früher ihr Reporting für die Schweizer Nationalbank immer mit Excel gemacht. Da wurden die Daten in Excel reinkopiert, dann wurde der Report generiert, dann wurde das weggeschickt.

Dann riefen die uns nach ein paar Tagen KNIME-Nutzung an, aufgebracht, und sagten: „KNIME taugt ja gar nix, das ist alles falsch."

Sprecher: Hört man gerne.

Michael Berthold: Genau, hört man gerne und wird natürlich sofort hingerauscht. Dann haben sie das untersucht und dann stellte sich raus: Im Lauf der Jahre, durch dieses Reinkopieren in Excel, hatten sich Fehler eingeschlichen. Das heißt, jahrelang hatten die falsche Zahlen an die Nationalbank übermittelt. Und KNIME ermöglicht ja eben, diese Dinge, diese manuellen Tätigkeiten mit Daten, sauber dokumentiert, reproduzierbar zu automatisieren.

Und dann mache ich das, was ich jedes Quartal aufs Neue machen muss, eben nicht mühsam über Excel drei Tage hin und her kopieren, sondern ich drücke einmal den Knopf bei KNIME, dann läuft der Workflow und dann fallen hinten die jetzt von diesem Quartal sauber aggregierten Daten raus.

Sprecher: Und dann stimmt ja alles mit den Franken.

Noch ein Beispiel - Human Resources. Wie funktioniert KNIME da? Wie könnt ihr unterstützen?

Michael Berthold: Das hängt - da gibt es viele verschiedene Anwendungsfälle. Also das ist teilweise natürlich ein bisschen kritisch, wenn man da auch mit Personendaten anfängt zu arbeiten - und das ist ethisch natürlich auch ein bisschen fragwürdig, teilweise zumindest.

Also man kann eingehende Bewerbungen automatisch klassifizieren und schon - ich sage mal so, wir wollen sie vielleicht nicht gleich aussortieren, aber in die richtigen Abteilungen übermitteln. Nehmen wir mal den schöneren Teil dieses Beispiels: Ich kann das aber zum Beispiel auch verwenden, um automatisiert immer wieder mir die Online-Profile meiner Mitarbeiter anzuschauen, um zu sehen, ob die vielleicht sich mit Absprung-Gedanken tragen.

Sprecher: Das erkennt KNIME?

Michael Berthold: Das erkennt KNIME, wenn ich den Workflow richtig baue - ja. Das sind so klassische Datenanalyse-Dinge: Sehe ich merkwürdige Muster in Daten, die ich vorher schon gesehen habe, bei Leuten, die gekündigt haben? Solche Dinge. Das ist so ein klassisches Lernen aus vergangenen Daten, um in der Zukunft dann Vorhersagen treffen zu können.

Sprecher: Das heißt, das Bauchgefühl eines Chefs - da ist einer in der inneren Immigration und kommt nur noch, um den Schreibtisch zu bevölkern - das siehst du vorher?

Michael Berthold: Teile davon. Man sieht natürlich nicht alles, aber Teile dieser Online-Aktivität. Die kann ich vorher sehen. Das wollen ja viele Unternehmen, egal ob die in der Autobranche sind, Banken. Wir könnten noch viel mehr erzählen. Viele Unternehmen wollen datengetrieben arbeiten. Und oft ist die Datenanalyse, so wie du das beschrieben hast, ein Bottleneck statt der Lösung. Warum ist das so?

Michael Berthold: Das liegt meiner Meinung nach ein bisschen an der Historie. Die Datenanalyse war früher eine kleine Nischenabteilung am Rande von großen Firmen. Denen wurden die Probleme über die Mauer geschmissen und dann schmissen die die Antwort zurück. Dann passierte erstmal wieder drei Wochen gar nichts.

Wir leben immer noch so ein bisschen in dieser Zeit, wo man diese Fähigkeit, mit den Daten was zu tun, Daten auszuwerten, nicht wirklich jedem gibt. Das läuft unter Data Literacy.

Das andere Problem ist meiner Meinung nach, dass viele Datenwissenschaftler noch aus der Informatik oder aus der Mathematik kommen, wo Verfahren für die Datenanalyse entwickelt werden. Das bedeutet, dass diese Experten es gewöhnt sind, neue Algorithmen zu programmieren und machen nebenher natürlich auch gute Datenauswertung. Aber das bedeutet nicht automatisch, dass ich jeden, der mit Daten arbeiten soll, gleich zu einem Programmierer umbilden muss.

Sprecher: Wenn du jetzt in ein Unternehmen kommst – Bank, Autohersteller, Management oder was auch immer – was sind die ersten Fragen, die du stellst, um sagen zu können: „Hey, hier kann ich euch helfen"?

Michael Berthold: Also ich mache das nicht mehr ganz so oft, weil ich mich bei der Größe von KNIME mittlerweile auch um andere Dinge kümmere, nicht nur um Kundenkontakt. Aber die üblichen Fragen sind natürlich schon: „Was macht ihr denn zurzeit?"

Und dann merkt man relativ schnell, wenn es heißt: „Ja, wir haben da die Gruppe, die programmieren in R oder Python oder SQL oder ich weiß nicht was, und die beantworten alle Datenfragen." Dann weiß ich: Okay, wir sind auf diesem Level von Data Literacy, wo wir tatsächlich noch dafür sorgen müssen, dass es anderen Leuten auch ermöglicht wird, Daten selber auszuwerten.

Oftmals laufen wir natürlich in zukünftige Kunden oder existierende Kunden rein, die die Open-Source-Plattform verwenden, wo es dann eigentlich nur noch darum geht – „nur noch" in Anführungsstrichen – das breiter einsetzbar zu machen. Das sind eigentlich so die zwei Hauptansatzpunkte.

Und dann gibt es natürlich noch den Klassiker, der ist jetzt nicht mehr ganz so häufig zum Glück, wo es dann heißt: „Wir wollen auch Data Science machen. Der Nachbar macht es und ist sehr zufrieden damit. Was heißt denn das eigentlich?"

Sprecher: Das heißt, ich muss nicht unbedingt programmieren können. Also meine Programmierkenntnisse sind, sag ich mal, überschaubar, so ähnlich wie meine Japanisch-Kenntnisse. Ich muss das nicht könne.

Michael Berthold: Ich bin ja Informatiker. Da muss ich jetzt ein bisschen aufpassen, denn Programmieren ist ja nicht genau das Gleiche wie Zeilen von Codes zu schreiben. Insofern hast du recht: Ich muss nicht Zeilen von Code schreiben können, um Daten auszuwerten. Aber ich programmiere durchaus, denn am Ende heißt Programmieren: Ich setze Logik zusammen und versuche irgendwie dem Computer beizubringen, dass er einige Schritte nacheinander ausführt. Und das mache ich natürlich im Rahmen von so einem KNIME-Workflow auch.

Ich lese ein Excel-File ein, ich schließe an eine Datenbank an, dann transformiere ich die Daten irgendwie, dann visualisiere ich die. Das sind alles einzelne Schritte, die wir über visuelle Module in so einem Workflow darstellen. Also auf dieser Abstraktionsebene programmiert auch der Datenarbeiter durchaus, aber er programmiert nicht mehr auf dieser Ebene von: „Ich schreibe jetzt ganz viele Zeilen Code, um in Python oder in R oder in SQL diese Routine, diese Funktion mit diesen Parametern aufzurufen." Diesen Detaillierungsgrad brauche ich bei der Datenarbeit nicht.

Sprecher: Das heißt, ihr geht in das Unternehmen und helft, Daten und KI zur Kernkompetenz zu machen.

Michael Berthold: Genau. Und da kommt jetzt auch das Thema KI natürlich wieder rein. Also am Ende machen wir das schon seit 20 Jahren, dass man im Rahmen von KNIME natürlich auch künstliche Intelligenzmethoden einsetzen kann. Dieses neue Gen-AI-Thema macht die Tür noch viel weiter auf, noch viel coolere Dinge zu machen.

Sprecher: Was sind so die coolen Dinge?

Michael Berthold: Das sind so Klassiker wie Texte analysieren. Damit hat man sich vor fünf Jahren doch relativ schwer getan. Einfach nur festzustellen: Hat dieser Text eher einen positiven oder negativen Touch? Da fing man dann an, Wörter zu zählen und die Wörter waren irgendwie gelabelt: Das ist üblicherweise eher positiv, das eher negativ. Aber mit dem Verfahren hat man nie wirklich den Kontext, den Sinn dieses Satzes verstanden.

Und bei sowas sind Gen-AI-Methoden viel, viel besser. Da kann ich den Text einfach hinschicken und sage: „Bewerte mir diesen Text und sag mir, hat er eher ein positives oder ein eher negatives Sentiment."

Also viele dieser Anwendungen, wo Gen AI reinfließt, sind üblicherweise erstmal Dinge, wo man sehr viel mehr und sehr viel besser mit Texten arbeiten kann. Bilder natürlich auch, aber das ist noch nicht so prominent.

Sprecher: Aber Bilder sind im Kommen, oder?

Michael Berthold: Bilder sind absolut im Kommen. Also dieses Multimodale – Bilder, Texte, Audio – ist natürlich was, wo Gen AI fantastisch funktioniert.

Sprecher: Das heißt, im Mittelpunkt steht die Benutzerfreundlichkeit?

Michael Berthold: Das sind zwei Dinge. So wie wir bei KNIME AI einsetzen, machen wir natürlich KNIME selber, also die Plattform, wo ich diese visuellen Workflows zusammenbaue, deutlich einfacher und effizienter zu bedienen, indem wir natürlich auch die klassischen Co-Piloten dabei haben, die dir helfen, Workflows zu bauen.

Aber du kannst jetzt natürlich auch Gen AI als Teile dieser Workflows verwenden, also deine klassischen Analyse-Workflows besser machen durch den Einsatz von Gen AI.

Sprecher: Ich muss nochmal nachfragen, damit ich das auch kapiere. Du hast beispielsweise Kunden in der Finanzbranche. Ein Finanzer, ein Banker, jemand, der täglich mit Geld zu tun hat, der erkennt sofort, ob eine Buchung verdächtig ist. Der Data Scientist wahrscheinlich nicht so sehr, oder?

Michael Berthold: Das ist richtig und deswegen wollen wir ja auch dahin, dass der Finanzmensch selber diesen Workflow baut oder mindestens von der AI den gebauten Workflow anschauen kann, um zu sagen: „Aha, was du da gemacht hast, liebe AI, liebe KI, das sieht gar nicht so doof aus, das passt."

Und was da hinten rausfällt, die Interpretation dieser Ergebnisse, die überlässt man natürlich nach wie vor dem Experten, der dann sagt: „Das ist in Ordnung so, dieser Kunde, der war schon immer ein bisschen komisch, den kennen wir aber gut." Oder: „Oh, das ist aber ein komischer Kunde, was ist denn da los?"

Sprecher: Und dann geht das Lämpchen an und dann setzt ihr an.

Michael Berthold: Genau. Dann geht das Lämpchen an und was dann mit dem Lämpchen passiert, ist die große Frage.

Ich sage dann immer so: Wenn ich einen automatischen E-Mail-Generator mache, der bei verdächtigen Transaktionen automatisch eine E-Mail schickt, dann ist das völlig in Ordnung, vielleicht nicht völlig in Ordnung. Dann ist das akzeptierbar, dass die in 1% aller Fälle völliger Blödsinn ist, wenn die nur intern rausgeht.

Wenn ich die an meine besten Kunden schicke, automatisiert, dann will ich wahrscheinlich, dass die kurz nochmal vorher angeguckt wird.

Sprecher: Und wenn alle Kunden eine etwas merkwürdige E-Mail kriegen, could be more serious, oder?

Michael Berthold: Genau, das ist genau der Punkt. Das meine ich auch mit dem: Kann ich KI trauen? Ja oder nein? Das kommt immer so ein bisschen auf den Anwendungsfall an.

Also wenn ich KI nur für mich verwende, um interessante Einsichten in Daten zu generieren und die dann sowieso kritisch hinterfrage, dann darf KI gerne ab und zu halluzinieren. Aber wenn ich das tatsächlich dann an die Schweizer Zentralbank übermittel, dann sollte ich da nochmal kurz drauf gucken.

Sprecher: Michael Berthold und die Schweizer Zentralbank, das halte ich in diesem Podcast fest. Wo setzt ihr KI-Assistenten bei der Datenarbeit überhaupt ein? Wie macht ihr das?

Michael Berthold: Also wir sind da natürlich auch erst am Anfang. Wir haben schon verschiedene Assistenten eingebaut in die Analytics-Plattform. Die helfen dir erstmal nur beim Fragen beantworten. So nach dem Motto: „Hey, ich habe früher das und das in Excel gemacht. Wie mache ich das jetzt in KNIME?"

Und dann sagt der Assistent: „Hey, in KNIME gibt es hier drei Knoten. Die kannst du so und so verwenden." Kannst du direkt von hier nehmen und rüberschieben auf den Canvas und damit weiter basteln. Also das ist mir so eine sehr, sehr intelligente Hilfe, die aber phänomenal hilft beim Anfangen mit der Analytics-Plattform.

Dann gibt es den zweiten Assistenten, der dir beim Workflow bauen hilft, den du fragen kannst: „Hey, baue mir bitte ein Workflow, der ABC macht." Und dann klebt der Assistent automatisch die Knoten dazu, die kannst du dir dann hinterher angucken und sagen: „Jawohl, das passt, sieht gut aus." Das ist also mehr für die Workflow-Assistenz.

Und dann haben wir natürlich in KNIME, das ist ja nicht so, dass wir jetzt niemanden erlauben zu coden, also zu programmieren im Sinne von Schreiben von Zeilen von Code. Wir haben Python, wir haben SQL, wir haben R, wir haben Javascript und andere Integrationen, sodass du in einem dieser Module auch ein Stück Code schreiben kannst. Und all diese Knoten, die Code einbetten können in deinen Workflow, die haben auch KI-Assistenten, die dir erlauben, diesen Code schreiben zu lassen. Das funktioniert eigentlich ziemlich gut.

Das funktioniert auch deswegen ziemlich gut, weil diese Art von Aufgaben ja immer relativ isoliert sind.

Sprecher: Das heißt, das ist auch ein Vorteil, dass ihr offen seid für andere?

Michael Berthold: Genau. Das ist Teil dieser ganzen Open-Source-Philosophie schon immer gewesen. Wir machen das nicht, weil wir irgendwie religiös Open-Source sind, sondern weil im Bereich von Data Science so viel Cooles, Neues dauernd passiert, dass das niemand selber kontinuierlich integrieren kann, wenn das proprietäre Software ist.

Also unsere Integration zielt immer darauf ab, dass wir gucken, was es schöne neue Technologien gibt und dann idealerweise andere Open-Source-Libraries einbinden.

Sprecher: Wir reden ja darüber: Kann man der KI trauen? Es ist wirklich mal was schiefgegangen. Also provokant gefragt: Datenfehler, gleich Millionenverlust. Und jetzt?

Michael Berthold: Dann kann ich mit KNIME wenigstens hinterher, also wenn ich das tatsächlich nicht vernünftig aufgebaut habe und niemand hat drauf geguckt und die Million ist weg, dann kann ich hinterher aber natürlich immer noch in den Workflow reinschauen und sagen: „Okay, dieser Workflow, der vor einem halben Jahr gelaufen ist und dafür gesorgt hat, dass diese Million verschwunden ist, der sah genau so aus und hat genau diese Dinge getan."

Und dieser Workflow dokumentiert sehr transparent, welche Schritte durchgeführt wurden, um zu einer bestimmten Entscheidung zu kommen. Das ist ein großer Unterschied zu vielen Programmiersprachen, insbesondere denen, die leider im Data-Science-Bereich eingesetzt werden, wo üblicherweise nach zwei Jahren die Libraries, die du damals verwendet hast, so nicht mehr existieren und oft auch gar nicht mehr das Gleiche tun.

KNIME ist 100% backwards-kompatibel. Das haben wir uns damals sehr früh auf die Fahnen geschrieben. Das heißt, ein Workflow, der vor fünf Jahren irgendein Resultat produziert hat, wird dieses Resultat auch heute noch in der neuesten Version genauso produzieren.

Sprecher: Für euch ist es überhaupt keine Hürde bei KNIME, aus der Vergangenheit zu lernen, sage ich mal ganz plakativ in Anführungsstrichen.

Michael Berthold: Das ist richtig. Also zum einen können wir aus der Vergangenheit natürlich lernen, weil wir sehen, welche Art von Workflows die Leute bauen. Aber wir können natürlich auch in die Vergangenheit zurückschauen.

Und da kommt dann so ein Thema wie Governance and Auditing and Compliance ins Spiel, die Organisationen zu ermöglichen, selbst Jahre später noch genau zu sagen, wie Ergebnisse erzeugt wurden.

Sie können sogar ausprobieren, was passiert wäre, wenn andere Daten damals eingeflossen wären, weil die Workflows eben komplett backwards-kompatibel sind und genau das gleiche Jahre später immer noch tun.

Sprecher: Gefahr erkannt, Gefahr gebannt.

Michael Berthold: Genau.

Sprecher: Lass uns mal lieber nach vorne gucken und nicht über die Fehler von vor fünf Jahren reden. In welchen Szenarien ist Gen AI bei der Datenarbeit für euch besonders wertvoll? Wo könnte es so Herausforderungen geben?

Michael Berthold: Ich denke, dass Gen AI oder diese ganzen KI-Systeme werden nie alle Datenarbeiten komplett autonom auf Zuruf erledigen. Das heißt, wir werden zunehmend natürlich viele einfache Dinge an die KI outsourcen oder einfach nur abtreten, „Kümmer` dich drum!“. Und das wird zunehmend wichtig sein, dass ich in der Lage bin, wenn ein Ergebnis zurückkommt von der KI, zu sagen, erklär mir, wie du da hingekommen bist. Wie bist du zu dieser Grafik gekommen? Wie bist du zu dieser Statistik gekommen?

Und dann habe ich in vielen Systemen eigentlich nur die Möglichkeit zu sagen, zeig mir an, wie du da hingekommen bist. Dann kommen von ein bisschen SQL-Code, ein bisschen Python-Code, ein bisschen R-Code, irgendwelches Zeug, das ich wahrscheinlich nicht kenne. In unserem Fall können wir dann sagen, und das funktioniert jetzt schon ganz gut, zeig mir den KNIME-Workflow, mit dem du dieses Ergebnis erzeugt hast - diesem KNIME-Workflow, den kann ich auch als Nicht-Coder, als Nicht-Hardcore-Programmierer verstehen, nachvollziehen und mir die Teile, die wichtig sein könnten, genau angucken.

Und das ist, glaube ich, das Interessante, weil das bedeutet, dass die Datenarbeiter auch in Zukunft noch verstehen müssen, was diese Technologien tun. Also ich benutze da immer dieses Beispiel einer Regressionsanalyse. Ich muss als Datenarbeiter nicht verstehen, wie genau diese Koeffizienten erzeugt wurden. Aber wenn ich nicht weiß, was diese Koeffizienten bedeuten, kann ich mit dem Ergebnis auch nichts anfangen.

Sprecher: Völlig klar. Wenn du es so beschreibst, wie du es gerade gesagt hast, wo sind die Risiken bei der Verwendung von KI-Tools?

Michael Berthold: Ein großes Risiko sehe ich tatsächlich drin, dass insbesondere die Beginner, die mit AI-Assistenten anfangen, Daten zu analysieren, dass die das einfach als sozusagen gottgegeben nehmen, die Ergebnisse, und die nicht hinterfragen, die aber auch deswegen nicht hinterfragen, weil sie einfach das Detailverständnis der Methoden nicht haben.

Es gab mal einen sehr interessanten Artikel, da wurde beschrieben, wie KI für zwei sehr unterschiedliche Benutzergruppen sehr unterschiedlich eingesetzt wird. Das sind einmal die, die mit einer neuen Technologie beginnen. AI muss man da als Lehrer sehen, der einem beibringt, wie es geht und nicht als jemand sehen, der es für mich erledigt. Sobald ich aber Experte bin, da werde ich natürlich KI verwenden, um Dinge für mich zu erledigen, die ich dann aber schon verstehe, wo ich dann kurz drauf gucken kann und kann sagen, jawohl, das macht alles Sinn, weiter geht's.

Genauso wie bei uns die Programmierer, bei KNIME die Programmierer ja diese KI-Copiloten auch verwenden. Wir sagen denen immer sehr klar, ihr dürft die verwenden, selbstverständlich, die machen euch deutlich effizienter. Aber jede Zeile Code, die von euch oder von der von euch bedienten KI kommt, das ist eure Verantwortung, dass das alles korrekt ist.

Sprecher: Michael, du hast zwei Szenarien gerade genannt. Die Absolut-Beginner und die Fortgeschrittenen. Ich stelle mir vor, ich benutze KNIME jetzt zum ersten Mal. Wer hilft mir beim Einstieg? Ich habe jetzt von dir wahnsinnig viel gehört, möchte jetzt loslegen. Wer hilft mir?

Michael Berthold: Zum einen haben wir viele Lernressourcen online, die wir auch für umsonst anbieten. Es gibt den Learning Hub, da sind Kurse dabei, Videos dabei, Self-Paced-Kurse, wo du dir das einfach anguckst, wenn du Zeit hast, abends oder in den Kaffeepausen. Wir bieten auch Kurse an mit Lehrern, manche Leute lernen besser so.

Und dann die KI-Geschichte ist wirklich dieser eingebaute Assistent, wo du einfach sagst, ich habe das so und so gemacht oder ich will dieses Problem lösen. Bitte baue mir dafür den Workflow oder zeig mir grob, wie es geht.

Es gibt einen ganz interessanten Fakt. Also, wir sehen bei uns auf dem Forum, das sehr, sehr aktiv ist, haben wir in den letzten, ich sage mal, sechs Monaten, es gibt etwa 50% Einbruch von neuen Posts. Da haben wir uns natürlich erst mal gefragt, was zum Teufel ist hier los?

Dann haben wir uns die Posts ein bisschen genauer angeguckt und haben festgestellt, die einfachen Posts, so nach dem Motto, wie lese ich den Excel-File in KNIME ein, die schlagen nicht mehr auf auf dem Forum. Die schlagen aber bei CLAI auf, also bei unserem eingebauten Assistenten. Das heißt, viele Leute, gerade für die ersten Schritte, lernen das über die eingebauten Co-Piloten.

Wichtig ist halt, dass man nicht einfach sagt, ach toll, der hat mir da irgendwas gebaut, so ganz verstehe ich zwar nicht, was es tut, aber es ist alles recht so, gut, jetzt habe ich meine Datenprobleme gelöst, sondern dass man KI dazu verwendet, um zu lernen, was da passiert ist.

Und dann, wenn man das akzeptiert, dass für den Anfänger die KI-Integration nicht was ist, was die Arbeit für dich erledigt, sondern die dir ermöglicht, schneller zu lernen, wie man selber Daten bearbeitet, dann ist das, glaube ich, sehr erfolgsversprechend.

Da habe ich ein bisschen der Zweifel an der Faulheit der Leute, dass sie es eben nicht tun. Und dann haben wir ein Problem.

Sprecher: Du hast das alles sehr schön zusammengefasst. Das war fast wie ein Schlusswort. Wir müssen allerdings noch zwei Dinge sagen. Zum einen finde ich diese Hilfe und so weiter unter KNIME.com. Zum zweiten gibt es etwas, wo du von vornherein sagst, ihr müsst das mal ausprobieren, da wird es am schlüssigsten.

Michael Berthold: Ja, also wir sagen immer, wir müssen, wenn jemand KNIME gar nicht kennt, dann müssen wir so einen Zwei-Tage-Kurs mit jemandem machen, damit die einfach uns ein, zwei Probleme zusammen lösen, den Leuten beibringen, wie es funktioniert. Und nach zwei Tagen hat man üblicherweise verstanden, wie das Konzept funktioniert.

Und dann hat man vielleicht nur von den 4.000 Module oder sowas in KNIME, hat vielleicht nur 40 davon angefasst, aber hat dieses Gefühl dafür zu sagen, da müsste es doch eigentlich einen Knoten vergeben, um x, y, z zu tun und den finde ich dann auch.

Und um diese ersten zwei Tage irgendwie zu überbrücken, wir haben mittlerweile einen Playground, nennen wir das, auf der Webseite. Das heißt, man muss sich die KNIME Analytics Plattform gar nicht mehr herunterladen, sondern kann direkt online im Browser schon mal losspielen. Das hilft gewaltig.

Was ich machen würde allerdings in dem ersten Schritt, ist auf hub.knime.com mal ein bisschen rumzustöbern. Da liegen nämlich Zehntausende von Workflows rum von uns, von der Community, die alles mögliche lösen und da vielleicht irgendwas mal finden, was ein bisschen näher an deinen Interessen liegt.

Also keine Ahnung, mich interessiert Journal-Analyse, zack, finde ich ein paar Workflows, die das machen. Und dann versteht man das Konzept, wie das mit dem Workflow bauen eigentlich funktioniert, recht schnell.

Sprecher: Michael Berthold in Konstanz, herzlichen Dank. Ich habe viel gelernt in diesem Podcast. heise meets… KNIME, in diesem Fall. Wir wissen, dein Vorfahr war Biologe. Wir wissen, du fährst ein E-Auto. Und wir wissen, KNIME als Open-Source-Plattform kann in der Datenanalyse weit helfen, aber nicht alles übernehmen. Stimmst du mir zu?

Michael Berthold: Stimme ich dir zu.

Sprecher: Herzlichen Dank und ich freue mich auf eine baldige Fortsetzung dieses Podcasts bei „heise meets …" mit KNIME. Danke an dich, Matthias.

Das war „heise meets … – Der Entscheider-Talk". Sie wollen mehr erfahren? Dann besuchen Sie uns auf heise-meets.de. Wir freuen uns auf Sie.

Neuer Kommentar

Dein Name oder Pseudonym (wird öffentlich angezeigt)
Mindestens 10 Zeichen
Durch das Abschicken des Formulars stimmst du zu, dass der Wert unter "Name oder Pseudonym" gespeichert wird und öffentlich angezeigt werden kann. Wir speichern keine IP-Adressen oder andere personenbezogene Daten. Die Nutzung deines echten Namens ist freiwillig.