Kein Hype. Keine Ablehnung. Nur die Frage: Was kann es wirklich?
Ich nutze KI-Modelle seit einiger Zeit im Arbeitsalltag. Nicht weil es modern ist, sondern weil es Werkzeuge sind – und Werkzeuge prüft man. Was hilft, bleibt. Was nur Aufwand erzeugt, fliegt raus. Das gilt für einen Lötkolben genauso wie für ein Sprachmodell.
Diese Seite ist kein Vergleichstest im Magazinstil, keine Bestenliste und keine Kaufberatung. Sie ist eine fortlaufende, nüchterne Bestandsaufnahme dessen, was ich in der Praxis beobachte: wo KI-Werkzeuge echten Nutzen bringen, wo sie zuverlässig versagen, und was man wissen muss, um nicht von der Oberfläche getäuscht zu werden.
System Diagnostic
> KI_TOOLS EVALUATION FRAMEWORK
GETESTETChatGPT · Gemini · Grok · ClaudeKONTEXTWebentwicklung / HTML / Texte / Recherche / Code-ReviewEBENENfreie und bezahlte Zugänge im VergleichHALTUNGWerkzeug-Denken / kein Hype / eigenständige KontrolleSTANDlaufend aktualisiert – Modelle ändern sich, Bewertungen auch
Fehler werden eigenständig erkannt und korrigiert. Das Modell schreibt, der Mensch entscheidet.
[mindset/approach]
Grundhaltung: Werkzeug, nicht Autorität
Wer mit älterer Technik gearbeitet hat, lernt früh, dass ein System genau das tut, was es tut – nicht mehr und nicht weniger. Es hat Bugs, Grenzen, Eigenschaften und Fehlermuster. Diese Haltung hilft auch bei KI-Werkzeugen: Sie sind Systeme. Wer sie als Autorität behandelt, macht denselben Fehler wie jemand, der einer plausibel wirkenden Ausgabe mehr vertraut als dem eigenen Verständnis.
Das bedeutet konkret: Jede Ausgabe eines Sprachmodells ist ein Vorschlag, keine Tatsache. Auch wenn der Ton sicher klingt. Gerade wenn der Ton sicher klingt. Sprachmodelle sind nicht deshalb problematisch, weil sie manchmal falsch liegen. Problematisch sind sie dort, wo ein Fehler denselben Tonfall bekommt wie eine korrekte Aussage.
Daraus folgt eine einfache Arbeitsregel: Das Modell schreibt, ich entscheide. Ich korrigiere Fehler selbst. Ich überprüfe Fakten, die zählen. Ich verwende KI als beschleunigten ersten Entwurf, nicht als letztes Wort. Das ist keine besondere Vorsicht, sondern die einzig vernünftige Art, ein Werkzeug ohne eigene Fehleranzeige zu verwenden.
[Grundregel] KI-Werkzeuge im Alltag > Ausgabe ist immer: Vorschlag, nicht Ergebnis > Sicherer Ton bedeutet nicht: korrekte Information > Kontrolle bleibt beim Nutzer – nicht beim Modell > Nützlich wenn: beschleunigt ohne zu entmündigen
„Ein Werkzeug ohne Fehleranzeige braucht einen Nutzer, der Fehler erkennt.“
[technical/llm_basics]
Was LLMs wirklich tun – kurz und sachlich
Large Language Models – LLMs – sind keine Datenbanken, keine Suchmaschinen und keine denkenden Systeme. Sie sind Modelle, die auf der Grundlage sehr großer Textmengen trainiert wurden, das wahrscheinlichste nächste Token zu einer gegebenen Eingabe vorherzusagen. Das ist keine Vereinfachung, sondern der Kern.
Was dabei entsteht, ist bemerkenswert: Aus Wahrscheinlichkeitsverteilungen über Tokens ergibt sich Text, der kohärent klingt, Argumente aufbaut, Code schreibt, Zusammenhänge herstellt und Fragen beantwortet. Das funktioniert, weil Sprache selbst Struktur hat – und weil ein Modell, das diese Struktur gut gelernt hat, daraus brauchbare Ausgaben erzeugen kann.
Aber: Das Modell hat kein Weltwissen im Sinn einer verifizierten Datenbank. Es hat Muster – sehr viele, sehr gut generalisierte Muster. Wenn es eine Jahreszahl nennt, ruft es keine sicher gespeicherte Tatsache ab, sondern erzeugt den Token, der in diesem Kontext am wahrscheinlichsten ist. Das erklärt, warum Fakten manchmal stimmen und manchmal nicht.
Was LLMs gut können
Textkohärenz herstellen. Bekannte Strukturen reproduzieren. Paraphrasieren. Code in bekannten Mustern schreiben. Zusammenfassen. Übersetzen. Stil angleichen.
All das funktioniert dort gut, wo keine externe Verifikation gegen die Realität nötig ist.
Was LLMs strukturell nicht können
Selbst wissen, ob eine Aussage wahr ist. Aktuelle Ereignisse ohne Suche zuverlässig kennen. Eigene Unsicherheit konsistent sichtbar machen. Mehrstufige Berechnungen ohne Hilfsmittel sicher lösen.
Das sind keine Zufallsfehler, sondern Eigenschaften der Architektur.
Ein Training-Cutoff bedeutet: Das Modell weiß nichts von Ereignissen nach diesem Datum, sofern keine externe Suche angebunden ist. Für aktuelle Themen ist ein Sprachmodell ohne Suchzugang deshalb nur eingeschränkt brauchbar.
[tools/overview]
Die Werkzeuge im Einzelnen
Ich habe alle vier hier genannten Werkzeuge über längere Zeiträume im tatsächlichen Einsatz geprüft – nicht im Testlabor, sondern bei realer Arbeit: HTML-Seiten schreiben und prüfen, Texte formulieren, recherchieren, Code gegenlesen, redaktionell glätten. Die Einschätzungen sind subjektiv und zeitgebunden. Modelle entwickeln sich, Preismodelle ändern sich, Stärken und Schwächen verschieben sich.
ChatGPT
OpenAI · freie und bezahlte Zugänge
ChatGPT war für mich eines der ersten Werkzeuge dieser Klasse, das im Alltag wirklich nützlich wurde. Die Stärke liegt in der Vielseitigkeit: von einfacher Textbearbeitung bis zu komplexeren Struktur- und Code-Aufgaben deckt es ein breites Spektrum ab.
In HTML- und Webarbeit ist ChatGPT solide, aber nicht fehlerfrei. Bekannte Muster werden gut reproduziert. Bei sehr spezifischen Anforderungen – etwa ungewöhnlichen CSS-Konstruktionen, A11y-Details oder heiklen Randfällen – kommen Fehler vor, die oft selbstsicher präsentiert werden.
Praktisch nützlich ist es vor allem dann, wenn ein erster Entwurf, eine Umformulierung oder eine strukturierte Vorarbeit gebraucht wird. Für Fakten, aktuelle Themen oder rechtliche Aussagen gilt weiterhin: prüfen.
Allgemeine Texte: gutCode-Basics: gutFaktentreue: prüfenAktualität: nur mit Suche
Gemini
Google · freie und bezahlte Zugänge
Gemini hat einen natürlichen Vorteil bei allem, was aktuelle Informationen und Google-nahe Kontexte betrifft. Das macht es für Rechercheaufgaben interessanter als reine Offline-Modelle ohne Webzugang.
In der Textqualität wirkt Gemini auf mich oft glatter, teilweise auf Kosten der Schärfe. Für technische Fragen liefert es nicht selten allgemeinere Antworten, wo eine konkretere hilfreicher wäre. Das ist ein Arbeits-Eindruck, keine Messgröße.
Nützlich war Gemini für mich besonders dort, wo Aktualität zählt: neuere Dokumentationen, gegenwärtige Produktstände, Suchthemen. Für reine Textarbeit ohne Rechercheanteil ist der Unterschied kleiner.
Aktuelle Recherche: gutWeb-Nähe: starkTechnische Präzision: mittelTon: eher glatt
Grok
xAI · Grok über Web, Apps und X
Grok hat einen naheliegenden Vorteil bei allem, was im X-Umfeld direkt sichtbar und relevant ist. Für diesen Kontext kann das nützlich sein. Außerhalb davon ist der Vorteil deutlich kleiner.
In meiner Nutzung wirkt Grok stärker auf schnelle, pointierte Antworten optimiert als auf ruhige, präzise technische Arbeit. Für HTML-Review, nüchterne Textarbeit und strukturierte Feinarbeit war es in meiner Praxis weniger verlässlich als die anderen hier genannten Werkzeuge.
Das kann sich ändern. Zum Zeitpunkt dieser Einschätzung ist es für meine Arbeitsweise das am wenigsten genutzte Werkzeug aus dieser Gruppe.
Claude ist für mich besonders nützlich bei längeren, strukturierteren Aufgaben – vor allem bei HTML-Arbeit, redaktioneller Textbearbeitung und größeren Gesprächskontexten. Der praktische Vorteil liegt weniger in spektakulären Einzelantworten als in ruhiger Konsistenz über längere Strecken.
Für HTML-Seiten und wiederkehrende Muster hat sich Claude als brauchbar erwiesen, nicht weil es keine Fehler macht, sondern weil seine Fehlermuster für mich oft vorhersehbarer sind. Ein Werkzeug, dessen Fehler ich schneller erkenne, ist im Alltag nützlicher als eines, das unruhiger arbeitet.
Schwach bleibt alles, was aktuelle Fakten, lokale Informationen oder stark zeitabhängige Details erfordert, sofern keine Suchanbindung verfügbar ist. Für solche Aufgaben ist externe Prüfung notwendig.
Lange Kontexte: starkHTML / Strukturarbeit: gutKonsistenz: gutAktualität: begrenzt
[evaluation/strengths]
Wo KI tatsächlich hilft
Nach längerer Praxis hat sich ein klares Bild geformt, welche Aufgaben von KI-Werkzeugen tatsächlich profitieren und welche nicht. Das ist keine Theorie, sondern Ergebnis dessen, was im Alltag gehalten hat und was nicht.
[+] Ersten Entwurf beschleunigen
Das Starten eines Textes, einer HTML-Sektion oder eines Codeblocks kostet oft mehr Zeit als das Ausarbeiten. KI liefert schnell einen ersten Entwurf, der dann bearbeitet wird.
[+] Umformulieren und Varianten
Einen fertigen Text anders formulieren, kürzen oder in einem anderen Ton schreiben – das funktioniert gut und spart vor allem Reibung im Einstieg.
[+] Boilerplate-Code
Standardstrukturen, die man kennt, aber nicht jedes Mal neu tippen will: HTML-Grundgerüste, CSS-Blöcke, JSON-LD-Strukturen, kleine Hilfsskripte.
[+] Erklären und zusammenfassen
Komplexe Spezifikationen vereinfachen, lange Texte zusammenziehen, technische Sachverhalte in verständlichere Sprache übersetzen – hier sind LLMs strukturell stark.
[+] Code reviewen
Bekannte Muster in Code erkennen, Inkonsistenzen benennen, offensichtliche Fehler aufzeigen. Kein Ersatz für Testen, aber eine brauchbare erste Durchsicht.
[+] Übersetzungen
Für technische und sachliche Texte sind maschinelle Übersetzungen heute brauchbar. Für stark nuancierte oder stilistisch empfindliche Texte bleibt Kontrolle Pflicht.
Was diese Stärken verbindet: Sie alle profitieren davon, dass das Modell viele Muster kennt und schnell darauf zugreifen kann – und sie alle erfordern keine sichere Verifikation gegen die Außenwelt.
[evaluation/limits]
Systematische Grenzen
Es gibt Grenzen, die keine Bugs sind und auch mit einem besseren Modell nicht einfach verschwinden. Sie folgen direkt aus der Architektur. Wer sie kennt, arbeitet effizienter, weil er nicht versucht, von einem Werkzeug etwas zu verlangen, das es strukturell nicht liefern kann.
[-] Faktentreue
Sprachmodelle haben kein internes Wahrheitskriterium. Was wahrscheinlich klingt, wird ausgegeben – unabhängig davon, ob es stimmt.
Konsequenz: Jede Faktenaussage, die zählt, wird geprüft.
[-] Aktualität
Training-Cutoff bedeutet: Alles nach einem bestimmten Datum ist ohne Suche unbekannt. Das Modell kann diese Grenze selbst nicht immer sauber markieren.
Konsequenz: Für aktuelle Themen Suche oder externe Quelle.
Konsequenz: Rechnen selbst oder geeignete Tools nutzen.
[-] Lokales und Spezielles
Was selten im Netz vorkommt, ist oft schlecht im Modell vertreten. Lokale Informationen, Nischenthemen und selten dokumentierte Details sind besonders fehleranfällig.
Konsequenz: Je spezieller das Thema, desto sorgfältiger die Kontrolle.
[-] Konsistenz über Gespräche
Ohne persistentes Gedächtnis vergisst das Modell frühere Gesprächsteile, sobald der relevante Kontext nicht mehr aktiv im Fenster liegt.
Konsequenz: Wichtige Anforderungen bei langen Gesprächen wiederholen.
[-] Selbstkritik
Wenn man ein Modell fragt, ob seine eigene Ausgabe korrekt ist, neigt es zur Bestätigung. Eigene Fehler werden ohne konkreten Gegenhalt nicht zuverlässig erkannt.
Konsequenz: Prüfung durch den Nutzer, nicht durch das Modell selbst.
[problems/hallucination]
Halluzinationen – das zentrale Problem
„Halluzination“ ist der Begriff dafür, wenn ein Sprachmodell Dinge erfindet und dabei so klingt, als wäre es sicher. Nicht als offensichtlicher Ausfall, sondern als flüssige, grammatisch korrekte, semantisch kohärente Aussage, die schlicht falsch ist.
Das Tückische daran: Halluzinationen sind oft ohne externe Prüfung nicht erkennbar. Ein erfundener Buchtitel klingt wie ein echter. Eine falsche API-Funktion klingt plausibel. Eine falsche Jahreszahl klingt nicht anders als eine richtige.
Typische Muster, die ich beobachtet habe
Erfundene Quellen: Wird nach Belegen gefragt, erzeugt das Modell manchmal formal plausible Literaturangaben oder Links, die so nicht existieren.
Falsche technische Details: Registernamen, Bitnummern, Protokoll-Eigenschaften oder API-Parameter werden plausibel zusammengesetzt, ohne real korrekt zu sein.
Interpolierte Biographien: Bei weniger bekannten Personen oder Produkten werden Details ergänzt, die sich stimmig anhören, aber nicht belegt sind.
Code, der nicht läuft: Syntaktisch sauberer Code kann semantisch falsch sein oder auf Funktionen beruhen, die in der behaupteten Form nicht existieren.
[Halluzinationsrisiko] nach Aufgabentyp ; > NIEDRIG: Textumformulierung / Übersetzung / Strukturierung > MITTEL: Code in bekannten Mustern / allgemeine Fakten > HOCH: Spezifische Fakten / Quellen / seltene technische Details > SEHR HOCH: Lokale Informationen / aktuelle Ereignisse / Nischen
Meine praktische Konsequenz: Bei Aufgaben mit hohem Halluzinationsrisiko nutze ich KI nur für Entwürfe, die ich vollständig nachprüfe. Bei Aufgaben mit niedrigem Risiko – Textumformulierung, HTML-Strukturierung, bekannte Muster – ist die Kontrolle weniger aufwendig, aber nie ganz entbehrlich.
„Ein Modell, das sicher klingt, hat nicht recht. Es klingt nur sicher.“
[technical/context_window]
Kontext-Fenster und Gedächtnis
Das Kontext-Fenster ist der Bereich, den ein Sprachmodell während eines Gesprächs „sehen“ kann. Alles, was darin liegt – bisherige Nachrichten, Anweisungen, eingefügte Dokumente – ist für das Modell zugänglich. Was darüber hinausgeht, ist weg.
Große Kontext-Fenster klingen nach viel. In der Praxis bleibt aber: Auch innerhalb dieses Fensters werden neuere Inhalte oft stärker gewichtet als ältere. Anforderungen vom Anfang eines langen Gesprächs werden gegen Ende nicht immer gleich zuverlässig beachtet.
Kein persistentes Gedächtnis
Ohne explizites Gedächtnis-Feature beginnt jedes neue Gespräch bei null. Das Modell weiß nicht automatisch, was in einem anderen Gespräch besprochen wurde, welche Arbeitsweise man bevorzugt oder welche Regeln man letzte Woche gesetzt hat.
Für längere Projekte bedeutet das: Wichtige Anforderungen, Stilregeln und Einschränkungen müssen entweder am Anfang erneut genannt oder mitgegeben werden. Das ist keine Schwäche eines einzelnen Modells, sondern eine Eigenschaft des Systems.
[Kontext-Strategie] für wiederkehrende Aufgaben > Anforderungen explizit formulieren – nicht voraussetzen > Wichtige Regeln am Anfang des Gesprächs nennen > Bei langen Gesprächen: Zwischenfazit, was bisher gilt > Modell nicht als Archivar einsetzen – das ist Aufgabe des Nutzers
[technique/prompting]
Wie man fragt, macht den Unterschied
„Prompt-Engineering“ klingt manchmal nach dunkler Kunst. In Wirklichkeit ist es nur die Beobachtung, dass Formulierung, Kontext und Einschränkungen die Qualität der Antwort deutlich beeinflussen.
Was tatsächlich hilft
Kontext geben, nicht voraussetzen: Eine präzise Einordnung führt fast immer zu brauchbareren Antworten als ein kurzer Wunsch ohne Rahmen.
Negative Anforderungen nennen: „Keine Bulletpoints. Kein Werbeton. Kein Kürzen.“ Solche Ausschlüsse sind oft wichtiger als positive Wünsche.
Schrittweise arbeiten: Inhalt, Ton, Struktur und Format nicht unnötig in einen einzigen Befehl pressen.
Beispiele geben: Ein konkretes Muster ist für ein Sprachmodell fast immer besser als eine abstrakte Stilbeschreibung.
Ausgabeformat festlegen: HTML, Fließtext, genau ein Codeblock, keine Überschriften – wenn das wichtig ist, muss es gesagt werden.
Fehler direkt benennen: Präzise Korrektur spart Schleifen. Vage Kritik erzeugt neue Unschärfe.
Was ich nicht mache: Stundenlang Prompts optimieren für Aufgaben, die ich in derselben Zeit selbst erledigen könnte. Ein Werkzeug spart nur dann Zeit, wenn die Bedienung nicht mehr Aufwand erzeugt als die Aufgabe selbst.
[economics/tiers]
Kostenlos vs. bezahlt
Fast alle dieser Werkzeuge haben freie Einstiege und bezahlte Ausbaustufen. Ob ein Abo sinnvoll ist, hängt weniger vom Anbieter als vom eigenen Arbeitsfall ab.
Kostenlose Versionen reichen oft für gelegentliche Nutzung: kurze Texte, einfache Umformulierungen, erste Tests. Wer häufiger arbeitet, längere Kontexte braucht oder mit erweiterten Funktionen prüfen will, stößt dort schnell an Grenzen.
Ein bezahlter Test ist dann sinnvoll, wenn man ein Werkzeug wirklich einschätzen will. Die freie Version zeigt oft nicht das volle Bild: weniger Leistung, niedrigere Limits, weniger Funktionen. Wer ernsthaft beurteilen will, ob ein Werkzeug im Alltag trägt, braucht einige Wochen unter realen Bedingungen.
In der Praxis ist der Unterschied zwischen freiem und bezahltem Zugang desselben Anbieters oft größer als der Unterschied zwischen zwei bezahlten Angeboten verschiedener Anbieter.
[practical/webdevelopment]
KI in der Webentwicklung: konkret
Was ich tatsächlich einsetze und was nicht – aus dem Alltag bei HTML-, Text- und Strukturarbeit.
Was gut funktioniert
HTML-Struktur erzeugen: Für neue Unterseiten nach bekanntem Muster ist ein erster Entwurf oft sinnvoll. Nicht direkt fertig, aber deutlich schneller als leer anfangen.
Code-Review: Inkonsistenzen, doppelte IDs, offensichtliche Fehler, fehlende Kleinigkeiten – eine erste Durchsicht lässt sich gut beschleunigen.
JSON-LD-Struktur: Schema.org-Markup ist gut genug dokumentiert, um schnell brauchbare Entwürfe erzeugen zu lassen.
Texte umformulieren: Sachliche Beschreibung in verständlichere Sprache bringen – oder umgekehrt in einen nüchternen Stil ziehen – funktioniert zuverlässig.
Reguläre Ausdrücke und kleine Hilfsskripte: Für klar definierte Einmalaufgaben spart das Zeit.
Was ich nicht blind einsetze
Rechtliche oder datenschutzbezogene Texte ohne anschließende eigene Prüfung.
Barrierefreiheit ohne Nachkontrolle. Vorschläge sind hilfreich, aber kein Beweis.
Performance-Aussagen ohne Messung. Schnell ist nur, was gemessen schneller ist.
Sicherheitsrelevante Konfigurationen ohne eigenes Verständnis.
[Workflow] typischer Einsatz bei einer neuen Unterseite > 1. Muster-Seite als Kontext geben + Anforderungen formulieren > 2. Ersten Entwurf erzeugen lassen > 3. Inhaltlich überarbeiten – Fakten, Ton, Struktur > 4. Technisch prüfen – HTML, ARIA, Links, Konsistenz > 5. Im Browser testen – kein Ersatz für Augenschein > KI ist Schritt 2, nicht Schritt 3–5
Die grundsätzliche technische Haltung dahinter beschreibt auch philosophy.htm. Dort geht es weniger um einzelne Werkzeuge als um die Frage, warum technische Entscheidungen überhaupt so getroffen werden.
[conclusion/summary]
Fazit: Was bleibt
Nach allem, was ich bisher beobachtet habe, ist mein Eindruck weder Begeisterung noch Ablehnung, sondern Einordnung. KI-Werkzeuge sind brauchbar. Sie beschleunigen bestimmte Aufgaben deutlich. Sie haben reale, systematische Grenzen. Beides gleichzeitig zu sehen ist die einzig sinnvolle Haltung.
Was mich an der öffentlichen Diskussion stört, ist die Tendenz, diese Werkzeuge entweder als Revolution zu feiern oder pauschal zu verwerfen. Beides hilft nicht weiter. Ein Werkzeug ist gut, wenn es in konkreten Situationen nützt – und es nützt nur dort, wo man es kontrolliert einsetzt und seine Grenzen kennt.
Das eigentliche Problem ist nicht, dass Fehler passieren. Das eigentliche Problem ist, dass Fehler oft wie Erfolge aussehen. Dagegen hilft nur eines: eigenes Sachverständnis. Wer ein Werkzeug einsetzt, das er nicht prüfen kann, gibt Kontrolle ab.
[Fazit] KI-Werkzeuge – Stand der Dinge > Nützlich: Beschleunigung bekannter Aufgaben > Nützlich: Erster Entwurf, Umformulierung, Strukturierung > Limit: Keine interne Faktenkontrolle > Limit: Kein Ersatz für Domänenwissen > Limit: Aktualität nur mit Suche > Fazit: brauchbare Werkzeuge mit bekannten Eigenschaften > Haltung: Kontrolle bleibt beim Nutzer – immer
Diese Seite wird aktualisiert, wenn sich etwas Wesentliches ändert. Modelle entwickeln sich schnell, und was heute gilt, gilt später vielleicht nicht mehr. Das ist kein Grund, keine Einschätzung zu formulieren – sondern ein Grund, sie offen zu halten.
„Ein Werkzeug, das ich nicht prüfen kann, ist kein Werkzeug – es ist ein Risiko.“
Rechtliche Hinweise
Diese Seite liegt im eigenständigen sslxy-Bereich der Domain. Inhaltlich behandelt sie praktische Erfahrungen mit KI-Werkzeugen, Sprachmodellen, Textarbeit, Code-Assistenz und technischer Werkzeugbewertung.
Genannte Produktnamen, Anbieter und technische Begriffe dienen der sachlichen technischen und persönlichen Einordnung. Es handelt sich nicht um Werbung, Kaufberatung oder eine Anbieterempfehlung.
Verantwortlich für die Domain ist der Betreiber der Hauptpräsenz. Detaillierte Angaben zum Verantwortlichen sowie Informationen zum Datenschutz stehen auf den offiziellen Hauptseiten der Domain.
Auch diese Unterseite ist als rein informative, statische HTML-Seite konzipiert. Es werden keine Tracker, keine Analyse-Tools und keine zustimmungspflichtigen Cookies eingesetzt.
Statische Seite. Schlanke Struktur. Kein unnötiger Überbau.