Max von Webel

343max@mastodon.social

ⓘ 𝘛𝘩𝘪𝘴 𝘶𝘴𝘦𝘳 𝘪𝘴 𝘴𝘶𝘴𝘱𝘦𝘤𝘵𝘦𝘥 𝘰𝘧 𝘣𝘦𝘪𝘯𝘨 𝘱𝘢𝘳𝘵 𝘰𝘧 𝘢 𝘵𝘦𝘳𝘳𝘰𝘳𝘪𝘴𝘵 𝘰𝘳𝘨𝘢𝘯𝘪𝘻𝘢𝘵𝘪𝘰𝘯 𝘤𝘢𝘭𝘭𝘦𝘥 𝘈𝘯𝘵𝘪𝘧𝘢. 𝘗𝘭𝘦𝘢𝘴𝘦 𝘳𝘦𝘱𝘰𝘳𝘵 𝘢𝘯𝘺 𝘴𝘶𝘴𝘱𝘪𝘤𝘪𝘰𝘶𝘴 𝘣𝘦𝘩𝘢𝘷𝘪𝘰𝘳 𝘵𝘰 𝘺𝘰𝘶𝘳 𝘮𝘢𝘴𝘵𝘰𝘥𝘰𝘯 𝘢𝘥𝘮𝘪𝘯𝘪𝘴𝘵𝘳𝘢𝘵𝘰𝘳.

Berlin, Dad, zu wenig Kaffee.

ActivityPub

mastodon - Link zum Originalbeitrag

Max von Webel

1 Woche her

Max von Webel
1 Woche her

Sehr schöner ChatGPT Takedown an einem sehr simplen aber extrem lustigen Beispiel mindmatters.ai/2025/08/chatgpt…

ChatGPT-5 Tries Out “Rotated” Tic-Tac-Toe. You Be the Judge…

It’s no mystery why LLMs aren’t intelligent in any meaningful way. The real mystery is why so many otherwise intelligent people still take the claims seriously.

^{Gary Smith (Mind Matters)}

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Ja das ist hübsch. Funktioniert aber nicht mehr mit ChatGPt 5.2

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Well.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Welche Version ist das?

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

peksor 🔸

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Ach Jungs, vielleicht solltet ihr mal wieder eine gemeinsame @freakshow machen... 😂

@Ralf Stockmann @Freak Show

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

@rstockm Abgesehen davon, dass ich so eine „aber dieses 0.0.1 Update ändert alles“ Argumentstion sehr dünn finde. ChatGPT 5.2 ist kaum mehr als ein marketing Update über 5.0, es ändert nichts daran wie diese Modelle funktionieren und ändern somit auch nichts an der fundamentalen Kritik selbst wenn die neue Version bei dem konkreten Beispiel vielleicht marginal besser abschneidet.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Na ja, es ist aber halt andersrum: dieses „Beispiel" funktioniert bei exakt KEINEM der aktuellen Flagship-Modelle. Getestet: Mistral (lokal!), Gemini 3 Pro, ChatGPT 5.2, Claude Sonnet 4.5.
Keines fällt darauf rein, die Antwort von Gemini mal als hübsches Beispiel.
Und so läuft das seit 2 Jahren:

10 „haha, schaut was die GPTs alles nicht können"
20 ich setze mich 1 Minute dran und exakt das funktioniert in allen neuen Modellen
30 goto 10

🤷🏻‍♂️

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Und es gibt gute Gründe, viel auf Altman einzuprügeln, aber sein Argument finde ich so unschlüsig nicht, ich spitze mal zu:
"hätten wir vor 5 Jahren einer Definition von AGI zugestimmt: der Computer darf nicht _mehr_ Fehler machen bei Wissen, Kommunikation und Strategie als ein(e) durschnittliche Erdenbürger:in mit IQ von genau 100“.
Ich zumindest hätte da wohlwollend genickt. Das Problem ist, dass AGI ständig mit ASI verwechselt wird. AGI muss perfekt sein, Menschen aber nicht?

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Hätten wir vor 5 Jahren wirklich gesagt, dass wir AGI erreicht haben wenn die Computer schlechter sind als “nur” 50% der Menschheit? Irgendwie erscheint mir das abwegig. (1/3)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Ich würde vermuten, dass die Definition “Artificial general intelligence (AGI)—sometimes called human‑level AI—is a hypothetical type of artificial intelligence that would match or surpass human capabilities across virtually all cognitive tasks.” die ich eben aus der Wikipedia kopiert habe auch schon damals die allgemein akzeptierte war. (2/3)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Außerdem wird für AGI zwingend Lernfähigkeit vorausgesetzt, was einfach keine LLM hat. Selbst wenn LLMs (big wenn) an die Intelligenz eines durchschnittlichen Menschen herankommen würde und selbst wenn (noch ein big wenn) das angeblich mal die definition für AGI war ist eine LLM nicht lernfähig. (3/3)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Ich würde sagen das ist falsch aus drei Gründen:
a) LLMs lernen derzeit stündlich, nur aufgrund der einzusetzenden Ressourcen zentralisiert (neue Versionen). Ich halte es für realistisch, dass wir in 5 bis max. 10 Jahren lokal eigene LLMs trainieren (anlernen) können.
b) LORAs sind schon jetzt de fakto „Anlernenungen“ von LLM (innerhalb bestimmter Grenzen, ja)
c) wenn das Kontext-Fenster nur groß genug ist/wird (siehe Ressourcen) kann ein „Lernchat" problemlos mitlaufen

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm a) ist nicht lernen sondern jemand sitzt da und baut ein neues Modell. Das macht keine LLM der Welt allein, da sitzen Menschen dran die das aktiv trainieren
b) lernen ist nicht “jemand kippt Informationen rein”. Da wird nichts gelernt, da werden neue Informationen reingekippt… (1/2)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

c) aber das Kontext-Fenster ist halt nach wie vor winzig wie jeder der schon mal eine Claude Code Session zu lange hat laufen lassen leicht bestätigen kann und da es meines Wissens nichts fundamental neues zu Context Window Größen gibt bezweifle ich auch, dass sich daran was nennenswert ändern wird. Abgesehen davon, dass mehr Informationen im “Kurzzeitgedächtnis” halten nicht lernen ist. (2/2)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Kontext Fenster ist winzig - nun ja schauen wir doch mal:

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Das sind pure Marketingzahlen die nichts mit der Realität zu tun haben. Du weisst genauso gut wie ich, dass jede LLM lange vor Füllen des Context Windows merklich dümmer und vergesslicher wird. Warum sonst wohl sollte in deiner Tabelle das Context Window von Gemini 3 Prodeutlich kleiner sein als das von Gemini 1.5 pro Update?

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Ich sehe in meiner Coding Realität, dass Kontext seit ca. Sommer in der Cursor-IDE kein reales Problem mehr ist. Ich habe dort den kompletten Ultraschall-Code drin, und da ist mal wirklich VIEL Spagetti-Code dabei. Ein aktuelles Modell wie Composer 1 oder Gemini 3 Pro steigt da gut durch, besser als jeder von uns Kern-DEVs.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

OmniJan

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm ich fürchte, dass wir da sowohl an semantische als auch ein menschliche Probleme stoßen: jeder lädt die Begriffe Intelligenz und lernen mit dem auf, was er sich gerade darunter vorstellt.

Und dadurch diskutiert jeder in seiner eigenen Welt. Ihr habt ja beide nachvollziehbare Punkte, wenn man sie nur aus eurer Perspektive heraus betrachtet.
1/2

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Aber ich habe dir doch eben einen Screenshot geschickt wie das aktuelle ChatGPT genau darauf reinfällt.

Für mich ist es exakt andersrum wie du beschreibst. Seit Jahren:

10 du und andere AI believer: “ja, noch vor ein paar Wochen war das Modell noch strunzdumm, aber heute können sie exakt dieses eine Beispiel lösen, darum sind sie perfekt”
20 jemand findet ein neues Beispiel wie ein "Flagship-Model" haarstäubend dumme weise auf die Fresse fällt… (1/2)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

30 die AI Firmen bringen neue Modelle raus die auf exakt diesen Fall nicht mehr reinfallen
40 goto 10

le sigh

Wir haben exakt die selbe Diskussion schon diverse Male geführt. Was bringt dich auf die Idee das ChatGPT 5.2.4 Code Red Edition dieses mal aber wirklich all die Versprechen einlöst, die all die anderen Versionen nicht einlösen konnten? (2/2)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Ich rede nicht von ChatGPT sondern generell von den rechts unten Modellen, auch der anderen Hersteller. Bei deinen Screenshot kann ich nicht sehen, welches das ist. Das mit Abstand beste Besispiel das du bisher hattest war das Zahlenraten-Spiel, weil es so hübsch die Schwäche von LLM (will alles könne) mit den Limitierungen (unfähig, eigene Grenzen zu erkennen) exploited hat. 1/2

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Aber auch dort habe ich in 20 Minuten einen Weg gefunden (dank KI) um dieses Spiel auf beliebigen LLMs zu 100% perfect „ready to ship“ laufen zu lassen.
Und darum geht es mir: mir gehen wirklich die Szenarien aus, wo LLMs mit etwas Tuning, RAG Modellen etc. _nicht_ zu "ready to ship" zu bringen sind. Da ist mir dann AGI ziemlich egal.
Gemini 3 Pro kann meine Handschrift lesen, und zwar perfekt. das schaffen 99% der Menschen um mich herum nicht - was für eine Basis für Automatisierung!

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Das Beispiel mit dem Zahlenratespiel gilt exakt so noch heute. Das eine LLM so ein Zahlenratespiel in Software gießen kann war nicht die Aufgabe, das ist trivial für eine LLM weil es dafür Millionen Codebeispiele gibt. “Ja, es kann das nicht aber dafür kann es was anderes” ist keine Lösung des Originalproblems.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Oh das war ohne Software, nur über einen Prompt.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Bitte schön:

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Exakt. Du lässt die AI ein anderes Problem lösen als das was ich ihr gegeben hatte. Was ist damit bewiesen außer das es andere Probleme möglicherweise lösen kann. (Ich bezweifle übrigens nach wie vor, dass dein Beispiel besser funktioniert als meins, du hast es einfach nur viel komplexer gemacht, was es mühseliger macht die Schwächen zu finden. Abgesehen davon, dass es ein komplett anderer Prompt ist)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Das ist mir als Produktmanager aber doch völlig egal. Es ist "ready to ship“, das zählt. Und es kann ja ausprobiert werden - funktioniert wunderbar und 100% zuverlässig.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Aber MIR ist es nicht egal. MIR ist es schon wichtig, dass eine AI ein sehr einfaches Problem das jeder Mensch problemlos lösen kann von dem die AI behauptet es lösen zu können dann auch lösen kann. Ich habe dieses Beispiel gewählt, weil es sehr anschaulich macht, wie die AI es einfach per Design nicht kann.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

@rstockm Du sagt “aber es kann ein komplett anderes Problem lösen und das reicht mir”. Okay. Aber stimmst du mir zu, dass es das eigentliche von mir beschriebene Problem nach wie vor nicht lösen kann?

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Ich glaube in der Sache sind wir gar nicht weit auseinander, wir haben nur sehr unterschiedliche Perspektiven auf die Grundfrage. These:
1)
Ralf: zentral ist, dass ein Problem verlässlich mit LLM gelöst werden kann. Egal wie der Weg ist.
Max: zentral ist: dass auch der komplette Weg vom LLM perfekt gegangen wird ohne Begleitung
2)
Ralf: nutzt ausschließlich die besten für Geld verfügbaren Modelle, ignoriert den Rest
Max: nutzt was gerade da ist, auch die freien Versionen

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

OmniJan

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm
„ verlässlich“ ist ein gefährlicher Begriff. Verlässlich ist bei der Technologie nämlich sehr wenig.

Häufig kommt etwas raus, dass dement spricht, was man sich erhoffen würde, aber eben nicht immer und nicht vorhersehbar. Und genau das ist das Problem, weil das falsche genauso korrekt aussieht, wie das richtige.

Das macht diese Technologie so schwer einsetzbar

@Ralf Stockmann

Als Antwort auf OmniJan

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf OmniJan 1 Woche her

@OmniJan Wenn man weiß was man tut ist es problemlos möglich, LLMs verifizierbar „verlässlich" im vielen (nicht allen!) produktiven Kontexten einzusetzen. Ich habe für ein Hobby-Projekt 2 Schichten LLM mit einem RAG gekoppelt und das Ergebnis ist gleichermaßen erstaunlich wie perfekt. Man muss aber halt MACHEN und ausprobieren und lernen (sic).

@OmniJan

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

OmniJan

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm es funktioniert aber ausschließlich in Kontexten, die man selber absolut beherrscht und bei denen man erkennt, wo das System bricht.

Ich benutze es selbst regelmäßig in meinem Arbeitsumfeld. Und aus gutem Grund nutze ich es ausschließlich dann, wenn ich es selber schon weiß und nur etwas Zeit sparen möchte.

Es wird dann gefährlich, wenn irgendjemand, der den Kontext nicht ohnehin schon zu 100 % beherrscht denkt, dass es schon richtig sein wird

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

2) würde ich hier nicht unterschätzen. Das fällt für mich in den Bereich „die Zukunft ist schon längst da, sie ist nur sehr ungleich verteilt“ (William Gibson)

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Nicht mal OpenAI behauptet in ihrem Upsell-Material, das die Modelle plötzlich besser werden, sobald man für ChatGPT bezahlt.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Hm?

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Welche halbwegs komplexen Probleme können LLMs denn verlässlich (also: selbständig ohne Kontrolle in sagen wir mal 99,9% der Fälle korrekt) lösen? (1/2)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Frisch auf der Arbeit getestet: die Überführung eines 3 x 2 Meter Whiteboards, gefüllt mit etwa 100 Post-IT Zetteln geschrieben von 8 verschiedenen Personen.
Ein normales iPhone-Bild davon überführt die LLM in eine Markdown-Datei und clustert dann noch sinnvoll. Ich hätte das bis vor 1 Monat für technisch völlig unmöglich gehalten, Gemini 3 Pro macht das tiefenentspannt. Das ist ein totaler Game-Changer für unsere Strategiearbeit.
Rückwärts geht auch: Whiteboard aus 5-Seiten PDF

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Das ist die nächste eingebrochene Mauer: "LLMs können keine Schrift - weder lesen, noch zeichnen“.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Wer hat wann gesagt das AI keine Schrifterkennung kann? Nach meinem Wissen ist die Erkennnung von Handschrift eines der ersten Probleme überhaupt das sehr erfolgreich mit AI gelöst wurde. Ich habe mal so 2017 ein AI Tutorial gemacht, das ging um die Erkenunng von ZIP Code und eine AI auf einem Laptop auf eine 99,99% Treffsicherheit bei der Erkennung von ZIP Codes zu trainieren war schon damals ein simples Anfängerproblem.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Spezialisierte AI vielleicht - aber ich kann mit Sicherheit sagen, dass kein LLM vor Gemini 3 Pro in der Lage war, meine Handschrift auch nur zu 30% exakt zu erkennen.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

dasdom

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Wenn auch 99% deine Mitmenschen, wie du schreibst, daran scheitern, liegt das vielleicht nicht nur an den vorherigen LLMs. ;)

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

@rstockm Und: was soll ich mit diesem Bild? Ich weiß nicht was auf den Post Its stand. Ich weiß nicht, welche Themen ihr da wirklich aufgeschrieben habt. Ich kann nicht prüfen, welche Themen die AI vergessen hat. Ich kann nicht prüfen, was sie dazu erfunden hat. Ich sehe eine Tafel im typischen AI generierten 0815 Look mit für mich sehr generischen Inhalten.

Was mir auffällt: Befähigung schreibt man mit “ä" und nicht mit einem a mit Häkchen drüber.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Das ist nicht von dem Whiteboard sondern aus meinem 5-Seiten Strategie-PDF Fließtext generiert. Und das muss du mir jetzt halt mal glauben: das ist schlicht perfekt. Absolut nichts hinzu erfunden. Alles Relevante berücksichtigt. Da hätte ich sonst jemanden ca. 3h dran gesetzt.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm "current models have almost 100% success rate on tasks taking humans less than 4 minutes, but succeed <10% of the time on tasks taking more than around 4 hours"

Einen 3h-Task würde ich eher keinem LLM geben.

metr.org/blog/2025-03-19-measu…

Measuring AI Ability to Complete Long Tasks

^{METR (metr.org)}

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

hub

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm weil es ein ähnlicher use-case ist: als PM Kunden/Stakeholder Interview transkribieren (1) und (2) Inhalte / Follow-ups zusammenfassen & strukturieren zu lassen. Geht innerhalb von Sekunden, vorher 1:1 Nachbereitungsaufwand. Allerdings braucht es hier auch keine 99.9%, weil ich dabei war und ggf. Ergänzen kann.

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Und was ist denn das Problem das es zuverlässig lösen kann? Du meinst, das es Post Its zuverlässig in Text umsetzen kann?

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Max, es sind 2 verschiedene use-Cases die ich beschrieben habe.

1) Nachbereitung eines typischen Strategie-Workshops - Entwicklung eines Strategiepapers aus einem Brainstorming-Termin. Machen wir täglich.
2) Visualisierung einer Strategie, die bisher nur als Text vorliegt.

Beides für uns von extremen Wert, und es ist ok wenn so was in _deiner_ Welt keine Rolle spielt aber: für weite Teile des mittleren Managements weltweit ist das ein Gamechanger.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Und wie hast du sichergestellt, dass das tatsächlich dem entspricht was ihr entschieden habt? Wie stellst du sicher, dass da kein Post It vergessen wurde? Wie stellst du sicher, dass die Visualisierung dem entspricht was ihr entschieden habt? Es genau ist die Aufgabe die die AI hier so toll und zuverlässig gelöst hat?

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Wollt ihr euch nicht mal zu einem Podcast zusammensetzen?

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix been there, done that 🙃
Das ist hier auch gerade eher so ein - Ritual.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Ja, ist es. Es ist eine müßige Diskussion. „Welche Probleme kann eine LLM denn zuverlässig lösen?“ „Voll viele!“ „Konkrete Beispiele bitte“ „hier ein Screenshot von einem AI-Slop-Bild das die AI generiert hat“

@Ralf Stockmann @LB

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf LB 1 Woche her

@lbenedix @rstockm Das ist auch müßig, weil Ralf dem eigentlichen Thema immer wieder ausweicht. Hier: ChatGPT 5.0 produziert plausibel klingenden Quatsch und fällt dabei wunderschön auf die Fresse. Damit setzt er sich nicht auseinander sondern produziert nur einen Strohmann nach dem anderen. (1/2)

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Die prinzipiellen Schwächen dieser Systeme ignoriert er oder erzählt mir das wenn ich nur wohlhabender wäre und 200€/Monat Abos hätte alles total toll wäre (kann ich halt nicht überprüfen und scheint mir auch nicht glaubhaft) (2/2)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Du musst ja auch gar nicht „glauben“ sondern ich sage halt „wirf mal rüber, dann sehen wir was Stand der Technik ist“.
Ich bin doch der, der durch die Gehend läuft und sagt „wie kostenlosen Modelle sind Mist und nicht geeignet, die Grenzen von LLMs zu diskutieren“.
Für eigene Experimente empfehle ich immer openrouter.ai da braucht es keine 200 sondern vielleicht 5€ im Monat und man weiß was Phase ist.

OpenRouter

A router for LLMs and other AI models

^OpenRouter

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

ron

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Ich hab festgestellt, bei OpenRouter sind die Chats nach dem Ausloggen weg. Nutzt du/ihr für berufliches dann ein OpenWebUI davor, in dem man dann u.a. thematisch gruppieren kann?
Oder nutzt du hauptsächlich ChatGPT, der bringt das ja von Haus aus mit?

@Ralf Stockmann

Als Antwort auf ron

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf ron 1 Woche her

@ron OpenRouter nehme ich a) für Experimente von Frontier-Modellen, da brauche ich keine Historie und b) als API-Endpoint wenn ich ein LLM in einer meiner Apps brauche.
Für alles andere habe ich Cursor (Vibe-Coding), Standard ChatGPT (Standardkram) und eine lokale Mistral 14b Instanz mit ML Studio davor.
Also recht diversifiziert.

@ron

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Max von Webel 1 Woche her

Das Schöne ist ja, dass es Forschung gibt und die ist bisher ziemlich eindeutig. Man fühlt sich als Softwareentwickler mit LLM-"Unterstützung " deutlich produktiver als man tatsächlich ist.

METR

^METR

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Vorhersagen darüber, was in 10 Jahren ist, sind in der AI Welt bestimmt zuverlässig.

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Genau darum extra poliert diese Studie ja den Trend der letzten zehn Jahre. Aber klar, aus einem uns leider noch nicht bekannten Grund ist genau jetzt der Zeitpunkt erreicht, wo dieses exponentielle Wachstum schlagartig stoppen wird.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm 2020 ist nicht ganz 10 Jahre her. Und ja, ich habe das Gefühl, dass es in den letzten 1-2 Jahren eher eine Stagnation gibt

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Also zumindest um den nächsten Datenpunkt mache ich mir keine Sorgen – Claude Sonet 4.5 ist dramatisch besser als hier das letzte 3.7

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Bisher hat mich noch kein LLM für die Softwareentwicklung überzeugt. Ja, die kotzen schnell einen Prototypen raus, aber sobald die echte Welt damit in Verbindung kommt, explodiert alles.

Für kleine Nischenprobleme kann es vielleicht was taugen, aber da sind spezielle Lösungen sicher besser als LLMs.

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Tja, so unterschiedlich sind die Einschätzung. Ich habe in 2025 sechs Projekte publiziert, keines von denen hätte ich ohne LLM auch nur begonnen.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Kommt sicher immer auf die Komplexität des Projektes an. Kannst du die Projekte verlinken?

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Alles hier aus den letzten 2 Jahren dazu zwei nicht öffentliche die noch komplexer sind:

github.com/rstockm?tab=reposit…

Es kommt halt auch darauf an ob man die LLMs beim Coden als Gegner sieht den man aufs Kreuz legen möchte oder als endlos geduldig motivierten Junior DEV den man ins eigene Projekt einarbeitet.

rstockm - Repositories

Universalamateur. Gründer von ultraschall.fm, sendegate.de, Mastowall und Mastothread. , beruflich Bibliotheks-IT. Crewmitglied im freakshow.fm Podcast - rstockm

^GitHub

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm ich sehe das LLM als Junior-Dev, der leider sehr überzeugt davon ist, dass er die Weisheit mit Löffeln gefressen hat.

Würde bei mir nicht durch die Probezeit kommen.

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Ein junior Dev den man ins eigene Projekt einarbeitet lernt dazu, eine LLM nicht. Wo ist denn in diesen ganzen Projekten mal ein gutes dabei, wo du ein größeres Feature geoneshottet hast? Hast du ein Beispiel für einen Prompt, der mir ein größeres Feature baut?

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Max von Webel 1 Woche her

@rstockm Bei der Beurteilung, ob ein LLM gute Arbeit macht, spielen viele psychologische Verzerrungen mit. Es fängt schon damit an, dass man selbst etwas tut, also einen Prompt formuliert und dann passiert etwas. Das ist natürlich toll.

Aber ja, es gibt glaub ich kein erfolgreiches Open Source Projekt, bei dem der überwiegende Anteil der Contributions von LLMs kommt. Oder?

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Schön, dass ihr euch einig seid, dass meine Apps alle unterkomplex sind. Was ich sagen kann:
1) ich habe keine Zeile davon selbst geschrieben
2) keines der Projekte hätte ich angefangen ohne LLMs (ich kann kein JavaScript)
3) die Oneshot Quote ist mit den Monaten kontinuierlich gestiegen, bei Testabend fast alles bis auf mobil CSS
4) Einigen der Tools würde ich doch gesellschaftlichen Nutzen zuschreiben wie Mastowall, Mastotags oder Fedipol.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Na dann nenne doch mal ein konkretes Beispiel. “In Projekt X hat die LLM mit folgendem Prompt folgendes komplexeres Feature eingebaut…” Was soll ich denn so damit anfangen?

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Uckermark MacGyver

Als Antwort auf Max von Webel 1 Woche her

@rstockm @lbenedix Aber bei komplexen Projekten arbeitet man doch nicht mit dem EINEN prompt. Man führt eine Unterhaltung mit dem LLM, beschreibt seine Ideen, das LLM fragt nach, schreibt die Specs auf , macht Designvorschlaege etc. und am Ende schreibt es auch noch den Code. Das ist durchaus ein iterativer Prozess. Das funktioniert nach meiner Erfahrung ziemlich gut. In diesem Prozess muss das LLM aber nichts Neues lernen. Nur vorhandenes "Wissen" über Software richtig anwenden. Und das können die Dinger ziemlich gut.

@Ralf Stockmann @LB

Als Antwort auf Uckermark MacGyver

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Uckermark MacGyver 1 Woche her

@maxheadroom @lbenedix Ich habe mal etwas gekramt in der Historie des „Testabend" Projektes, das hier wäre ein Beispiel:

„Ok ich möchte einen neuen Featurebereich starten, und zwar einen integrierten LLM Chatbot. Erstelle dazu zunächst im Header einen neuen Eintrag "Testteam" und eine Seite, auf der eine gängige Chat-GUI zu sehen ist. Im nächsten Schritt binden wir meine OpenRouter Instanz an.“
1/2

@Uckermark MacGyver @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

@maxheadroom @lbenedix Das Ergebnis war eine perfekte Chat-GUI, in der Navigation der App reingehängt und bereits das Framework für OpenRouter integriert, ich musste nur noch das Remote-LLM aus Vorschlägen auswählen und meinen API Key hinterlegen.
1 Tag Arbeit in 40 Sekunden, Oneshot.
So geht das dann Feature um Feature.
2/2

@Uckermark MacGyver @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

@maxheadroom @lbenedix Das ist der Code:

github.com/rstockm/testabend/b…

Da habe ich dann später das RAG Modell des Projektes angebunden sowie einen umfangreichen Meta-Prompt, destilliert aus der KI-Analyse eines 1h Audio Interviews mit einem Prof.

testabend/public/js/chat.js at main · rstockm/testabend

Testabend - Dashboard für Album-Bewertungen mit interaktiven Charts und RAG-Chatbot - rstockm/testabend

^GitHub

@Uckermark MacGyver @LB

Als Antwort auf Uckermark MacGyver

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Uckermark MacGyver 1 Woche her

@maxheadroom @rstockm @lbenedix Ja, so nutze ich coding Assistants. So wie ich diese Tools nutze haue ich einen Prompt rein, schaue mir ein paar Sekunden oder Minuten später das Ergebnis an, werfe es weg, fixe es oder akzeptiere es.

Aber in diesem Strang ging es ja genau darum wie Ralf verlässlich Probleme von einer AI lösen lässt, also sie Code schreibt, Tests schreibt, Bugs fixt etc ohne das man ihr dabei ständig die Hand halten und neue Anweisungen geben muss.

@Uckermark MacGyver @Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Uckermark MacGyver

Als Antwort auf Max von Webel 1 Woche her

@rstockm @lbenedix Ich denke das würde gehen, wenn Du Spezifikationen im vornherein genau weißt und dem LLM sehr präzise Anweisungen gibst und es dann machen lässt. Ggf. braucht es Agenten die sich gegenseitig überwachen.

Aber genau das gleiche Problem hast du ja mit menschlichen Entwicklern auch. Am Anfang steht erstmal eine Produktidee und die musst entwickeln. Die wirfst du ja dem Entwickler auch nicht einfach hin und nach ein paar Stunden oder Tagen kommt es genau so raus wie du es dir vorgestellt hast.

@Ralf Stockmann @LB

Als Antwort auf Uckermark MacGyver

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Uckermark MacGyver 1 Woche her

@maxheadroom @rstockm @lbenedix Nach meiner Erfahrung geht das nicht wirklich, weil die LLM sich dann meistens irgendwann auf die Fresse packt oder der Kontext vollläuft und sie anfängt Amok zu laufen.

Außerdem klingt das für mich extrem nach Wasserfall.

Mit den menschlichen Entwicklern könnte man schnell iterieren, vielleicht sogar den eigenen Stolz überwinden und selbst ein wenig programmieren lernen auch wenn das natürlich eigentlich unter dem Niveau eines Managers ist.

@Uckermark MacGyver @Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Uckermark MacGyver

Als Antwort auf Max von Webel 1 Woche her

@rstockm @lbenedix ja, das ist "Wasserfall". Aber egal wie du es nennst, die Dinger sind dabei einfach zig mal schneller beim Schreiben von Code, beim lesen langer Fehlermeldungen, beim recherchieren in Dokumentation etc. Und das ist ein sehr großer Vorteil.

Es entsteht einfach viel Software die es so nicht geben würde weil jemand mit zu wenig skills oder Geduld/Zeit sich nicht an seine Idee rangetraut hat. Mit einem Coding Assistant kann so jemand solche Ideen komplett umsetzen.

Was glaube ich auch nicht zu verachten ist, ist die "Attitude" des LLM. Das ist immer nett und will dir helfen. Egal wie dumm du dich anstellst. Stellst Du menschlichen Enticklern eine Frage die dich als Anfänger outed bekommst du mit hoher Wahrscheinlichkeit eine anfällige oder sehr oberlehrerhafte Antwort. Das motiviert nicht immer dran zu bleiben.

@Ralf Stockmann @LB

Als Antwort auf Uckermark MacGyver

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Uckermark MacGyver 1 Woche her

@maxheadroom @rstockm @lbenedix Ich habe nicht bestritten das LLMs ihren Wert haben können. Wir reden hier aber von Autonom, Zuverlässig Qualitativ hochwertige Software auf dem Niveau eines junior Devs. Davon sind LLMs meiner Meinung nach weit entfernt. Ralf ist sehr Stolz darauf keine Ahnung von JS zu haben und ich finde das sieht man den Projekten auch an. Schon die Readme’s sind ausufernder AI Slop mit offensichtlichen Fehlern und Text nur um Text zu haben. (1/4)

@Uckermark MacGyver @Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Der Code ist nicht wartbar, dain jemals einen Bug zu finden dürfte erstmal massives Refactoring voraussetzen. Was ist der Wert von solchem Code über den reinen Gebrauchswert hinaus? Wie soll sowas weiterentwickelt werden, wie soll das gewartet werden? Und wäre es jetzt so ein massiver sozialer Abstieg ein ganz klein wenig Coden zu lernen um das wenigstens wartbar zu machen? (2/4)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Was ist der Wert all dieser zusätzlichen Software? Ich habe mit LLMs eine Katzenfutter Tracking App gebaut. Das hätte man auch in Excel oder AirTable zusammenklicken können, ganz ohne sich böse Codingskills aneignen zu müssen. Software an sich hat ja keinen Wert, im Gegenteil sie verursacht in erster Linie Kosten, darum probieren wir ja alle wie so wenig davon zu produzieren wie es geht. Das ist doch so als würde man ImageGen damit vertreidigen, dass es mehr Bilder produziert. (3/4)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Wir brauchen aber nicht mehr Bilder. Wir brauchen auch nicht mehr Software. Wir brauchen bessere Software die Menschen ermöglicht produktiver zu sein, die einfach wartbar ist, keine hohen Folgekosten hat, zuverlässig ist. Sich von einer LLM irgendeine App zusammenschrauben lassen ist da doch nicht nur keine Verbesserung sondern sogar eine Verschlechterung. (4/4)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Und ich sehe nicht, dass mich LLMs massiv produktiver machen. Sehe ich nicht. Wenn dann vielleicht 10%. Wenn man noch mal in Betracht zieht wie wenig seiner Zeit Entwickler mit programmieren verbringen, dann ist das kaum mehr als ein Rundungsfehler. Im besten Fall.

Aber hey, wir können jetzt endlich simpelste Greenfield Tools von einer LLM bauen lassen und können weiterhin überall rumerzählen, dass wir dafür nicht mal die Sprache lernen mussten wie so ein Loser.

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

Puh, ich weiß gar nicht wo ich hier anfangen soll, und es dreht sich im Kreis. Mal ein anschließender Gedanke von meiner Seite: „wir brauchen nicht mehr Software". Das sagten die Mönche im Mittelalter auch, als der Buchdruck erfunden wurde: „Die Menschen brauchen nicht mehr Bücher, die Bibel reicht. Schon gar keine selbst gesetzten, da geht jede Handwerkskunst verloren wenn wir die Bücher nicht monatelang selber zeichnen. Sollen die Leute halt Latein lernen.“
1/2

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Coding LLMs werden die Druckpressen für Software werden, oder genauer der Laserdrucker der zu Hause steht und manigfaltige Probleme löst. App Entwicklung wird allgemeingut wie das Drucken einer Seite. Und ihr könnt euch beschweren dass Comic Sans eine uncoole Schrift ist, und all die Rechtschreibfehler, und das Design - aber die Entwicklung ist nicht aufzuhalten. Und es ist nicht an euch zu sagen „dein A4 Ausdruck ist doch Quatsch, braucht niemand“.
Checkt mal eure Privilegien.

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm (1/4)

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Thomas Bartz

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Der Unterschied ist: Ein Buch von vor 500 Jahren kann heute noch gelesen werden und hat Mehrwert, Software von heute wird ohne Wartung schon in 10 Jahren unbrauchbar sein. Deswegen ist mehr Software auch ein Mehr an Aufwand. Technical Debt usw.
Hab die Diskussion genau deswegen so interessiert verfolgt, weil ich Ralf einerseits zustimme, dass Prototyping mit LLM enorm vereinfacht wird, ich beruflich aber ganz andere Probleme zu lösen habe, die - wie Max imho korrekt anmerkt 1/2

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm
@lbenedix Drucker werden immer eine Nische sein, und selbst die die einen haben werden ihn zum allergrößten Teil nur nutzen um irgendwelche fertigen Dokumente auszudrucken. 3D Drucker werden immer eine Nische sein. Heimwerken wird immer eine Nische sein. Softwareentwicklung wird immer eine Nische sein, weil sie schon sehr lange alles hat was es braucht um die Masse zu erreichen so wie so ziemlich jede andere kreative Kulturtechnik auch.

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Max von Webel 1 Woche her

@maxheadroom @rstockm

Ein weiterer Blick zeigt, was mir bei AI generierten Code immer wieder auffällt: die Abhängigkeiten sind extrem veraltet.

In dem Fall der Mastowall wird eine 6 Jahre alte Version eines CSS Framework verwendet.
Bei den anderen Abhängigkeiten sieht es nicht viel besser aus...

github.com/twbs/bootstrap/rele…

Release v4.3.1 · twbs/bootstrap

Security: Fixed an XSS vulnerability (CVE-2019-8331) in our tooltip and popover plugins by implementing a new HTML sanitizer Fixed a small issue with our RFS (responsive font sizes) mixins

^GitHub

@Uckermark MacGyver @Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix @maxheadroom die alte Bootstrap Version war damals eine Vorgabe von mir. Das war noch copy&paste Vibecoding lange bevor es den Begriff gab, siehe:

pad.wolkenbar.de/mastowall

Ich habe das dann nicht mehr aktualisiert (finde es bei bootstrap aber auch unkritisch). Was der Chat-Auszug von dir aber gut Zeigt: CSS ist (noch) eine große Scxhwäche von LLMs, ich habe das mal in diesen Chart gegossen:
1/2

Erfahrungsbericht: Softwareentwicklung mit ChatGPT4 - die Mastowall - HedgeDoc

^{pad.wolkenbar.de}

@Uckermark MacGyver @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

die App „Testabend" war in den Grundfunktionen nach 2,5h fertig, das war spektakulär in Bezug auf was da alles verbaut ist. Dann kamen aber 2 Wochen (!) tuning, um sie auch vernünftig auf iOS und Android Smartphones mit kleinem Screen bedienbar zu bekommen. Das Ergebnis ist cool, aber der Weg mar maximal steinig. Es musste aber zu einem Termin im Dezember fertig werden, und ich wollte keine 10k € drauf werfen (das wäre so der geschätzte Gegenwert)
2/2

Dieser Beitrag wurde bearbeitet. (1 Woche her)

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Uckermark MacGyver

Als Antwort auf LB 1 Woche her

@lbenedix @rstockm Ja, das stimmt alles. Und die Dinger machen auf doofe Fehler. Aber berichtigen sie dann auch einigermaßen. Sicher ist die Code Qualität nicht optimal. Aber es funktioniert. Und für die überwiegende Mehrheit der Projekte duerfte das ausreichen. Man überlege nur mit welcher Qualität sich Millionen Unternehmen bzgl. Microsoft Software "zufrieden " geben.

Ich vergleiche diese Coding LLMs gerne mit elektrischen Werkzeugen eines Handwerkers. Es erlaubt einem Profi die Arbeit viel viel schneller zu erledigen. Und auch ein Anfänger bekommt damit bestimmte Sachen hin, die er ohne gar nicht schaffen würde.

@Ralf Stockmann @LB

Als Antwort auf Uckermark MacGyver

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Uckermark MacGyver 1 Woche her

@maxheadroom @lbenedix @rstockm Da gehe ich überhaupt nicht mit. Microsofts Softwarequalität hängt null damit zusammen ob sie gute Entwickler finden können. Das liegt an Prioritäten, Firmentielen, Organisationsproblemen, also Bereichen die weit oberhalb der Entwicklung sind und in denen niemand auch nur drüber nachdenkt LLMs einzusetzen. (1/3)

@Uckermark MacGyver @Ralf Stockmann @LB

Dieser Beitrag wurde bearbeitet. (1 Woche her)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Wenn man mit LLMs Software baut, dann muss man die ganzen schweren Teile ja immer noch machen: Anforderungen, Architektur, Implementierung, Sicherheit, Deployment, Wartung… Da zu sagen, dass das am eigentlichen Coding scheitert ist wie zu sagen, dass man das man ein Hochhaus geplant, berechnet und genehmigt bekommen hat aber es nicht bauen kann, weil man leider keinen Hammer halten kann. (2/3)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Es mangelt nicht an Entwicklern, es mangelt an Bereitschaft und Willen Software zu bauen und da helfen LLMs null. (3/3)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Max von Webel 1 Woche her

💯 in großen Organisationen ist das Problem ganz sicher nicht der Mangel an (guten) Softwareentwicklern.

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf LB 1 Woche her

@lbenedix Wenn ich so drüber nachdenke: es ist schon irre wie lang jetzt schon die Idee nicht aussterben will das wenn man einfach nur den Entwicklern feste genug auf die Füße tritt Softwareentwicklung sich ja von alleine löst. Schon vor 15 Jahren habe ich von Firmen gehört, die für ihr egalo-Startup nur die besten 0,5% der Entwickler einstellen, weil die unteren 99,5% einfach nicht gut genug sind um zum 20. mal die Farbe für den Submit Button anzupassen. (1/2)

@LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Max von Webel 1 Woche her

Benutzt du LLMs eigentlich auch an Stellen, an denen du ein Experte bist? @rstockm

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Geht die Frage an mich? Ich würde sagen ja:
- Ultraschall Entwicklung (LUA)
- Metadaten-Projekte an Bibliotheken (mein eigentlicher Job)

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm Und du lässt ein LLM das Projektmanagement machen?

@Ralf Stockmann

Als Antwort auf LB

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf LB 1 Woche her

@lbenedix Nein warum sollte ich?

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Bist du etwa der Mönch der gegen die Druckerpresse anschreit!? In 5 Jahren wird es in jedem Haushalt eine Projekt-Manger-LLM geben die unsere Projekte managed. So wie Laserdrucker und Faxgeräte!

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

@lbenedix Gut möglich: ich würde das keinesfalls ausschließen. Bisher ist noch jede meiner „das werden KIs so schnell nicht können“ Annahmen zusammengebrochen.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Da hattest du mein Zahlenrstespiel nicht mit drauf auf der Liste?

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

@lbenedix Jedem LLM einen internen Speicherbereich zur Seite zu stellen wäre ja technisch trivial. Wenn man etwas suchen würde, fände man vermutlich auch schon eines das das mitbringt. Kein Showstopper.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Ein sehr simples Problem, relativ einfach zu erklären, vermutlich einfach zu implementieren. Und dennoch bereits seit langer Zeit ein Beispiel für eine Sache von der die LLM selbstbewusst behauptet sie zu können und es dann nicht kann. So wie Zehntausende andere Dinge auch. Und wenn die LLMs das können, dann werde ich mir eben ein neues Beispiel suchen das vermutlich nicht viel komplexer wird.

@Ralf Stockmann @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Hier noch eine Sache die du auf deine Liste der Dinge die LLMs nicht können packen kannst: Verantwortung übernehmen. Für wie wahrscheinlich hältst du es, dass die AI Firmen das 2026 anbieten werden und warum nicht?

@Ralf Stockmann @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm um einen Eindruck davon zu bekommen, wie "gut" LLMs sind in Bereichen, in denen du dich sehr gut auskennst. Das kann man dann ganz gut auf Bereiche übertragen, in denen man sich nicht so gut auskennt.

@Ralf Stockmann

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

@lbenedix Das hier nehme ich häufig, wenn ich Leute verstören will:

„Programmiere eine Werbanwendung, wo ich auf einem Canvas farbige Zettel posten kann. Die Zettel sollen sich verschieben lassen, einen Titel haben und Text - alles soll editierbar sein. Über einen Selektor kann man die Farbe des Zettels wechseln, die Schrift soll sich in der Helligkeit dem Hintergrund anpassen für genug Kontrast.
1/2

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

@lbenedix „Den Canvas möchte ich mit der Maus auch selbst verschieben können. Öffne die App im Browser-Tab deiner IDE, suche nach Fehlern auf der Konsole. Melde dich erst wieder, wenn du fertig bist.“

Das funktioniert immer, Ergebnis ist eine JS Webapp (das ist bei mir das vorgegebene Meta-Framework) die alle gewünschten Features drin hat und auf einem lokalen Python Server läuft.
2/2

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Ich habe das jetzt in Cursor ausgegeben, weil ich mal vermute, dass das die IDE ist die du meinst. Es startet einen Server der dann Seite ausliefert in der man Notizen hin und her ziehen kann. Die Schriftfarbe wird nur angepasst wenn man die Farbe ändert, nicht wenn man eine neue Notiz anlegt, das Canvas hat einen unsichtbaren Rahmen über den man Notizen nicht hinausziehen kann, der Code ist eher abenteuerlich. (1/2)

@Ralf Stockmann @LB

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Max von Webel 1 Woche her

Den Teil deiner Anweisung das es das ganze doch bitte in einem Browser testen soll hat es einfach an mich weiter delegiert, dass ich das doch selbst machen soll. Ich bin jetzt nicht so wahnsinnig verstört, weil ich schon schlimmeres gesehen habe. Aber ist das jetzt irgendwas anderes als dieser typische AI-Slop, den man von LLMs so erwartet? (2/2)

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

weclhes Modell hast du in Cursor genommen? Composer 1 (von Cursor selbst) ist darauf trainiert die Tools der IDE selbst zu nutzen, da klappt das mit internem Browser/Console etc. gut.
Du wolltest 2 Beispiele, die habe ich rausgesucht (das erste mal angeschaut)? Dass die jetzt auch wieder nicht reichen - tja ist jetzt halt so, auch wenn ich noch 20 weitere raussuche (die ich hätte in meinen Histories) wäre immer etwas falsch/nicht genug.
Weil halt nicht sein kann, was nicht sein darf. 1/2

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Ralf Stockmann 1 Woche her

Was ich aber aus täglicher Erfahrung sicher sagen kann: vor einem Jahr waren solche 1Shots wie meine beiden Beispiele völlig undenkbar. Was wird dann also in 1 und 5 Jahren sein? Und dann bin ich genau bei dieser Studie von vorhin.

chaos.social/@rstockm/11582064…

2026-01-01 15:53:40

mastodon - Link zum Originalbeitrag

@lbenedix Sehr schöne Seite, danke dafür. Direkt eine Studie darüber aber so:

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

Du solltest nochmal die ganze Studie lesen.

arxiv.org/abs/2503.14499

Measuring AI Ability to Complete Long Tasks

Despite rapid progress on AI benchmarks, the real-world meaning of benchmark performance remains unclear. To quantify the capabilities of AI systems in terms of human capabilities, we propose a new metric: 50%-task-completion time horizon.

^arXiv.org

Dieser Beitrag wurde bearbeitet. (1 Woche her)

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

OmniJan

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm
Extrapolieren ist natürlich zuverlässig ;)

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

friendica (DFRN) - Link zum Originalbeitrag

Jaddy

Als Antwort auf Ralf Stockmann 1 Woche her von Mona for Mac

@Ralf Stockmann Geht mir genauso. Ich brauchte zB Backup-Apps für ein phpBB Forum und meine Friendica-Instanz. Ersteres hab ich vor Jahren schon mal selbst gemacht. War ein Mega-Gefummel und ich hab nichts sinnvolles dabei gelernt.

Mit Claude ging das nicht nur schneller, sondern ich habe auch reichlich gelernt, wie Dinge mit Python gehen können, ohne mich erst durch hunderte Packages zu wühlen, oder in CSS, wo ich so überhaupt keine Ahnung habe. (Die Backup-Apps können static web sites mit den Inhalten erzeugen)

Ich habe aber reichlich Erfahrung in Specs schreiben, Leute anleiten und deren Zeugs testen und debuggen. Job-mässig bin ich eher in C/C++ für Produktionssteuerungen unterwegs. Von embedded bis SAP-Anschluss.

Ich mag die Geschwindigkeit, wenn ich mit Coding LLMs werkel. Es lassen sich Dinge ausprobieren, wo ich Stunden für's (um)schreiben gebraucht hätte. Ich kann viel schneller Packages und Libs finden und a

... mehr anzeigen

@Ralf Stockmann

Ralf Stockmann mag das.

Als Antwort auf Jaddy

mastodon - Link zum Originalbeitrag

Jan Walzer

Als Antwort auf Jaddy 1 Woche her

@jaddy @rstockm

Libraries/Frameworks, Schönes Beispiel, ja …

Ich fang in Cursor damit an das mit ein llm erstmal eine spec und Architektur und requirements schreibt, aus einem offenen Brainstorming mit dem Agenten. Da gehört auch dazu, die Frage zu klären welche libraries/Frameworks man für bestimmte Aspekte nutzen kann und welch pro und con es gibt. Wenn ich dann angebe dass ich kein Enterprise ready riesenframework brauche sondern genau einen Aspekt betrachtet und gelöst haben will, dann kann mir das llm verschiedene Optionen vorschlagen, inkl
Selbstschreiben, und ich kann dann als Architekt das Vorgehen bestimmen.
Am Ende giest der Agent das Brainstorming in die beiden Files Requirements.md und Techspec.md und das sind die ersten Files im Git Repo.
Meine Cursor-Rules sagen, dass diese beiden Files immer wieder Teil des Context

... mehr anzeigen

@Jaddy @Ralf Stockmann

Jaddy mag das.

Als Antwort auf Jan Walzer

friendica (DFRN) - Link zum Originalbeitrag

Jaddy

Als Antwort auf Jan Walzer 1 Woche her von Mona for Mac

@Jan Walzer @Ralf Stockmann Genau so arbeite ich auch. Bei größeren Projekten auch mit Projektplan und Meilensteinen, die ich den Agent erstellen und pflegen lasse, die ich aber prüfe und abändere, bevor ich das Go gebe.
Kleinschrittiges Arbeiten scheint bei mir nötig, um Limits und Degradation zu vermeiden.
Die Pläne und Doku sind auch nötig, um zu archivieren und irgendwann später wieder aufsetzen zu können. Es ist schon erstaunlich was bei „erstelle eine vollständige Doku mit Spezifikationen, Entscheidungen und Erkenntnissen, um später in einem neuen Chat fortsetzen zu können" alles entsteht.

@Jan Walzer @Ralf Stockmann

Ralf Stockmann mag das.

Als Antwort auf Jaddy

mastodon - Link zum Originalbeitrag

Jan Walzer

Als Antwort auf Jaddy 1 Woche her

@jaddy @rstockm

Ganz genau. Ich habe meist auch eine Regel, die noch ein permanentes Learnings.md file füttert und welches dann abundzu in whisking.md zusammenaggregiert wird.
Dabei hilft das LLM am Ende eben auch mit, möglichst viel Kontext mit möglichst wenig tokens verfügbar zu haben. Und ja, eine der Regeln ist auch, dass das llm mich nach einen signoff fragt, bevor es des aktuellen task als erledigt markiert und weitermacht.

Irgendwann im laufe des Projektes kommen dann halt auch Regeln dazu wie das locale building und testen zu funktionieren hat. Die neueren Versionen sind besser geworden aber alte Versionen haben sich gerade Client/Server Architekturen gern mal in den Fuß geschossen, wenn sie den Server gestartet haben und den Output nach dem exit analysieren wollten…

Ja, es sind halt kleine Dummerchen LLMs die man an die H

... mehr anzeigen

@Jaddy @Ralf Stockmann

Jaddy mag das.

Als Antwort auf Max von Webel

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Als Antwort auf Max von Webel 1 Woche her

@lbenedix Wenn ich mit der LLM in einer IDE wie Cursor die Spielregeln aushandle, wird sich auch daran gehalten. Das würde ich durchaus als „Lernen“ bezeichnen. Cursor schreibt diese Projektregeln auch in eine separate Markdown-Datei die beständig aktualisiert wird.

@LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @lbenedix Das würde ich "sich an die Regeln halten" nennen. Lernen ist neue Fähigkeiten erlangen. Das tut es nicht.

@Ralf Stockmann @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm die "50% success rate" ist jetzt nicht unbedingt gut, oder?

@Ralf Stockmann

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

LB

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @343max

@Ralf Stockmann @Max von Webel

Unbekannter Ursprungsbeitrag

mastodon - Link zum Originalbeitrag

Ralf Stockmann

Unbekannter Ursprungsbeitrag 1 Woche her

@crash_override @lbenedix Aber warum sollte das eine LLM machen. Dafür sagt man der LLM „schreib ein Python Script" und das läuft dann reproduzierbar und perfekt.
"wenn ich nur einen Hammer in der Hand halte, sieht jedes Problem wie ein Nagel aus“.

@Manu @LB

Als Antwort auf Ralf Stockmann

mastodon - Link zum Originalbeitrag

Max von Webel

Als Antwort auf Ralf Stockmann 1 Woche her

@rstockm @crash_override @lbenedix Aber du hast doch vorhin geschrieben, das LLMs zuverlässig sind. Wenn sie zuverlässig sind, warum muss man dann überhaupt solche Umwege gehen? Zuverlässig heißt doch, dass ich mich darauf verlassen kann, dass das Tool schon das richtige tut. Wenn diese LLMs wie du sagst schon auf junior Dev Niveau sind, dann muss sie doch wissen, dass Daten 1:1 zu übertragen nicht ihre Stärke ist und das man dafür besser ein Tool schreiben sollte. (1/2)

@Ralf Stockmann @Manu @LB

⇧