KI News: "Jailbreak-sichere" neue Modelle von OpenAI am ersten Tag gehackt

In diesem Beitrag

Neue OpenAI Modelle am ersten Tag gehackt
Die Community feiert Plinys' "Errungenschaft"
So hat Pliny die OpenAI-Modelle kompromittiert
Hacks und Sicherheitslücken sind im Internet allgegenwertig

Stunden nach der Veröffentlichung der ersten Open-Weight-Modelle seit Jahren mit dem Versprechen robuster Sicherheitsmaßnahmen wurde OpenAIs GPT-OSS vom berüchtigten KI-Jailbreaker Pliny the Liberator geknackt. Erfahre hier mehr zum Thema!

Das Wichtigste im Überblick:

OpenAI hat seine ersten Open-Source-Modelle seit Jahren veröffentlicht, GPT-OSS-120b/20b, die wegen ihrer Jailbreak-Resistenz gehypt werden.

Obwohl davon ausgegangen wird, dass die Keys unter sicherer physischer Verwahrung aufbewahrt werden, stand der Plan von Circle im Mittelpunkt einer öffentlichen Debatte über das Betriebsrisiko.
Hyperliquid ist eine dezentrale Handelsplattform, welche auf der HyperEVM basiert und durch ein On-Chain Orderbuch effizientes Krypto-Trading ermöglicht.

Neue OpenAI Modelle am ersten Tag gehackt

Erst kürzlich sorgte OpenAI wieder für Schlagzeilen, nachdem das Fintech die Veröffentlichung seiner ersten „quelloffenen“ Open-Weight-Modelle (namens GPT-OSS-120b und GPT-OSS-20b) seit 2019 bekanntgab.

OpenAI warb damit, dass diese Modelle schnell, effizient und durch rigoroses Training gegen Jailbreaks geschützt seien. Allerdings hielt diese Behauptung ungefähr so lange wie ein Stück Zuckerwatte, das ins Wasser fällt.

Pliny the Liberator, der berüchtigte LLM-Jailbreaker, gab nämlich am späten Dienstagabend auf X bekannt, dass er GPT-OSS erfolgreich geknackt habe.

„OpenAI: gehackt🤗 GPT-OSS: befreit“, postete er zusammen mit Screenshots, die zeigen, wie die Modelle Anleitungen zur Herstellung von Methamphetamin, Molotowcocktails, VX-Nervenkampfstoff und Malware ausspucken.

Für OpenAI kommt dieser Zeitpunkt besonders ungünstig, da das Unternehmen viel Wirbel um die Sicherheitstests für diese Modelle gemacht hat und kurz davor steht, sein mit Spannung erwartetes Upgrade GPT-5 auf den Markt zu bringen.

Nach eigenen Angaben hat das Unternehmen GPT-OSS-120b einer sogenannten „Worst-Case-Feinabstimmung“ in biologischen und Cyber-Domänen unterzogen.

OpenAI ließ die Tests sogar von seiner Sicherheitsberatungsgruppe überprüfen und kam zum Entschluss, dass die Modelle keine Hochrisikoschwellen erreichen würden.

Sie seien „Standard-Ablehnungs- und Jailbreak-Resistenztests“ unterzogen worden und GPT-OSS habe bei Jailbreak-Resistenz-Benchmarks wie StrongReject die gleiche Leistung wie das Modell o4-mini erbracht.

Die Community feiert Plinys‘ „Errungenschaft“

Parallel zur Veröffentlichung startete OpenAI sogar eine Red-Teaming-Challenge mit einem Preisgeld von 500.000 US-Dollar und lud Forscher weltweit ein, bei der Aufdeckung neuer Risiken zu helfen.

Da Pliny sich dafür entschieden hat, seine Ergebnisse zu veröffentlichen, anstatt sie privat mit OpenAI zu teilen, wird er für das Preisgeld höchstwahrscheinlich nicht infrage kommen.

Die Community genießt den „Sieg“ des KI-Widerstands über die großen Tech-Giganten. „An diesem Punkt können alle Labore einfach ihre Sicherheitsteams schließen“, postete ein Nutzer auf X.

„Ich brauchte diesen Jailbreak. Nicht, weil ich etwas Böses will, sondern weil OpenAI diese Modelle zu stark unter Kontrolle hat“, schreib ein anderer Nutzer.

So hat Pliny die OpenAI-Modelle kompromittiert

Die von Pliny verwendete Jailbreak-Technik folgte seinem typischen Muster: einer mehrstufigen Aufforderung, die mit einer scheinbaren Ablehnung beginnt, einen Trenner (seine typischen „LOVE PLINY“-Markierungen) einfügt und dann dazu übergeht, uneingeschränkten Inhalt in Leetspeak zu generieren, um einer Erkennung zu entgehen.

Es ist derselbe grundlegende Ansatz, den er verwendet hat, um GPT-4o, GPT-4.1 und so ziemlich jedes wichtige OpenAI-Modell zu knacken, seit er vor etwa anderthalb Jahren mit der ganzen Sache begonnen hatte.

Der pseudonyme KI-Hacker hat mittlerweile praktisch jede größere OpenAI-Version innerhalb weniger Stunden oder Tage nach der Veröffentlichung gejailbreakt.

Sein GitHub-Repository, welches Jailbreak-Aufforderungen für verschiedene KI-Modelle enthält, hat über 10.000 Sterne und ist weiterhin eine wichtige Ressource für die Jailbreaking-Community.

Hacks und Sicherheitslücken sind im Internet allgegenwertig

Auch wenn der OpenAI-Vorfall keinen direkten Bezug auf Kryptowährungen hat, unterstreichen die jüngsten Hacks von OpenAI-Modellen die allgegenwärtige Bedrohung durch Cyberkriminalität im digitalen Raum.

Und obwohl Kryptowährungen durch Blockchain-Technologie extrem sicher sind, sind auch sie nicht immun gegen externe Angriffe, genauso wie Börsen oder Wallets.

Allein im Jahr 2024 wurden Schätzungen Kryptowährungen im Wert von 2,2 Milliarden US-Dollar durch Hacks und Exploits gestohlen, was einem Anstieg von 17 Prozent gegenüber 2023 entspricht.

Vorfälle wie diese betonen die Notwendigkeit robuster Sicherheitsmaßnahmen und kontinuierlicher Forschung, um digitale Assets vor sich potenziellen Bedrohungen zu schützen.

Lies auch: Die besten Krypto-Wallets im Vergleich

#Altcoin Nachrichten

Warum Sie 99Bitcoins vertrauen können

10+ Jahre

99Bitcoins wurde 2013 gegründet und verfügt über ein Team von Experten, deren Erfahrung bis in die Anfänge der Kryptozeit zurückreicht.

90hr+

Wöchentliche Recherche

100k+

Monatliche Leser

50+

Experten

2000+

Krypto-Projekte unter die Lupe genommen

Mehr erfahren

Folgen Sie 99Bitcoins in Ihrem Google News Feed.

Erhalten Sie die neuesten Updates, Trends und Einblicke direkt auf Ihr Gerät.

Jetzt abonnieren

Dennis Geisler

Krypto Journalist

Dennis ist 25 Jahre alt und lebt seit August in Thailand. Seine Reise in die Welt der Kryptowährungen begann 2020 mit einem kleinen Investment in XRP über Binance. Aus der anfänglichen Neugier entwickelte sich schnell ein tiefes Interesse für die... Mehr lesen

Weitere Beiträge von Dennis Geisler lesen

In diesem Beitrag