In den letzten Beiträgen haben wir bereits erfahren, dass hinter den bekannten KI-Chatbots (wie ChatGPT) komplexe neuronale Netzwerke stehen. Im Hintergrund arbeiten Modelle (genauer gesagt Transformer-Modelle als modernste Form neuronaler Netzwerke), die mit riesigen Datenmengen trainiert wurden, um unsere (menschliche) Sprache zu „verstehen“ und anschließend kontextbezogen neue Texte zu generieren (also passende Antworten zu formulieren). Solche Konzepte zur Textverarbeitung und Textgenerierung werden übergeordnet als Large Language Models (LLM, auf Deutsch: großes Sprachmodell) bezeichnet. Im Jänner 2025 wurde ein neues LLM veröffentlicht, das die KI-Welt derzeit intensiv beschäftigt und teilweise sogar auf den Kopf stellt. Es geht um die KI-Modelle DeepSeek-R1 und DeepSeek-V3 des Unternehmens DeepSeek aus China. Zunächst wurde DeepSeek-V3 am 24. Dezember 2024 veröffentlicht. Am 20. Januar 2025, also zu Neujahr, folgte anschließend DeepSeek-R1. Dieser Release sorgt nun für großes Aufsehen. Im Vergleich zu bekannten Modellen wie GPT-4o (eingesetzt in ChatGPT von OpenAI, USA), Llama 3.1-405B (Meta AI, USA), Gemini (Google DeepMind, USA) oder Claude 3.5 Sonnet (Anthropic, USA) scheint DeepSeek in nahezu allen Kategorien überlegen zu sein. Mit Kategorien ist in diesem Zusammenhang die Bewertung verschiedener KI-Modelle anhand von Benchmark-Tests gemeint. Durch diese standardisierten Tests ist es möglich, die Leistung eines Modells mit anderen zu vergleichen und zu evaluieren. Solche Benchmarks existieren beispielsweise in den Bereichen Mathematik, Coding (Programmierung), Allgemeinwissen, Sprachverständnis und weiteren Disziplinen. Die getesteten Modelle werden anhand von Prozentpunkten bewertet. Allerdings sollte nicht unerwähnt bleiben, dass Benchmarks grundsätzlich nur eine Orientierung bieten und kritisch hinterfragt werden sollten. Interessanterweise wird auf den Webseiten der jeweiligen Entwickler das „eigene“ Modell in Benchmark-Tests überwiegend als führend präsentiert. Aus meiner Sicht werden dabei bessere Modelle teilweise gar nicht in den Vergleich mit aufgenommen. Was macht DeepSeek bisher aus? Jedes LLM ist im Detail unterschiedlich aufgebaut (als Basis ein Transformer-Modell mit eigenen Modifikationen). Die oben genannten Sprachmodelle nutzen verschiedene Techniken, um die Ergebnisse zu optimieren und den Betrieb effizienter zu gestalten. Zudem spielt auch die Größe der Modelle eine entscheidende Rolle. Sie wird anhand der Anzahl der Parameter angegeben. Diese können als „Stellschrauben“ des Modells betrachtet werden. Ein Modell mit einer hohen Anzahl an Parametern kann leistungsfähiger und komplexer sein. Die Daten zu DeepSeek (V3 und R1) stammen aus dem offiziellen Paper von DeepSeek, das auf GitHub veröffentlicht wurde. GitHub ist eine Online-Plattform, auf der Entwickler Softwareprojekte speichern und gemeinsam verwalten können. DeepSeek-V3 verfügt offiziell über 671 Milliarden Parameter. Das Spannende dabei ist, dass bei der Nutzung…