Am 25.09.2024 hat Meta die neuste Version 3.2 seines Llama Stacks veröffentlicht, in der mehrere Llama Stack-APIs gebündelt werden. Ziel ist es, die Entwicklung generativer KI-Anwendungen sowie grundsätzlich die Arbeit mit Llama Large Language Models (LLMs) in verschiedenen Umgebungen zu erleichtern.
Doch woraus besteht der Stack und was kann er?
Allgemein beinhaltet der Llama Stack folgende Schnittstellen (APIs):
Schlussfolgerung
Sicherheit
Speicher
Agentisches System
Bewertung
Post-Training
Erzeugung synthetischer Daten
Bewertung von Belohnungen
Was Llama alles kann
Zwei der größten Modelle der Llama 3.2-Kollektion, 11B und 90B, lassen sich dem Anbieter zufolge zum Beispiel im Bereich des sogenannten Image Reasoning anwenden. Dort sind sie dann zuständig für
das Verstehen von Dokumenten, einschließlich Diagrammen und Graphen,
das Beschriften von Bildern und
visuelle Aufgaben wie das gezielte Auffinden von Objekten in Bildern auf der Grundlage von Beschreibungen in natürlicher Sprache.
Ein User könnte beispielsweise eine Frage stellen, in welchem Monat im vergangenen Jahr das eigene Unternehmen die besten Umsätze erzielt hatte. Llama 3.2 kann dann auf der Grundlage eines verfügbaren Diagramms Schlussfolgerungen ziehen und schnell die Antwort geben.
In einem anderen Beispiel könnte das Modell auf eine Karte zugreifen und Fragen beantworten, zum Beispiel an welchen Stellen einer Wanderung das Gelände steiler wird oder wie weit ein bestimmter Weg auf der Karte ist.
Die Modelle 11B und 90B könnten den Meta-Verantwortlichen zufolge auch die Kluft zwischen Sehen und Sprechen überbrücken, indem sie Details aus einem Bild extrahieren, die Szene verstehen und dann einen oder zwei Sätze formulieren, die als Bildunterschrift verwendet werden können, um die abgebildete Geschichte zu erzählen.
Der technische Unterbau
Technisch gesehen setzt der Llama Stack hierbei auf verschiedene Bausteine, die den gesamten Entwicklungszyklus umfassen, vom
Modelltraining und der Feinabstimmung
über die Produktevaluierung
bis hin zum Aufbau und Betrieb von KI-Agenten und RAG-Anwendungen (Retrieval-Augmented Generation) in der Produktion.
Immer mehr Anbieter
Auf GitHub findet sich zudem ein Repository für die Llama Stack API-Spezifikationen.Meta möchte darüber hinaus auch weitere Anbieter für die Entwicklung von Llama Stack APIs gewinnen. Dadurch soll sichergestellt werden, dass Entwickler KI-Lösungen aus konsistenten, ineinandergreifenden Teilen plattformübergreifend zusammenstellen können. Die Llama Stack-Distributionen sollen es Entwicklern ermöglichen, mit Llama-Modellen in verschiedenen Umgebungen zu arbeiten.
Hierzu zählen laut Meta On-Prem, Cloud, Single-Node und On-Device.
Jede API besteht aus einer Sammlung von REST-Endpunkten. Die Einführung der Llama Stack-Distributionen erfolgt zeitgleich mit der Veröffentlichung von Meta’s Llama 3.2, das eine kleine und eine mittelgroße LLM-Version (11B und 90B) sowie leichtgewichtige, reine Textmodelle (1B und 3B) enthält, die auf Edge- und Mobilgeräte passen.
Am 25.09.2024 hat Meta die neuste Version 3.2 seines Llama Stacks veröffentlicht, in der mehrere Llama Stack-APIs gebündelt werden. Ziel ist es, die Entwicklung generativer KI-Anwendungen sowie grundsätzlich die Arbeit mit Llama Large Language Models (LLMs) in verschiedenen Umgebungen zu erleichtern.
Doch woraus besteht der Stack und was kann er?
Allgemein beinhaltet der Llama Stack folgende Schnittstellen (APIs):
Schlussfolgerung
Sicherheit
Speicher
Agentisches System
Bewertung
Post-Training
Erzeugung synthetischer Daten
Bewertung von Belohnungen
Was Llama alles kann
Zwei der größten Modelle der Llama 3.2-Kollektion, 11B und 90B, lassen sich dem Anbieter zufolge zum Beispiel im Bereich des sogenannten Image Reasoning anwenden. Dort sind sie dann zuständig für
das Verstehen von Dokumenten, einschließlich Diagrammen und Graphen,
das Beschriften von Bildern und
visuelle Aufgaben wie das gezielte Auffinden von Objekten in Bildern auf der Grundlage von Beschreibungen in natürlicher Sprache.
Ein User könnte beispielsweise eine Frage stellen, in welchem Monat im vergangenen Jahr das eigene Unternehmen die besten Umsätze erzielt hatte. Llama 3.2 kann dann auf der Grundlage eines verfügbaren Diagramms Schlussfolgerungen ziehen und schnell die Antwort geben.
In einem anderen Beispiel könnte das Modell auf eine Karte zugreifen und Fragen beantworten, zum Beispiel an welchen Stellen einer Wanderung das Gelände steiler wird oder wie weit ein bestimmter Weg auf der Karte ist.
Die Modelle 11B und 90B könnten den Meta-Verantwortlichen zufolge auch die Kluft zwischen Sehen und Sprechen überbrücken, indem sie Details aus einem Bild extrahieren, die Szene verstehen und dann einen oder zwei Sätze formulieren, die als Bildunterschrift verwendet werden können, um die abgebildete Geschichte zu erzählen.
Der technische Unterbau
Technisch gesehen setzt der Llama Stack hierbei auf verschiedene Bausteine, die den gesamten Entwicklungszyklus umfassen, vom
Modelltraining und der Feinabstimmung
über die Produktevaluierung
bis hin zum Aufbau und Betrieb von KI-Agenten und RAG-Anwendungen (Retrieval-Augmented Generation) in der Produktion.
Immer mehr Anbieter
Auf GitHub findet sich zudem ein Repository für die Llama Stack API-Spezifikationen.Meta möchte darüber hinaus auch weitere Anbieter für die Entwicklung von Llama Stack APIs gewinnen. Dadurch soll sichergestellt werden, dass Entwickler KI-Lösungen aus konsistenten, ineinandergreifenden Teilen plattformübergreifend zusammenstellen können. Die Llama Stack-Distributionen sollen es Entwicklern ermöglichen, mit Llama-Modellen in verschiedenen Umgebungen zu arbeiten.
Hierzu zählen laut Meta On-Prem, Cloud, Single-Node und On-Device.
Jede API besteht aus einer Sammlung von REST-Endpunkten. Die Einführung der Llama Stack-Distributionen erfolgt zeitgleich mit der Veröffentlichung von Meta’s Llama 3.2, das eine kleine und eine mittelgroße LLM-Version (11B und 90B) sowie leichtgewichtige, reine Textmodelle (1B und 3B) enthält, die auf Edge- und Mobilgeräte passen.