Mehr Daten, mehr Probleme? 10 Tipps zum Verwalten generativer KI-Daten
Dateninhalte und Produktempfehlungen sind redaktionell unabhängig. Wir verdienen möglicherweise Geld, wenn Sie auf Links zu unseren Partnern klicken. Erfahren Sie mehr.
Die meisten IT-Führungskräfte und viele C-Suite-Führungskräfte denken über KI-gestützte Initiativen nach – wenn sie diese nicht planen und bereits umsetzen. Allein bei den drei größten Public-Cloud-Anbietern gibt es Dutzende von Tools für KI und maschinelles Lernen, abgesehen von den vielen Open-Source-Technologien, die seit der Einführung von ChatGPT im Herbst 2022 aufgetaucht sind.
Das Potenzial ist enorm: Laut einem neuen Bericht von Bloomberg Intelligence wird der Markt für generative KI in den nächsten zehn Jahren von einer Marktgröße von nur 40 Milliarden US-Dollar im Jahr 2022 auf 1,3 Billionen US-Dollar wachsen.
Die richtige KI setzt hochwertige Daten voraus – insbesondere unstrukturierte Daten. Der Erfolg der KI hängt von der angemessenen Kuratierung und Verwaltung dieser Datei- und Objektdaten ab, die mindestens 80 Prozent aller Daten weltweit ausmachen. Dieser Artikel identifiziert die Herausforderungen dieser Bemühungen und bietet 10 Tipps für deren Bewältigung.
Unstrukturierte Daten sind angesichts ihres Umfangs und der vielen verschiedenen Arten von Dateien und Formaten, aus denen sie bestehen – von Dokumenten und Bildern bis hin zu Sensor- und Instrumentendaten, Videos und mehr – mühsam zu verwalten. Da sie in zunehmend hybriden Multi-Cloud-Unternehmen oft über mehrere Speichersysteme verteilt sind, ist es schwierig, sie je nach Bedarf zu durchsuchen, zu segmentieren und zu verschieben.
Aufgrund ihres Wachstums ist die Speicherung und Sicherung unstrukturierter Daten teuer. Tatsächlich gibt eine Mehrheit (68 Prozent) der im Jahr 2022 befragten Unternehmen 30 Prozent oder mehr ihres IT-Budgets für Speicher aus. Diese Probleme verschärfen sich in datenintensiven Branchen noch dadurch, dass Kopien redundanter, veralteter und trivialer (ROT) Daten von Forschern und anderen Teams nach Abschluss von Projekten selten gelöscht werden.
Die Verwaltung unstrukturierter Daten für KI erfordert neue Lösungen und Taktiken, einschließlich eines datenzentrierten Ansatzes, um kosteneffiziente Speicher- und Datenmobilitätsentscheidungen über Anbieter und Clouds hinweg zu treffen.
Es besteht auch ein wachsender Bedarf, sicherzustellen, dass die richtigen Datensätze genutzt werden. Neue Untersuchungen von Stanford ergaben, dass die Leistung großer Sprachmodelle (LLMs) „erheblich abnimmt, wenn der Eingabekontext länger wird, selbst bei Modellen mit explizit langem Kontext“. Mit anderen Worten: Je nach Projekt kann die Kuratierung der richtigen Datensätze wichtiger sein als große Datensätze.
Generative KI-Lösungen, Richtlinien und Praktiken ändern sich täglich. Aber die Schaffung einer Grundlage für intelligentes unstrukturiertes Datenmanagement kann Unternehmen dabei helfen, sich flexibel und flexibel in dieser transformativen Ära zurechtzufinden. Hier sind einige Taktiken, die Sie berücksichtigen sollten.
Die Datenindizierung ist eine leistungsstarke Möglichkeit, alle unstrukturierten Daten im gesamten Unternehmen zu kategorisieren und sie nach wichtigen Metadaten (Daten zu Ihren Daten) wie Dateigröße, Dateierweiterung, Datum der Dateierstellung und Datum des letzten Zugriffs durchsuchbar zu machen. Transparenz ist die Grundlage für die richtige Platzierung von Daten, um den sich ändernden Geschäftsanforderungen für Archivierung, Analyse, Compliance usw. gerecht zu werden.
Wenn man den Grundstein für KI legt, sind mehr Informationen besser. Je mehr Informationen Sie über Ihre Daten haben, desto besser können Sie diese zum richtigen Zeitpunkt an KI- und ML-Tools übermitteln – und desto besser können Sie sicherstellen, dass Sie über die richtige Speicherinfrastruktur für diese neuen Anwendungsfälle verfügen . Zumindest müssen Sie Datenmengen und Wachstumsraten, Speicherkosten, Top-Datentypen und -größen, Datennutzungsstatistiken der Abteilung sowie „heiße“ oder aktive im Vergleich zu „kalten“ oder selten abgerufenen Daten verstehen.
Sobald Sie über ein grundlegendes Verständnis Ihrer Datenbestände verfügen, können Sie diese mit Metadaten für zusätzliche Suchfunktionen anreichern. Beispielsweise möchten Sie möglicherweise nach Dateien suchen, die personenbezogene Daten (PII) oder Kundendaten, Daten zum geistigen Eigentum (IP), den Namen des Experiments oder die Geräte-ID enthalten. Diese Dateien könnten zur konformen Speicherung oder zur Einspeisung in eine Analyseplattform segmentiert werden.
Angesichts der vielen Anwendungsfälle für KI und andere Forschungszwecke in den Unternehmen müssen die zentrale IT und die IT-Verbindungen der Abteilungen zusammenarbeiten, um Datenverwaltungsstrategien zu entwickeln. Dies stellt sicher, dass Benutzer schnellen Zugriff auf ihre wichtigsten Daten haben, bei Bedarf aber auch auf ältere Daten zugreifen können, die in einem kostengünstigen Speicher archiviert sind.
Geben Sie einem KI-Tool nicht mehr Daten, als zum Ausführen einer Abfrage erforderlich sind. Dies reduziert Leckagen und Sicherheitsrisiken für Unternehmensdaten und erhöht möglicherweise auch die Chance auf hochrelevante und genaue Ergebnisse.
Sicherheit war in einer aktuellen Salesforce-Umfrage unter IT-Führungskräften das Hauptanliegen generativer KI. Indem Sie sensible Unternehmensdaten – wie IP-Adressen, personenbezogene Daten und Kundendaten – in eine private, sichere Domäne verschieben, können Sie sicherstellen, dass Mitarbeiter diese nicht an KI-Tools senden können. Einige Organisationen erstellen ihre eigenen privaten LLMs, um dieses Problem vollständig zu umgehen, auch wenn dies teuer sein kann und spezielle Fähigkeiten und Infrastruktur erfordert.
Datenherkunft und Transparenz rund um die in einer KI-Anwendung verwendeten Trainingsdaten sind von entscheidender Bedeutung – Datenquellen in generativen KI-Anwendungen können unklar, ungenau, verleumderisch und unethisch sein und personenbezogene Daten enthalten. Auch Nicht-KI-Anwendungen integrieren mittlerweile LLMs in ihre Plattformen. Finden Sie heraus, wie Anbieter Ihr Unternehmen mit Ihren Daten und allen externen Daten innerhalb seines LLM vor den verschiedenen Risiken der KI schützen. Machen Sie sich klar, wer für was haftet, wenn etwas schief geht. Bitten Sie das LLM des Anbieters um Transparenz in den Datenquellen.
Wenn Sie in einer regulierten Branche arbeiten, müssen Sie nachweisen, dass Ihre Organisation die Datennutzung einhält. Eine Gesundheitsorganisation müsste beispielsweise gemäß den HIPAA-Regeln sicherstellen, dass keine Patienten-PII-Daten an eine KI-Lösung weitergegeben wurden. Ein KI-Governance-Rahmen sollte Privatsphäre, Datenschutz, Ethik und mehr abdecken. Bilden Sie eine Task Force aus Sicherheits-, Rechts-, Personal-, Datenwissenschafts- und IT-Führungskräften. Datenmanagementlösungen helfen dabei, indem sie eine Möglichkeit bieten, zu verfolgen und zu überwachen, welche Daten von wem an KI-Tools weitergeleitet werden.
Wenn Sie sich dafür entscheiden, Unternehmensdaten mit einem allgemeinen LLM wie ChatGPT oder Bard zu teilen, ist es im Zusammenhang mit dem oben Gesagten wichtig, die Eingaben und Ausgaben sowie den Auftraggeber des Projekts zu verfolgen, falls es später zu Problemen kommen sollte. Zu den Problemen können ungenaue oder fehlerhafte Ergebnisse aufgrund fehlerhafter Daten, Urheberrechtsklagen aufgrund abgeleiteter Werke oder Datenschutz- und Sicherheitsverletzungen gehören. Bedenken Sie, dass LLMs möglicherweise nicht nur die Daten Ihres Unternehmens, sondern auch die Daten anderer Organisationen der Welt zugänglich machen – und Ihre Organisation könnte für die Offenlegung oder den Missbrauch von Daten Dritter, die in einem abgeleiteten Werk entdeckt werden, haftbar gemacht werden.
Wenn Ihre Ergebnisse sachlich korrekt und objektiv sein müssen, sind einige generative KI-Tools möglicherweise nicht die beste Lösung. Bedenken Sie die jüngsten Enthüllungen, dass die neueste Version von ChatGPT deutlich weniger genaue und qualitativ minderwertige Antworten generiert. Maschinelle Lernsysteme sind möglicherweise besser, wenn Ihre Aufgabe ein deterministisches Ergebnis erfordert.
Trotz der vielen Bedenken hinsichtlich der KI – und insbesondere der generativen KI – ist der Grundstein für die Einführung nahe. Eine Umfrage von Upwork ergab, dass 62 Prozent der mittelständischen Unternehmen und 41 Prozent der Großunternehmen generative KI-Technologie nutzen. Eine andere Studie ergab, dass 72 Prozent der Fortune-500-Führungskräfte sagten, dass ihre Unternehmen innerhalb der nächsten drei Jahre generative KI einführen werden, um die Mitarbeiterproduktivität zu verbessern.
Unabhängig davon, wo sich Ihr Unternehmen auf der Einführungskurve befindet, wird sich KI eher früher als später auf Ihre Mitarbeiter, Kunden und Produktlinien auswirken. Seien Sie vorbereitet, indem Sie einen proaktiven Datenmanagementansatz verfolgen, der Transparenz, Analysen, Segmentierung und Governance umfasst, damit Ihr Unternehmen die Vorteile der KI nutzen kann, ohne das Haus zum Einsturz zu bringen.
Krishna Subramanian ist COO und Präsident von Komprise.
Erfahren Sie die neuesten Nachrichten und Best Practices zu Data Science, Big Data Analytics, künstlicher Intelligenz, Datensicherheit und mehr.
Abonnieren Sie Data Insider für Top-News, Trends und Analysen
Verwalten unstrukturierter Daten und ROT10 Tipps zum Umgang mit unstrukturierten Daten in der generativen KIBeginnen Sie mit der SichtbarkeitVerstehen Sie die wichtigsten DatenmerkmaleMarkieren und segmentieren Sie DatenArbeiten Sie mit Abteilungen zusammenGehen Sie wählerisch mit Trainingsdaten umTrennen Sie sensible und proprietäre DatenArbeiten Sie eng mit Anbietern zusammenErstellen Sie einen KI-GovernanceplanVerwendung von Prüfdaten in der KIWählen Sie die richtigen WerkzeugeEndeffekt