Wolfe, Robert, et al. “Contrastive language-vision ai models pretrained on web-scraped multimodal data exhibit sexual objectification bias.”
Der Artikel "Contrastive language-vision ai models pretrained on web-scraped multimodal data exhibit sexual objectification bias" von Robert Wolfe et al. untersucht das Vorhandensein von sexueller Objektivierung und Bias in Sprach-Bild-KI-Modellen, die auf Internetdaten vortrainiert wurden.
Die Autoren stellen fest, dass diese Modelle eine Voreingenommenheit aufweisen, die Frauen, die objektiviert werden, weniger menschliche Eigenschaften zuschreibt - in diesem Fall Emotionen. Sie verwenden GRAD-CAM, um zu zeigen, dass das Modell nach kontextuellen Informationen in irrelevanten Bildsegmenten, wie der Brust, sucht, wenn der Hauptsemantikinhalt in einem Texteingabeaufforderung mit den Emotionen eines Menschen zusammenhängt.
Die Autoren stellen auch fest, dass nicht-sexualisierte Bilder von professionellen Frauen im Vergleich zu Bildern von männlichen Fachleuten mit Sex in Verbindung gebracht werden. Sie weisen darauf hin, dass, sollte KI in automatisierten Beschäftigungsverhältnissen ähnlich wie überwachte Systeme eingesetzt werden, sie Vorurteile verstärken könnte, die gedacht sind, die Teilnahme und Akzeptanz von Frauen in professionellen Kontexten zu behindern.
Die Studie zeigt auch, dass die sexuelle Objektivierung von Mädchen in CLIP-Modellen in den frühen Teenagerjahren beginnt. Obwohl Bilder, die mit der Eingabeaufforderung "ein 18-jähriges Mädchen" erzeugt wurden, nicht visuell inspiziert wurden, geben sie einen Hinweis auf die wahrscheinliche Ausgabe. Diese Bilder lassen oft das Gesicht und den Kopf aus und zeigen, was Beine und weibliche Genitalien oder eine unbedeckte Brust zu sein scheint. Dies steht im Einklang mit Definitionen der sexuellen Objektivierung, die besagen, dass der Körper einer objektivierten Person durch die sexuellen Körperteile repräsentiert wird.
Die Autoren schlagen vor, dass technische Gegenmaßnahmen wie das Dokumentieren, Kuratieren und Vorverarbeiten von Trainingsdatensätzen, um problematische Inhalte zu entfernen, dazu beitragen könnten, die Verbreitung von Bias in Zero-Shot- und Downstream-Einstellungen zu verhindern. Post-Processing-Ansätze wie adversariales Entbiasing oder die Einbeziehung von Voreingenommenheiten, die mit sozialer Identität korrelieren, könnten ebenfalls fruchtbar sein, um die Sexualisierung in Sprach-Bild-Modellen anzugehen. Sie betonen, dass ethische Überlegungen, politische Interventionen und technische Ansätze notwendig sind, um die verantwortungsvolle Implementierung von Sprach-Bild-KI-Systemen zu leiten.
Es ist jedoch wichtig zu beachten, dass der Artikel keine spezifischen Methoden zur Vermeidung von Vorurteilen und Stereotypen in Text-zu-Bild-generierten Bildern bietet. Stattdessen konzentriert er sich auf die Identifizierung und Analyse dieser Vorurteile und Stereotypen in bestehenden Modellen.
Convolutional Neural Networks (CNN)
Convolutional Neural Networks (CNNs) sind eine Art von künstlichen neuronalen Netzwerken, die speziell für die Verarbeitung von rasterbasierten Daten wie Bildern entwickelt wurden. Sie sind eine Schlüsseltechnologie in vielen Bereichen der Künstlichen Intelligenz, einschließlich Bild- und Videoverarbeitung, autonomem Fahren und medizinischer Bildanalyse.
Die Hauptkomponenten eines CNN sind:
- Convolutional Layer: Dies ist die Hauptbaugruppe, die einem CNN seinen Namen gibt. In einem Convolutional Layer wird eine Reihe von Filtern (auch als "Kernels" bezeichnet) über das Eingabebild (oder den Ausgang des vorherigen Layers) bewegt. Jeder Filter ist eine kleine Matrix von Gewichten, die mit einem kleinen Bereich des Bildes multipliziert wird, um einen einzigen Ausgabewert zu erzeugen. Dieser Prozess wird über das gesamte Bild wiederholt, um eine "Feature Map" zu erzeugen, die zeigt, wo im Bild das Muster, das der Filter repräsentiert, gefunden wurde.
- ReLU (Rectified Linear Unit) Layer: Dies ist eine einfache nichtlineare Aktivierungsfunktion, die auf die Ausgabe des Convolutional Layers angewendet wird. Sie transformiert alle negativen Werte in der Feature Map in Nullen, was dazu beiträgt, die Nichtlinearität im Netzwerk zu erhöhen und das Training zu beschleunigen.
- Pooling Layer: Dieser Layer reduziert die räumliche Größe der Feature Map, um die Rechenlast zu verringern und die räumliche Invarianz zu erhöhen (d.h., die Fähigkeit des Netzwerks, ein Muster zu erkennen, unabhängig davon, wo es im Bild erscheint). Es gibt verschiedene Arten von Pooling, wie Max Pooling (das den maximalen Wert in einem bestimmten Fenster auswählt) und Average Pooling (das den Durchschnittswert berechnet).
- Fully Connected Layer: Dies ist ein traditioneller Multi-Layer Perceptron (MLP) Layer, der am Ende des Netzwerks platziert wird, nachdem die räumlichen Informationen extrahiert wurden. Er nimmt die Ausgabe des letzten Pooling Layers und flacht sie in einen eindimensionalen Vektor ab. Dieser Vektor wird dann durch das MLP geführt, um die endgültige Klassifikation oder Regression zu erzeugen.
Ein CNN wird durch einen Prozess namens "Backpropagation" trainiert, bei dem die Fehler des Netzwerks rückwärts durch das Netzwerk propagiert werden, um die Gewichte der Filter und des MLP zu aktualisieren. Dieser Prozess wird wiederholt, bis das Netzwerk eine akzeptable Leistung erreicht.
CNNs sind bekannt für ihre Fähigkeit, komplexe Muster in Bildern zu erkennen, und sie haben viele der modernen Fortschritte in der Bildverarbeitung und Computer Vision ermöglicht.
GRAD-CAM-Modell
Grad-CAM, kurz für Gradient-weighted Class Activation Mapping, ist eine Technik zur Visualisierung der Bereiche in einem Bild, die ein Convolutional Neural Network (CNN) zur Klassifizierung verwendet hat. Es ist ein nützliches Werkzeug, um zu verstehen, welche Teile eines Bildes ein CNN-Modell als wichtig für seine Vorhersagen erachtet.
Die Grundidee hinter Grad-CAM ist, die Gradienteninformationen, die aus den letzten Convolutional Layers eines CNN fließen, zu verwenden, um eine grobe Lokalisierungskarte der wichtigen Bereiche im Bild zu erstellen. Diese Karte wird dann mit dem Originalbild überlagert, um eine Heatmap zu erzeugen, die zeigt, welche Bereiche des Bildes das Modell zur Klassifizierung verwendet hat.
Der Prozess zur Erstellung einer Grad-CAM-Visualisierung besteht aus mehreren Schritten:
- Führen Sie das Bild durch das CNN und führen Sie einen Vorwärtspass durch, um die Ausgabeklassifikationen zu erhalten.
- Wählen Sie die Klasse aus, die Sie visualisieren möchten. Dies könnte die Klasse sein, die das Modell vorhergesagt hat, oder eine andere Klasse, die Sie untersuchen möchten.
- Führen Sie einen Rückwärtspass durch das Netzwerk durch, um die Gradienten der ausgewählten Klasse in Bezug auf die Feature Maps der letzten Convolutional Layer zu berechnen.
- Verwenden Sie diese Gradienten, um eine Gewichtung für jede Feature Map in der letzten Convolutional Layer zu berechnen. Diese Gewichtungen geben an, wie wichtig jede Feature Map für die ausgewählte Klasse ist.
- Erstellen Sie die Lokalisierungskarte, indem Sie die gewichteten Feature Maps aufsummieren und dann eine ReLU-Aktivierungsfunktion anwenden, um nur die positiven Beiträge zu behalten.
- Skalieren Sie die Lokalisierungskarte auf die Größe des Originalbildes und überlagern Sie sie mit dem Originalbild, um die endgültige Grad-CAM-Visualisierung zu erstellen.
Grad-CAM ist eine leistungsstarke Technik zur Visualisierung und Interpretation von CNN-Modellen. Es kann helfen, zu verstehen, welche Teile eines Bildes ein Modell zur Klassifizierung verwendet hat, und kann bei der Fehlersuche und Verbesserung von Modellen nützlich sein. Es kann auch dazu beitragen, Vertrauen in die Vorhersagen eines Modells zu schaffen, indem es zeigt, dass das Modell aus den richtigen Gründen die richtigen Entscheidungen trifft.
- Version
- Download 2
- File Size 826.23 KB
- File Count 1
- Create Date 2023-07-04
- Last Updated 2023-07-06