Smith, Brandon, et al. “Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets.”
Der Artikel "Balancing the Picture: Debiasing Vision-Language Datasets with Synthetic Contrast Sets" von Smith, Brandon et al. befasst sich mit dem Problem der Verzerrungen und Stereotypen in durch KI generierten Bildern. Die Autoren argumentieren, dass die Zuverlässigkeit der gemeldeten Modellverzerrungen in Vision-Language-Modellen (VLMs) durch die Wechselwirkung zwischen Datenverzerrung und der Wahl der Verzerrungsmetrik beeinflusst wird. Sie stellen fest, dass natürliche Bilder aus dem COCO-Datensatz spurious Korrelationen im Bildkontext mit Geschlecht aufweisen, was wiederum beeinflusst, wie viel Vertrauen in gängige Metriken wie Bias@K gesetzt werden kann.
Die Autoren sehen die Ursache für Vorurteile und Stereotypen in den Datensätzen und den Metriken, die zur Messung von Verzerrungen verwendet werden. Sie argumentieren, dass beim Messen von Modellverzerrungen tatsächlich oft Datenverzerrungen gemessen werden. Sie weisen darauf hin, dass ein erheblicher Teil der gemeldeten Modellverzerrungen auf natürlichen Datensätzen auf spurious Korrelationen im Zusammenhang mit Geschlecht zurückzuführen sein könnte, anstatt auf das explizite Geschlecht der Person.
Um Vorurteile und Stereotypen zu vermeiden, schlagen die Autoren einen Ansatz vor, der auf der Erstellung von synthetischen Kontrastsets basiert. Sie schlagen eine Pipeline zur Bearbeitung von Open-Domain-Bildern im großen Maßstab vor, die geschlechterausgeglichene Kontrastsets erstellt, bei denen der semantische Inhalt des Bildes gleich bleibt, mit Ausnahme des Personen-Bounding-Box. Ihre Methode erfordert keine manuelle Prüfung oder Bildkuratierung, sondern stützt sich auf eine effektive automatische Filtermethode. Mit diesem synthetisch erstellten Kontrastset (GENSYNTH) stellten sie fest, dass state-of-the-art CLIP-ähnliche Modelle ähnlich in Bezug auf Geschlechterverzerrung messen, was darauf hindeutet, dass Messungen der Modellgeschlechterverzerrung größtenteils auf spurious Modellverbindungen mit Geschlecht (wie Szene oder Hintergrundinformationen) zurückzuführen sind, anstatt auf das Geschlecht selbst.
Die Autoren weisen jedoch auch auf die Grenzen und ethischen Überlegungen ihres Ansatzes hin. Sie merken an, dass durch die Erzeugung synthetischer Daten eine neue Evaluierungsverteilung geschaffen wird, die nicht unbedingt die reale Verteilung der jeweiligen Kategorien repräsentiert. Sie weisen auch auf die Annahmen von binärem Geschlecht hin, auf die sich ihre Daten stützen, und erkennen an, dass dieser Ansatz die Komplexität der Geschlechtsidentität und des biologischen Geschlechts übersimplifiziert und das Risiko birgt, die Repräsentation von nicht-binären Menschen zu löschen. Darüber hinaus könnte ihre Pipeline durch die Verwendung eines generativen Bildbearbeitungsmodells unbeabsichtigt Verzerrungen durch stereotypische Darstellungen von Geschlecht und Rasse einführen.
Die Kernbotschaft des Artikels ist, dass die Verwendung von synthetischen Kontrastdatensätzen eine effektive Methode zur Verringerung von Vorurteilen in Vision-Sprache-Datensätzen sein kann. Durch die Erzeugung von Bildern, die die gleiche Szene aus verschiedenen Perspektiven darstellen, können Modelle dazu ermutigt werden, weniger voreingenommene Vorhersagen zu treffen. Gleichzeitig betonen die Autoren die Notwendigkeit, die ethischen Implikationen und Grenzen dieses Ansatzes zu berücksichtigen, einschließlich der Gefahr der Übersimplifizierung von Geschlechtsidentität und der potenziellen Einführung neuer Verzerrungen durch generative Bildbearbeitungsmodelle.
- Version
- Download 2
- File Size 5.21 MB
- File Count 1
- Create Date 2023-07-04
- Last Updated 2023-07-06