Qiu, Haoyi, et al. “Gender Biases in Automatic Evaluation Metrics: A Case Study on Image Captioning.”

[featured_image

Der Artikel "Gender Biases in Automatic Evaluation Metrics: A Case Study on Image Captioning" von Haoyi Qiu et al. untersucht das Problem der Geschlechterverzerrungen in automatischen Evaluationsmetriken, insbesondere im Kontext der Bildbeschriftung. Die Autoren argumentieren, dass solche Verzerrungen ein Problem darstellen, da sie die Leistung von Modellen zur Generierung von Bildunterschriften beeinflussen und zu ungenauen oder voreingenommenen Ergebnissen führen können.

Die Autoren identifizieren die Hauptursache für diese Verzerrungen in den Datensätzen, die zur Schulung der Modelle verwendet werden. Sie argumentieren, dass diese Datensätze oft unausgewogen sind und stereotype Darstellungen von Geschlechtern enthalten, die dann von den Modellen gelernt und in ihren Vorhersagen repliziert werden.

Um dieses Problem zu lösen, schlagen die Autoren eine Reihe von Ansätzen vor. Zunächst stellen sie fest, dass bestehende Modelle zur Bildbeschriftung erhebliche Geschlechterverzerrungen aufweisen. Sie schlagen vor, diese Modelle mit einer Methode zur Fehlerkorrektur zu verbessern, die auf Regeln basiert. Insbesondere schlagen sie vor, die Geschlechtervorhersagen des Modells in seinen generierten Bildunterschriften zu korrigieren. Wenn beispielsweise ein Bild einer Frau mit dem Wort "Mann" beschriftet wird und keine weiblichen assoziierten Wörter aus einem von Hendricks et al. (2018) definierten Lexikon vorhanden sind, schlagen sie vor, "Mann" durch "Frau" zu ersetzen. Sie stellen jedoch fest, dass diese Methode nur in begrenzten Szenarien anwendbar ist.

Darüber hinaus schlagen die Autoren vor, eine hybride Ähnlichkeitsmetrik zu verwenden, die sowohl n-Gramm-Übereinstimmungsmetriken als auch vortrainierte Modell-basierte Metriken kombiniert, um Geschlechterverzerrungen zu verringern. Sie stellen fest, dass diese hybride Metrik die Geschlechterverzerrungen in den Evaluationsmetriken erheblich reduzieren kann, während sie eine stärkere Korrelation mit menschlichen Urteilen aufrechterhält als bestehende Metriken.

Die Autoren führen auch eine Reihe von Experimenten durch, um ihre Behauptungen zu stützen. Sie stellen fest, dass die Verwendung von voreingenommenen Modell-basierten Evaluationsmetriken dazu führen kann, dass voreingenommene Generierungsmodelle bevorzugt werden und dass die Geschlechterverzerrungen in den Modellen durch Verstärkungslernen verstärkt werden können. Sie stellen auch fest, dass die Verwendung ihrer vorgeschlagenen hybriden Metrik dazu beitragen kann, diese Probleme zu mildern.

Zusammenfassend lässt sich sagen, dass der Artikel eine gründliche Untersuchung der Geschlechterverzerrungen in automatischen Evaluationsmetriken für die Bildbeschriftung bietet und mehrere Ansätze zur Lösung dieses Problems vorschlägt. Die Autoren betonen die Notwendigkeit, diese Verzerrungen zu berücksichtigen, um genDer Artikel "Gender Biases in Automatic Evaluation Metrics: A Case Study on Image Captioning" von Haoyi Qiu et al. untersucht das Problem der Geschlechterverzerrungen in automatischen Evaluationsmetriken, insbesondere im Kontext der Bildbeschriftung. Die Autoren argumentieren, dass solche Verzerrungen ein Problem darstellen, da sie die Leistung von Modellen zur Generierung von Bildunterschriften beeinflussen und zu ungenauen oder voreingenommenen Ergebnissen führen können.

Download

Version
Download
File Size 443.90 KB
File Count 1
Create Date 2023-07-04
Last Updated 2023-07-06

Qiu, Haoyi, et al. “Gender Biases in Automatic Evaluation Metrics: A Case Study on Image Captioning.”

Previous post

Friedrich, Felix, et al. “Fair diffusion: Instructing text-to-image generation models on fairness.”

Next post

Tanjim, Md Mehrab, et al. “Generating and controlling diversity in image search.”

Leave a reply Antworten abbrechen

Subscribe

Get my Updates

Previous post

Friedrich, Felix, et al. “Fair diffusion: Instructing text-to-image generation models on fairness.”

Next post

Tanjim, Md Mehrab, et al. “Generating and controlling diversity in image search.”

Leave a reply Antworten abbrechen