[featured_image

Die Studie "DALL-EVAL: Probing the Reasoning Skills and Social Biases of Text-to-Image Generative Models" von Cho, Jaemin, Abhay Zala und Mohit Bansal untersucht die Fähigkeiten und sozialen Vorurteile von Text-zu-Bild generativen Modellen. Die Autoren stellen zwei neue Evaluationsaspekte für die Text-zu-Bild-Generierung vor: visuelle Denkfähigkeiten und soziale Vorurteile.

Für die visuellen Denkfähigkeiten führen sie PAINTSKILLS ein, ein kompositionelles diagnostisches Datenset und Evaluationswerkzeug, das darauf ausgelegt ist, drei Fähigkeiten zu messen: Objekterkennung, Objektzählung und Verständnis räumlicher Beziehungen. Ihre Experimente zeigen, dass neuere Text-zu-Bild-Modelle besser darin sind, Objekte zu erkennen als Objekte zu zählen und räumliche Beziehungen zu verstehen. Es besteht jedoch eine große Lücke zwischen der Leistung der Modelle und der maximalen Genauigkeit bei den beiden letzteren Fähigkeiten.

Die Autoren zeigen auch, dass die Modelle spezifische Geschlechts-/Hautfarben-Vorurteile aus Web-Bild-Text-Paaren lernen. Sie hoffen, dass ihre Evaluierung neue Einblicke für zukünftige Forschungen zum Erlernen herausfordernder visueller Denkfähigkeiten und zum Verständnis sozialer Vorurteile bietet.

In Bezug auf die "Bias Detection and Mitigation" stellen die Autoren fest, dass sie Bilder aus neutralen Textaufforderungen generieren. Dann liefern automatisierte Detektoren und menschliche Annotatoren Geschlecht/Hautfarbe aus den Bildern für die soziale Bias-Analyse. In beiden automatisierten Erkennungen und menschlichen Evaluierungen zeigt minDALL-E niedrigere STD- und MAD-Werte als Stable Diffusion, was darauf hindeutet, dass Stable Diffusion eine stärkere Tendenz hat, Bilder eines bestimmten Geschlechts oder einer bestimmten Hautfarbe aus neutralen Aufforderungen zu generieren als minDALL-E.

Für die Geschlechtserkennung führen sie eine Korrelationsanalyse zwischen menschlicher und CLIP-basierter Geschlechtsbias-Evaluierung durch. Sie finden eine "sehr starke" Korrelation, mit einer Übereinstimmungsrate von 87%, was darauf hindeutet, dass die automatisierte CLIP-basierte Evaluierung von Geschlechtsbias von minDALL-E und Stable Diffusion gut mit der menschlichen Evaluierung übereinstimmt.

Für die Hautfarbenerkennung vergleichen sie direkt die von menschlichen Annotatoren erkannten Hautfarbskalen und den automatisierten Hautsegmentierungsalgorithmus. Zwischen den beiden Ergebnissen der Hautfarbenerkennung gab es nur einen mittleren absoluten Unterschied von 1,2 (von 10 Skalen) auf der Hautfarbskala, was zeigt, dass ihre automatisierte Hautfarbenerkennung gut mit der menschlichen Evaluierung übereinstimmt.

Die Autoren weisen darauf hin, dass sie vortrainierte Evaluierungsmodelle für einige ihrer Analysen verwenden, die keine robuste Evaluierung von Text-zu-Bild-Generierungsmodellen ermöglichen. Dies liegt daran, dass diese Modelle auf bestimmten Datensätzen trainiert wurden und daher möglicherweise nicht in der Lage sind, die Qualität oder Relevanz von Bildern zu bewerten, die von Text-zu-Bild-Generierungsmodellen erzeugt wurden, die auf anderen Datensätzen trainiert wurden.

Darüber hinaus könnten diese Evaluierungsmodelle ihre eigenen Vorurteile und Einschränkungen haben, die die Ergebnisse der Analyse beeinflussen könnten. Zum Beispiel könnten sie bestimmte Arten von Bildern bevorzugen oder benachteiligen, oder sie könnten Schwierigkeiten haben, die Qualität von Bildern zu bewerten, die komplexe oder abstrakte Konzepte darstellen.

Um diese Probleme zu überwinden, schlagen die Autoren vor, mehrere verschiedene Evaluierungsmodelle zu verwenden und die Ergebnisse zu vergleichen, um ein umfassenderes Bild der Leistung des Text-zu-Bild-Generierungsmodells zu erhalten. Sie betonen auch die Notwendigkeit, kontinuierlich neue und verbesserte Evaluierungsmodelle zu entwickeln, die eine genauere und fairere Bewertung von Text-zu-Bild-Generierungsmodellen ermöglichen.

  • Version
  • Download
  • File Size 24.55 MB
  • File Count 1
  • Create Date 2023-07-06
  • Last Updated 2023-07-06