EU-Webseitenrichtlinie – die „Vereinfachte Überwachung“ im Kontext der Überwachungsmethodik

09. Juli 2019, von Detlev Fischer (Kommentare: 1)

Die EU-Richtlinie 2102, welche die Barrierefreiheit für öffentliche Webangebote und mobile Apps verlangt, wird durch eine Überwachungsmethodik begleitet, die fortlaufend den Grad der Umsetzung der Richtlinie überprüfen soll. Die Überwachungsmethodik wurde im Oktober 2018 als Durchführungsbeschluss (EU) 2018/1524 veröffentlicht.

Die Überwachungsmethodik im Überblick

Die Überwachungsmethodik wird zukünftig regelmäßig vom Bund und von den Ländern für eine Stichprobe von öffentlichen Websites und mobilen Apps durchgeführt. Sie hat zwei Teile: die „Vereinfachte Überwachungsmethode“ und die „Eingehende Überwachungsmethode“, die nur auf einen kleinen Teil der Stichprobe angewandt wird.

Bei der Zusammenstellung der Stichprobe für die Überwachung sollen verschiedene Kriterien berücksichtigt werden, z.B.

der Einfluss bestimmter Websites und mobiler Anwendungen,
über den Feedback-Mechanismus von Angeboten eingegangene Rückmeldungen,
frühere Überwachungsergebnisse,
Hinweise der Durchsetzungsstelle und
Vorschläge nationaler Interessenträger (Dies sind im Wesentlichen die Verbände der Selbsthilfe, die darauf pochen können, dass Angebote mit großer Bedeutung in der Stichprobe landen).

Die Größe der Stichprobe errechnet sich nach der Einwohnerzahl des EU-Mitglieds. Für Deutschland beträgt sie in den ersten zwei Jahren 1.715 Webangebote, ab dem dritten Jahr steigt die Anzahl auf 2.535 Webangebote. Diese verteilen sich auf den Bund und die Länder. 88 mobile Apps werden geprüft. All diese Angebote unterliegen der vereinfachten Überwachung. Nur eine Auswahl von 5% aus dieser Gesamtstichprobe (also 86 Webangebote in Jahr 1 und 2, 127 in den Folgejahren) werden eingehend geprüft.

Der erste Überwachungszeitraum für Webangebote läuft über zwei Jahre, von 1.1.2020 bis 22.12.2021. Die Überwachung für mobile Apps startet erst am 23. Juni 2021 und endet gleichfalls am 22.12.2021. Ab dann läuft die Überwachung jährlich.

Was ist die „vereinfachte Überwachung?“

Gemäß Anhang I des Durchführungsbeschluss (EU) 2018/1524 werden in der vereinfachten Überwachung neben der Startseite eine Anzahl von Seiten geprüft, die in einem angemessenen Verhältnis zur geschätzten Größe und zur Komplexität der Website stehen sollen. Es soll dann in dem „unter Verwendung automatisierter Tests größtmöglichen Maße“ geprüft werden, wie die folgenden Bedürfnisse der Nutzer bezüglich des barrierefreien Zugangs erfüllt werden:

Nutzung ohne Sehvermögen,
Nutzung mit eingeschränktem Sehvermögen,
Nutzung ohne Wahrnehmung von Farben,
Nutzung ohne Hörvermögen,
Nutzung mit eingeschränktem Hörvermögen,
Nutzung ohne Sprechvermögen,
Nutzung mit eingeschränkter manueller Fähigkeit oder eingeschränkter Kraft,
Notwendigkeit der Minimierung der Auslöser fotosensitiver Anfälle,
Nutzung mit eingeschränkter Kognition.

Erklärte Ziele der vereinfachten Überwachung

Der vereinfachte Test hat also zwei Ziele:

Einen Überblick zu bekommen über Barrieren bezüglich neun verschiedener Nutzungsweisen mit funktionaler Beeinträchtigung, bezogen auf das Sehvermögen (siehe oben Punkte 1-3), das Hörvermögen (Punkte 4 und 5), das Sprechvermögen (Punkt 6), motorische Beeinträchtigung (Punkt 7), Neigung zur Epilepsie (Punkt 8) und kognitiver Beeinträchtigung (Punkt 9).
Eine Rückmeldung zu geben, ob bezüglich einer oder mehrerer der genannten funktionalen Beeinträchtigungen die Nichterfüllung einer der WCAG 2.1 Erfolgskriterien feststellbar ist.

Nicht alle Erfolgskriterien können und sollen also geprüft werden, sonst wäre es keine vereinfachte Überwachung. Der Aufwand soll möglichst gering, das Ergebnis aber aussagekräftig sein. Die Frage stellt sich, was das „größtmögliche Maß der Verwendung automatisierter Tests“ bedeutet, und inwieweit so eine automatische Prüfung den Zielen der vereinfachten Überwachung gerecht wird.

Automatisierte Tests und das Problem der selektiven Optimierung

Die bisherigen Erfahrungen mit automatischen Überprüfungen haben gezeigt, dass Anbieter dazu neigen, ihre Angebote selektiv zu optimieren, wenn bekannt ist, welche Anforderungen geprüft werden (bzw. vom jeweiligen Tool automatisiert erfasst werden) und welche nicht. Das heißt, dass Aspekte, die sich bis heute nicht oder nur sehr unvollkommen automatisch prüfen lassen, ggf. unkorrigiert bleiben, da sie von der Überprüfung ja nicht erfasst werden. Der Durchführungsbeschluss (EU) 2018/1524 geht darauf nur unvollkommen ein, in dem er in Punkt 1.3.3 verlangt:

„Nach jeder Frist für die Vorlage eines Berichts gemäß Artikel 8 Absatz 4 der Richtlinie (EU) 2016/2102 überprüfen die Mitgliedstaaten die Testvorschriften für das vereinfachte Überwachungsverfahren.“

Eine Überprüfung ist nicht notwendiger Weise eine Veränderung, ein Wechsel der einbezogenen Erfolgskriterien und Testmethoden. Solch ein Wechsel entspricht aber dem Geist der Richtlinie. Denn zu befürchten ist, dass sonst in der vereinfachten Überwachung der Einfachheit halber immer nur jene Aspekte von Webinhalten geprüft werden, die sich automatisch prüfen lassen, auch wenn diese Prüfung bezogen auf das tatsächliche Ergebnis (ist das Erfolgskriterium erfüllt oder nicht?) notwendigerweise unvollständig ist.

Formale und inhaltliche Aspekte der Prüfung

Warum reicht eine formale Prüfung mittels automatisierter Tests nicht aus, wenn diese doch sicher Fälle von Nicht-Konformität identifizieren können? Die knappe Antwort ist: Weil sie andere, nicht-formale Fälle von Nichtkonformität nicht erkennen können und damit jene Angebote bevorzugen, die zwar formal korrekt, inhaltlich aber dennoch möglicherweise fehlerhaft umgesetzt sind.

Die automatische Prüfung von Teilaspekten

Zur Erklärung: Bei einer Überprüfung eines Erfolgskriteriums wie 1.1.1 Nicht-Text können automatisierte Verfahren häufig nur Teilaspekte einer Anforderung überprüfen. So kann ein automatisierter Test ergeben, dass bei einem Bild ein alt-Attribut fehlt, das den Alternativtext liefern könnte. Das ist ein klares „FAIL“. In anderen Fällen jedoch, in denen ein alt-Attribut vorhanden ist, muss von Menschen geprüft werden, ob der Alternativtext sinnvoll ist, also etwa das Linkziel einer verlinkten Teasergrafik angibt oder eine Informationsgrafik sinnvoll beschreibt. Hier kann die automatische Prüfung allein die Nichtkonformität nicht feststellen.

Begrenzte Aussagen zur Nicht-Konformität

Der Unterschied zwischen formalen und inhaltlichen Anforderungen zieht sich durch viele der WCAG-Erfolgskriterien. Formale Eigenschaften von Buttons, Textfeldern, Links oder HTML-Seitentiteln (Ist das Element benannt? Sind ARIA-Attribute hier valide? Nutzen sie erlaubte Werte?), lassen sich zwar automatisch überprüfen, aber es lässt sich nicht automatisiert feststellen, ob solche Elemente sinnvoll benannt und ihre Werte korrekt gesetzt sind. Eine valide Prüfung der meisten Erfolgskriterien wie 1.1.1 Nicht-Text-Inhalt, 1.2.2 Untertitel (aufgezeichnet), 2.4.2 Seite mit Titel versehen, 3.3.2 Beschriftungen (Labels) oder Anweisungen oder 4.1.2 Name, Rolle, Wert ist deshalb nicht ohne zusätzliche menschliche Prüfung machbar. Formale Fehler können zwar gefunden und Fälle von Nicht-Konformität aufgezeigt werden, aber auch sinnlose, irreführende oder obskure Beschriftungen, Überschriften, Seitentitel, Video-Untertitel usw. müssten eine Bewertung als nicht-konform nach sich ziehen, damit der Prüfansatz insgesamt valide ist. Diese Aspekte werden jedoch von automatisierten Tests ohne menschlichen Zusatztest gar nicht oder nur sehr unvollkommen erfasst.

Ausschließlich automatische Überprüfung im Konflikt mit den Zielen der vereinfachten Überwachung

Eine Methodik, die ausschließlich auf automatisierte Tests setzt und sich bei der Überprüfung der neun Bereiche damit zufrieden gibt, dass sich ja schließlich über Teilprüfungen in fast allen neun Bereichen Fälle von Nicht-Konformität feststellen lassen, verfehlt damit das ausdrücklich genannte Ziel der vereinfachten Überwachung, nämlich festzustellen, wie die genannten neun Bedürfnisse der Nutzer bezüglich des barrierefreien Zugangs erfüllt werden. Zu bedenken ist auch, dass es abhängig vom genutzten Tool häufig zu Falschergebnissen kommt: Ein Fehler wird angezeigt, bei näherer Überprüfung zeigt sich aber, dass kein Fehler vorliegt. Auch hier ist ein zusätzlicher Blick eines Menschen auf die Ergebnisse wichtig, um solche sogenannten „False Positives“ auszuscheiden.

Der Kostenfaktor und die häufige Nicht-Konformität von Angeboten

Der einzige Grund, nur auf automatische Überprüfung zu setzen, wäre das Kostenargument: Eine rein automatische Prüfung von Teilaspekten ist unaufwändiger als ein Test, der für jede der neun Bereiche mindestens ein Erfolgskriterium vollständig prüft – aber er kann nicht valide feststellen, ob die neun Gruppen betroffen sind. Ein zweiter Grund zeichnet sich dann ab, wenn man den Nutzen der Überprüfung darauf reduziert, die formale Nicht-Konformität eines Angebotes festzustellen: Erfahrungsgemäß ist praktisch jedes Angebot an irgendeiner Stelle nicht-konform.

Kriterien für eine valide und dennoch effiziente vereinfachte Überwachung

Variation und Vergleichbarkeit

Ein Ziel der vereinfachten Überwachung ist die Generierung von Ergebnissen über alle EU-Mitgliedsstaaten hinweg. Dies spricht dafür, in einem Vergleichszeitraum jeweils die gleichen Erfolgskriterien zu überprüfen. Unklar ist, ob sich so eine Auswahl europaweit koordinieren ließe – uns sind bisher keine Anstrengungen in dieser Richtung bekannt. Wenn verschiedene Mitgliedsstaaten hier ohnehin eigene Wege beschreiten, wird die europaweite Vergleichbarkeit der jeweils geprüften Untergruppe von Erfolgskriterien der vereinfachten Überwachung sehr eingeschränkt sein. Besser sieht es aus mit den Ergebnissen der eingehenden Überwachung, da hier ja alle WCAG-Kriterien miteinbezogen werden müssen.

Wenn davon auszugehen ist, dass eine europaweite Vergleichbarkeit unrealistisch ist, besteht dennoch die Möglichkeit, auf Bundes- und Länderebene eine einheitliche Auswahl von Erfolgskriterien zu treffen, die alle neun funktionalen Einschränkungen berühren. Dies wird Aufgabe der neuen Überwachungsstelle des Bundes und der Länder sein.

Der Nachteil der Vereinheitlichung: Da kaum zu vermeiden ist, dass die Auswahl bekannt wird, könnten Anbieter selektiv optimieren, also sich vorrangig um die Barrieren kümmern, die geprüft werden. Andere Barrieren bleiben ggf. bestehen.

Beschränkung auf indikative Ergebnisse, Verzicht auf Vollständigkeit

Das Ziel der Ausrichtung auf die Feststellung „Nicht-Konformität“ legt nahe, dass die Prüfung einer Seite gemäß eines bestimmten Prüfschritts nicht vollständig sein muss. Wenn der erste klare Mangel auf einer Seite gefunden ist, wird er dokumentiert und der Prüfschritt auf dieser Seite wird abgebrochen. Der Anspruch, vollständige Rückmeldungen zu den tatsächlichen Mängeln / Barrieren für Menschen mit Behinderung zu geben, ist ja mit dem vereinfachten Verfahren ohnehin nicht umsetzbar. Dennoch sind die begrenzten Ergebnisse valide in der Hinsicht, dass die Erfüllung des jeweiligen Erfolgskriteriums auf einer bestimmten Seite, an einer bestimmten Stelle, vollständig ist.

Es ist davon auszugehen, dass gefundene Mängel oft auch das Vorhandensein weiterer Mängel nahelegen. Für den Betreiber des Angebots wäre das Prüfergebnis zumindest ein erster Abriss von Barrieren über alle neun funktionellen Beeinträchtigungen hinweg.

Einbeziehung von Menschen mit Behinderungen

Eine vereinfachte Überwachungsmethode kann auch Menschen mit Behinderung Gelegenheit bieten, in ihrer Nutzungsart jene Aspekte von funktionalen Einschränkungen zu testen, die für sie erfahrbar und überprüfbar sind. Andere Teammitglieder können Tests gegebenenfalls ergänzen.

Optionen für die Prüfung

Verschiedene Vorgehensweisen sind denkbar, wenn es um die Durchführung einer Prüfung im Rahmen der vereinfachten Überwachung geht. Was die neun funktionalen Einschränkungen angeht, müsste minimal ein Prüfschritt, der für die jeweilige Einschränkung relevant ist, einbezogen werden. Oft kommen mehrere in Betracht, die gleichermaßen wichtig sind. In vielen Fällen sind Mängel schnell zu erkennen. Hier sind folgende verschiedene Prüfansätze denkbar:

Mängelorientierte Prüfung: Eine Schnellprüfung identifiziert auffällige Schwächen und dokumentiert diese in einem geeigneten Prüfschritt, und zwar so lange, bis für jede Seite alle neun Bereiche abgedeckt sind. Das heißt, wenn sich „auf den ersten Blick“ Schwächen beim Schriftkontrast zeigen, wird eine Kontrastmessung durchgeführt und die Nicht-Konformität mit Nennung des betroffenen Elements im Prüfschritt 1.4.3 festgehalten. Weitere Prüfschritte, die für Menschen mit eingeschränktem Sehvermögen relevant sind, werden dann nicht durchgeführt, selbst wenn in anderen Bereichen, etwa Vergrößerbarkeit oder Umbruch, ebenfalls Mängel zu finden wären.
Prüfung nach Vorauswahl von Prüfschritten: Die Prüfung nach Vorauswahl prüft auf den ausgewählten Seiten jeweils vorausgewählte Prüfschritte, wobei die Auswahl für alle Tests eines Prüfzeitraums vorgegeben sein kann oder vor Beginn der Prüfung festgelegt wird. Die Vorauswahl könnte sich an besonders häufig auftretenden bzw. besonders gravierenden Mängeln orientieren. Hier könnten verschiedene Vorauswahl-Sets geschaffen werden, die bei Abdeckung der neun funktionalen Einschränkungen auf unterschiedliche Weise wichtige Aspekte erfassen. Die Prüfung selbst läuft dann ähnlich wie bei der mängelorientierten Prüfung: Wurde ein Anhaltspunkt für Nicht-Konformität gefunden (z.B. ein nicht ausreichend kontrastierender Text), wird das Problem benannt und die Prüfung wird auf der entsprechenden Seite abgebrochen.
Mängelorientierte Prüfung durch Betroffene: Die Prüfung durch Nutzer mit Behinderungen ist eine Variante des mängelorientierten Ansatzes. Die Nutzer prüfen jene Aspekte der neun funktionalen Einschränkungen, die für sie prüfbar sind. Die Prüfung wird an den Stellen, die behinderungsbedingt nicht prüfbar sind, von einem anderen Teammitglied ergänzt. Damit ist je nach Nutzer und Behinderung auch eine Beschränkung für die Auswahl der Prüfschritte gegeben. Ein blinder Nutzer kann zum Beispiel, die Erfüllung der Kontrastanforderung für Texte mittels eines Tools wie dem Accessibility Audit (ein Chrome DevTool) durchführen, andere Aspekte, etwa Grafikkontraste, Umbruch oder Textvergrößerung, sind dagegen nicht selbstständig prüfbar.
Automatische Prüfung mit menschlicher Ergänzungsprüfung. Ein solcher Test kann mit dem Durchführen eines Accessibility Audits (etwa über Tools wie „axe“ oder Chrome DevTools Audits) auf den ausgewählten Seiten beginnen. Hier werden häufig Fehler aufgelistet werden, die sich bestimmten Anforderungen zuordnen lassen. So kann ein inkorrekter Gebrauch eines ARIA-Attributs als Nicht-Konformität von 4.1.2 Name, Rolle, Wert gewertet werden. Wichtig ist jedoch, dass ein Fehlen von angezeigten Mängeln bezüglich bestimmter Anforderungen nicht bedeutet, dass keine Mängel bezüglich einer Anforderung bestehen. Dies verlangt einen zusätzlichen Blick auf die inhaltlichen Aspekte (z. B. ist der Seitentitel, der zugängliche Name, die zugewiesene Rolle, der ausgegebene Wert, die Fehlermeldung, usw. korrekt bzw. sinnvoll?).

Zurück

Kommentare

Kommentar von Jörg Morsbach | 2019-07-30

Kein einziger automatisierter Test dieser Welt wird jemals Barrierefreiheit nach den offiziellen Richtlinien überprüfen können. Es gibt nur ein paar wenige Teilaspekte, die automatisiert prüfbar sind. Nicht nur die Sinnhaftigkeit von Alternativtexten und aria-labels oder die generelle Semantik allgemein lassen sich ohne manuellen Test praktisch nicht kontrollieren. Auch visuelle Probleme, die sich durch Überlagerung zum Beispiel bei 200 % Zoom oder durch veränderten Zeichen-, Wort- und Zeilenabstände ergeben, lassen sich nur durch Sichtprüfung feststellen. Es gibt dutzende von Beispielen, wo automatische Test scheitern. Automatische Tests können lediglich ein Hilfestellung zur Qualitätssicherung großer Projekte im laufenden Betrieb darstellen. Mehr nicht.

Wir haben im Rahmen des Globale Accessibility Awarenes Days 2018 mal die Seite von bayern.de durch einen manuellen Expertentest und durch die beiden automatischen Testtools von aXe und Tenon.io analysiert und das Ergebnis verglichen. Eine tabellarische Übersicht finden Sie hier. Fazit: Die Testtools konnten viele Probleme nicht identifizieren:
https://www.fronta11y.org/tabelle-expertentest-vs-automatisierte-tests-der-barrierefreiheit/

Die ausführliche Analysen finden Sie unter https://www.fronta11y.org/automatisierte-testtools-vs-handarbeit/ und https://www.fronta11y.org/automatisierung-accessibility-tests/