SEKGR00521080214350

Dieses Dokument ist Teil der Anfrage „Virtuelle Rekonstruktion von Stasi-Unterlagen

/ 47
PDF herunterladen
1 Bild 1: Struktur des Prozesses aus [3] Ich war Mitarbeiter der Fraunhofer Gesellschaft (IIS-A) in Erlangen bis Mitte 2014 (in geringfügiger Beschäftigung und genehmigter Nebentätigkeit). Eine Be- fangenheit bezüglich eines Gutachtens über Projekte des IPK ergibt sich daraus nicht. 0.3     Gliederung Eine Einleitung findet sich in Abschnitt 1. Das Teilprojekt ePuzzler wird in Ab- schnitt 2diskutiert. Das Teilprojekt Digitalisierungsstrße wird in Abschnitt 3dis- kutiert. Eine Gesamtbewertung findet sich in Abschnitt 5. Vorschläge für eine sofortige Umsetzung (Digitalisierungsstraße) bzw. weitere Vorbereitungen für eine Umsetzung (ePuzzler) der Projektskizzen finden sich in Abschnitt 6. Eine abschlie- ßende Bewertung ist in Abschnitt 7 zu finden. Einige Anhänge vervollständigen den Text. Im Gutachten werden Aussagen, die in der Bewertung in Abschnitt 5aufgegriffen werden, durch einen Pfeil gekennzeichnet (z. B. --> Abschnitt 5.2).
5

1     Einleitung 1.1     Literatur Laut Auftrag handelt es sich um ein Forschungsprojekt, wie dies im Dokument P3 auf Seite 4festgestellt wird. Daher sind auch wissenschaftliche Veröffentlichungen zu erwarten, die sich aus den Forschungsfragen ergaben. Die folgenden Veröffentli- chungen beschäftigen sich mit dem Thema des Auftrags: [DKS10], [KS09], [SNO8]. Diese Veröffentlichungen beschäftigen sich primär mit der Merkmalsauswahl und Merkmalsdetektion. Generelle - wissenschaftliche oder forschungsorientierte — Fra- gen der Zuordnung von Merkmalsmengen, wie sie in der Projektskizze zum ePuzz- ler vorgeschlagen werden, sind in diesen Veröffentlichungen nicht das Thema (— Abschnitt 5.3, —> Abschnitt 5.1). 1.2     Zahlen, Daten, Fakten Zu bearbeitende Säcke (geplant)       400 Unbearbeitete Säcke                15.100 Gesamtzahl Säcke                   15.400 Tabelle 1: Säcke mit Schnipseln Die in Tabelle 1 zusammengefassten Zahlen und Fakten wurden den Primärdo- kumenten entnommen. Bisher wurden 702.460 Schnipsel gescannt. Davon wurden 526.000 aus 17 Säcken zur Verarbeitung vorbereitet (dies entspricht ca. 30.900 Schnipsel pro Sack) und 290.000 aus 12 Säcken rekonstruiert (dies entspricht ca. 24.200 Schnipsel pro Sack). Die bisherigen Rekonstruktionen lassen vermuten, dass ein Sack ca. 30.000 Schnipsel enthält und daraus bis zu 3.800 Seiten rekonstruiert werden können. Aus dem Dokument P3 (S. 4) ergeben sich 3.000 rekonstruierte Seiten pro bisher untersuchtem Sack. Die Schätzungen zu der Gesamtanzahl der Schnipsel sind widersprüchlich. In P2 auf S. 5 wird von einer Gesamtanzahl von 15.000.000 Schnipseln ausgegangen. In einem auf der Webseite des IPK zu findenden Vortrag von Herrn Dr.-Ing. Bertram Nickolay wird von bis zu 1.200.000.000 Bildern bzw. Schnipseln und 40.000.000 Blättern gesprochen [4]. Bei einer Dokumentgröße DIN A4: ( 21 cm x 29,7 cm) und einer Scanauflösung von 300dpi ergeben sich ca. 8.700.615 Pixel ( ca 9 MPixel) pro Seite, also 27 MB unkomprimiert, die sich realistisch zu ca. 5-10 MB komprimieren lassen. Damit ist 6
6

die in P3 genannte Abschätzung zur Speicherung realistisch. 2 Selbst bei der genannten Obergrenze von ca. 40.000.000 Seiten insgesamt ergeben sich zwar extrem große, aber mit heutiger Technik beherrschbare Datenmengen von ca. 500 Tb Bilddaten. 1.3      Terminologie im Text der Projektskizzen Es ist festzustellen, dass sehr häufig die Worte • Optimierung ( ca. 15 Vorkommen im Text) • Maximierung ( ca. 20 Vorkommen im Text) bzw. Minimierung • Präzisierung • Beschleunigung • Flexibilisierung • Robustheit (bzw. das Adjektiv robust), robuste Klassifikation • Stabilisierung, stabile Klassifikation • Generalisierung • Accuracy • Qualität verwendet werden, ohne diese Begriffe im mathematischen oder computer-           technischen Sinne korrekt zu nutzen oder zu belegen 3 oder sie messbar zu machen, wie es in [5] gefordert wird. 2      ePuzzler 1.1-2.0 Das Pilotsystem ePuzzler gliedert sich in zwei Hauptbausteine: dem sogenannten Core und der Rahmensoftware. Eine Zuordnung der Arbeitspakete zu diesen bei- 2Bei  den in P3 S. 14 genannten 5T € handelt es sich vermutlich um einen Tippfehler — es sollten 5K € sein. 3Auf diese Problematik wird in Abschnitt 5.2 eingegangen. 7
7

den Hauptbausteinen erfolgt in den Projektskizzen nicht. 4.Vorgeschlagen sind die Schritte ePuzzler 1.1, ePuzzler 1.2 sowie der Übergang zum ePuzzler 2.0. 1. ePuzzler 1.1: Verbesserung und Beschleunigung der Algorithmen und der Datenbank 2. ePuzzler 1.2: Puzzler als globales Optimierungsproblem mit Load- Balancing 3. ePuzzler 2.0: GUI und Administration Abhängigkeiten der Arbeitspakete werden im Text explizit genannt und in Bild 3 auf S. 24 dargestellt. In diesem Graphen sind einige zentrale Arbeitspakete ersicht- lich, die auf den Ergebnissen zahlreicher anderer Pakete beruhen — beispielsweise das Paket 21.01. Im Folgenden werden die einzelnen Arbeitspakete kommentiert. 2.1      AP 11 „ Flexibilisierung des Workflows" Ziel im AP 11 „ Flexibilisierung des Workflows" ist eine Überarbeitung der Software und Datenbankstruktur. • Die im AP 11.01 „ Portierung aller ePuzzler-Core-Module nach 64Bit" ge- nannte Portierung sollte bei guter Software-      Architektur nur geringen Auf- wand verursachen; Algorithmen, die „ nicht ohne weiteres portierbar sind" (AP 11.01, Unterpunkt 2), sollte es im Core nicht geben. Zu prüfen ist, welche Module in der Rahmensoftware Abhängigkeiten von der ( Computer- )Wortlänge haben         Abschnitt 5.4). Die Portierung auf ein 64-Bit-     System ist in jedem Fall sinnvoll. • Die im AP 11.02 ,, Verwaltungs-DB" genannte Rollenstruktur hätte bereits im bestehenden System vorgesehen werden müssen. Ein Re-Design der Da- tenbank mit der vorgestellten Zielsetzung ist sinnvoll. • Das im AP 11.03 „ Nutzdaten- DB - Teil 1" genannte Ziel der Elimination redundanter Daten ist unklar. Handelt es sich hier um einen Design-          Fehler in der Datenbankstruktur oder handelt es sich um Doppeleinträge? Unklar ist beispielsweise auch der Arbeitspunkt b„ Restrukturierung der derzeitigen Datenbank-Struktur für Rekonstruktions- und Import-           Aufgaben"; war die Datenbank bisher nicht für diese Aufgaben vorgesehen? 4Die  Einordnung wird nicht — wie in Pl auf S. 8/40 suggeriert — im Anhang 5 vollständig geklärt. 8
8

• Der Arbeitspunkt AP 11.04 „ Dynamische Zusammenstellung von Verarbei- tungsmengen" ist methodisch fragwürdig. Bisher werden Zuordnungen von Schnipseln paarweise getroffen. Geplant ist es nun, Mengen von Schnipseln zu erstellen und zu verarbeiten. Aus der Beschreibung des Arbeitspunktes wird nicht klar, ob diese Zuordnung zu einem lokalen Optimierungsproblem erweitert wird und ob es möglich ist, auch ziemlich sicher getroffene Zuord- nungen im Zuge einer größeren Optimierungsstrategie wieder in Frage zu stellen (Backtracking). Die Zielsetzung „ Zeit- und Ressourcenoptimierung" ist im Arbeitspunkt nicht zu erreichen, da sie nur in Kombination mit Ar- beiten aus AP 12 „ Weiter- und Neuentwicklung von Matching-                 Verfahren" beurteilt werden kann (—> Abschnitt 5.1). Zusammenfassend hinterlässt AP 11 „ Flexibilisierung des Workflows" den Ein- druck, dass bestehende Ad-Hoc-       Lösungen hier korrigiert und durch neue Ad-Hoc- Lösungen ersetzt werden , wobei — insbesondere im AP 11.04 „ Dynamische Zu- sammenstellung von Verarbeitungsmengen" — keine grundlegende Neuausrichtung der Verarbeitungsstrategie durchgeführt wird. Zur Problemlösung, die über die Betrachtung nur paarweise zugeordnerter Schnipsel hinausgeht, gibt es aktuelle wissenschaftliche Ansätze, die im Arbeitspunkt auch perspektivisch keine Berück- sichtigung finden. Die Methodik der Selektion (AP 11.03 „ Nutzdaten-DB - Teil 1" a) ist (wissenschaftlich betrachtet) unklar. Sie ist aber im Hinblick auf AP 12 „Weiter- und Neuentwicklung von Matching-            Verfahren" von elementarer Bedeu- tung.' Einige Arbeitspunkte haben schwer abschätzbaren Aufwand: • die Arbeiten in AP 11.01 „ Portierung aller ePuzzler-Core-Module nach 64Bit" b — es ist unklar, wieviele solche Module existieren • die Arbeiten in AP 11.03 „ Nutzdaten- DB - Teil 1" b — nicht jede Strategie hat den selben Aufwand zur Folge Im Arbeitspaket AP 11 „ Flexibilisierung des Workflows" handelt es sich um ein Re- factoring von Software mit nicht genau spezifiziertem Aufwand (--> Abschnitt 5.4). 2.2     AP 12 „ Weiter- und Neuentwicklung von Matching- Verfahren" Das Arbeitspaket AP 12 „ Weiter- und Neuentwicklung von Matching-                  Verfahren" behandelt Merkmale und Zuordnungen von Schnipseln. Betrachtet werden in erster 5Einige Überlegungen aus wissenschaftlicher Sicht zu dieser Frage finden sich im Abs. 5.1. 9
9

Linie Paare von Schnipseln. • Die in AP 12.01 „ Weiterentwicklung des flächenbasierten Scores" zu erzie- lende „ Optimierung" kann nicht erreicht werden, da sie eine Evaluation er- fordert, die nicht Teil der geplanten Arbeiten ist. Formal wird hier ein Ab- standsmaß untersucht, das Paare von Schnipseln bewertet. • Das AP 12.02 „ Polygon-       Matcher" hat das Ziel, Schnipsel durch umschrei- bende Polygone*zu beschreiben und solche Polygone zuzuordnen. Unklar ist, wie dieses Maß, das für Schnipselpaare berechnet werden soll, für Schnipsel- mengen verallgemeinert werden kann. Wie im vorigen AP wird auf Scores gesetzt, die allerdings ein stark heuristisches Maß sind und die hier nicht weiter spezifiziert werden. • AP 12.03 „ Weiterentwicklung des Konzepts der Risikoklassen" klassifiziert Schnipselpaare in Risikoklassen. 6 Das Ziel der „ verbesserten Klassifikation" (AP 12.03 „ Weiterentwicklung des Konzepts der Risikoklassen" h) kann nur dann erreicht und belegt werden, wenn eine klassifizierte Stichprobe zum Training eines Klassifikators genutzt wird und anschließend eine davon dis- junkte, ldassifizierte Teststichprobe zur Evaluation verwendet wird. Weder Methodik zur Klassifikation noch Evaluation und Training sind im Arbeits- punkt genannt (-4 Abschnitt 5.2). Zusammenfassend liefert AP 12 „ Weiter- und Neuentwicklung von Matching-                Verfahren" neue Merkmale von Schnipseln und Maße für Schnipselpaare, ohne dass die ge- naue Methodik genannt wird. Diese Arbeitspunkte sind laut Abhängigkeitsgraph (Bild 3) Voraussetzungen für AP 31.01 „ Erweiterung der Zonenklassifikation", was aber inhaltlich nicht offensichtlich ist. 2.3     AP 13 „ Erweiterung der Form- und Schriftmerkmale" Das Arbeitspaket AP 13 „ Erweiterung der Form- und Schriftmerkmale" sucht neue oder verbesserte Merkmale auf Einzelschnipseln. • AP 13.01 „ Optimierung der Schrift-Modulaccuracies" liefert weitere heuristi- sche Merkmale zur Textklassifikation. Ziel ist die Optimierung von Gütema- ßen auf Merkmalen. Wiederum handelt es sich um ein heuristisches Verfah- ren, ohne dass eine Optimierung mit nachweisbarer Verbesserung der Klas- sifikationsleistung anhand einer verifizierten Stichprobe durchgeführt wird. 6Risikoklassen bestehen bereits; ihre Klassengrenzen sollen hier aber verbessert werden. 10
10

• Die im AP 13.02 „ Fehlstellendetektion und Formanalyse" im Punkt c ge- nannte Evaluierung erfordert die Realisierung im Punkt d und wird wieder- um nicht auf Basis einer Stichprobe durchgeführt — zumindest wird dies so nicht spezifiziert. Ob die Zielsetzung „ Beschleunigung" mit dem Verfahren erreicht werden kann, kann nur vermutet werden. Die Arbeitspakete AP 11 „ Flexibilisierung des Workflows", AP 12 „ Weiter- und Neuentwicklung von Matching-      Verfahren" und AP 13 „ Erweiterung der Form- und Schriftmerkmale" erweitern den ePuzzler. Strukturell neu ist die Verwendung von Schnispelmengen, die eine Änderung der Datenbankstruktur notwendig macht. Verbesserte oder neue Merkmale für Einzelschnipsel oder Schnipselpaare liefern lediglich die Hoffnung auf schnellere oder bessere Ergebnisse. 2.4      AP 21, 22, 23 Die Arbeitspakete AP 21 „ Globale Strategie zur Maximierung der Systemausla- stung", AP 22 „ Verknüpfung von Transformationsanalyse und Zonenklassifikati- on" und AP 23 „ Sicherheitswerte zur Verifikation der Ergebnisse von Matching- Verfahren" erweitern die Matching-      Strategie und haben das Ziel, die Hardware besser zu nutzen. Hierzu werden Verfahren parallelisiert. • AP 21.01 „ Pre-Matching und adaptives RECO-Caching" ist zentrales Paket des Projekts. Hier werden neue Verarbeitungsstrategien integriert und ge- testet. Die Zielsetzung ist nicht vollständig zutreffend, denn nicht nur die Hardware-   Auslastung kann das Ziel sein, sondern die Maximierung der Er- kennungsraten für Dokumente ist in diesem Arbeitspunkt gesucht. Metho- disch ( bzw. strategisch) werden notwendige Fragen nicht untersucht: — Welche Strategie wird bei Konflikten gewählt, wenn Schnipsel durch die Parallelisierung in verschiedenen Schnipselmengen unterschiedlich zugeordnet werden? — Welche Methoden des Backtrackings werden vorgesehen, wenn Schnip- selzuordnungen nachträglich korrigiert werden müssen? — Sind Greedy-    Verfahren, wie sie hier zum Einsatz kommen, für das Pro- blem angemessen? • AP 21.02 „ Adaption der Interaktiven Komponente - Teil 1" ist unstrittig. • AP 21.03 „ Entwicklung eines Multi-      Merge- Verfahrens - Teil 1" soll Interak- tionen minimieren und Qualitäten maximieren. Es sollen sich „ Sicherheiten 11
11

der einzelnen Vorschläge gegenseitig stützen". Der Arbeitspunkt nennt die Methodik, die hier verfolgt werden soll, nicht (--> Abschnitt 5.1). • AP 22.01 „ Auswertung von Fehlstellen im TA-Modul" wirkt — auch im Graph in Bild 3eher optional. • In AP 23.01 „ Sicherheitswerte für Konturmatcher-Scores" wird die Smith- Waterman-    Matrix zum Konturvergleich erwähnt. In [CFT08] wird sie zum Konturvergleich verwendet, wobei dort allerdings den Konturen eine eindeu- tige Referenzlage zugeordnet werden kann, was bei Schnipseln nicht eindeu- tig der Fall ist; die genannten Technik ist zunächst nur auf Reihen — nicht auf zyklischen Strukturen — nutzbar.' Weiterhin wird die Kreuzkorrelation auf Konturen genannt, wobei diese verschoben werden sollen. Methodisch ist beides zu hinterfragen und es ist zu testen, ob rotationsinvariante Merk- male oder spektrale Merkmale hier neue Möglichkeiten eröffnen. Wie bereits mehrfach erwähnt ist die Validierung (Arbeitspunkt c) mit einer validierten Stichprobe durchzuführen. • Das Ziel von AP 23.02 „ Automatische Parametersatz-Selektion" ist ambi- tioniert, führt aber in die richtige Richtung. Es wird hier klar, dass derzeit zahlreiche Matching-      Verfahren eingesetzt werden und viele Merkmale mit vielen Parametern genutzt werden, die teilweise händisch angepasst werden müssen. Ziel ist die Automatisierung und Optimierung des Prozesses. Be- vor dieses Ziel realistisch erreicht werden kann, müssen die bisher genannten Optimierungsverfahren systematisch untersucht werden. • AP 23.03 „ Sicherheitswerte für Kontextmatcher-Scores" und AP 23.04 „ Be- rechnung erweiterter Merkmale für das ZK-Modul" erweitern das System um weitere Merkmale und machen damit eine erneute Optimierung der Pa- rameter — wie in AP 23.01 „ Sicherheitswerte für Konturmatcher-Scores" — erforderlich. Diese beiden Arbeitspunkte müssten also vorgezogen werden. Das Ziel einer neuen und erweiterten Matching-            Strategie, wie sie in AP 22.01 „Auswertung von Fehlstellen im TA-Modul" beschrieben wird, ist notwendiges Entwicklungsziel. 7In der Dissertation [Die124), die in der TU Wien angefertigt wurde und die sich mit Stasi- Dokumenten beschäftigt, werden solche Merkmale allerdings aufgeführt. 12
12

2.5       AP 31, 32, 33 AP 31 „ Erweiterung und Modifikation der Zonenklassifikation", AP 32 „ Fehler- handling und Backup" und AP 33 „ GUI-Kpmponenten zur Verwaltung und Inter- aktion mit dem ePuzzler" integrieren zum einen die Ergebnisse der vorhergehenden Arbeitspunkte und stellen zum anderen administrative Funktionen zur Verfügung. Im Sinne der anfangs in der Projektskizze genannten Unterteilung sind diese Ent- wicklungen eher der Rahmensoftware zuzuordnen. Ziel ist, wie bereits in AP 21.01 „Pre- Matching und adaptives RECO-Caching" eine „ Maximierung der Systemaus- lastung" . 8 • AP 31.01 „ Erweiterung der Zonenklassifikation" ist erneut ein zentrales Ar- beitspaket, wie aus dem Abhängigkeitsgraph (Bild 3) ersichtlich ist. Vorgese- hen ist ein „ lernendes Verfahren" das „ höherwertige Merkmale"' verwendet. Wenn auch die Zielsetzung nachvollziehbar ist, so bleibt die Angabe der Ar- beitspunkte sehr vage und die Methodik ist völlig offen. (Zusammengefasst: „Stabile Klassifikation" bzw. „ Robuste Klassifikation" unter „ Minimierung der Anzahl (... ) von zu quittierender (. ) Kandidaten durch ein „ lernendes Verfahren" durch „ Analyse geeigneter Klassifkationsverfahren des Maschi- nellen Lernens" mit anschließender „ Optimierung des Verfahrens" —› Abschnitt 5.5). • AP 31.02 „ Erweiterung des Rankings der Zonenklassifikation" hat erneut eine Optimierung zum Ziel, nämlich die Minimierung der falsch-positiven Klassifikationen durch „ Signifikanzanalyse der Scores" und Entwicklung ei- ner „ Score-Fusion". Diese Ziele können nicht isoliert erreicht, werden sondern sollten Teil einer globalen Optimierung sein, wie sie in AP 31.01 „ Erweite- rung der Zonenklassifikation" stattfinden könnte. Die genannte Methodik ist unklar (—> Abschnitt 5.1). • AP 32.01 „ Nutzdaten-DB - Teil 2" setzt schlüssig die Arbeiten aus den im Abhängigkeitsgraph (Bild 3) gezeigten Vorarbeiten fort. • Die in AP 32.02 „ Fehlerhandling" genannte Abhängigkeit (Bild 3) ist un- klar. In Unkenntnis der Anzahl der auftretenden Systemfehler ist es nicht möglich, diesen Arbeitspunkt zu beurteilen (—> Abschnitt 5.4). Ziel eines guten Systemdesigns ist es in jedem Fall, auch bei System-Abstürzen oder 8... mit leicht modifizierter Zielfunktion; dennoch, eine Maximierung der Maximierung wirft Fragen auf. 9Der Begriff „ höherwertige Merkmale" ist nicht wissenschaftlich verbreitet oder klar definiert. Er wird in [2] im Kontext hierarchischer Klassifikation und semantischer Interpretation verwen- det. Auch in [Ah07] steht der Begriff für „ semantische Merkmale". 13
13

beispielsweise Strom- oder Hardware-  Ausfall einen konsistenten Zustand der persistenten Daten zu garantieren, beziehungsweise Rücksetzpunkte zu defi- nieren. Dies muss Teil des Datenbanks-Designs sein (vermutlich ein Trans- aktionskonzept). • Auch die in AP 32.03 „ Erweiterte Backup-Strategie" genannten Ziele sollten Teil des Datenbank-Konzepts sein und keine eigenen Strategien verfolgen, sondern etablierte Methoden nutzen, wie sie für große und sicherheitskriti- sche Datenbanken eingesetzt werden. • Die Arbeitspunkte AP 33.01 „ GUI-   basierter Import von Rescans", AP 33.02 „GUI-   basierter Export", AP 33.03 „ GUI-  basierter Schnipsel-Import", AP 33.04 „ Adaption der Interaktiven Komponente - Teil 2" und AP 33.06 „ GUI- basiertes Drucken" erhöhen den Komfort bei der Administration des Rah- mensystems, sind aber für die primäre Funktion des Systems zunächst op- tional. • Lediglich AP 33.05 „ Entwicklung eines Multi-   Merge- Verfahrens - Teil 2" hat mit einer GUI für das sogenannte „ Multi-  Merge-  Verfahren" ein inhaltliches Ziel, und ist daher ein notwendiges Arbeitspaket. 2.6      Kosten Die für die Weiterführung der Arbeiten genannten Re-   Investitionskosten (P1 S. 35/40) sind in einer angemessenen Größenordnung. Wie aus den obenstehenden Bemer- kungen zu den Arbeitspunkten zu entnehmen ist, haben die Ziele der Weiterent- wicklung des ePuzzlers zum ePuzzler 2.0 einen erheblichen Forschungsanteil und Entwicklungsrisiken, die sich aus den unklaren Zielen oder Methoden ergeben, wo- bei diese Risiken nicht im Arbeitsplan durch entsprechende Alternativstrategien aufgefangen werden (--> Abschnitt 5.4). Gleichzeitig zeigt der Abhängigkeitsgraph (Bild 3), dass nur wenige Arbeitspunkte im Gesamtfortschritt des Projekts igno- riert werden können. Daher kann die in P1 auf S. 35/40 genannte Summe für Personalkosten nur als eine optimistische Schätzung dafür angesehen werden, dass die in den Arbeitspunkten genannten Ziele alle erreicht werden können. Abbildung 4 im Abschnitt 5.3 des Dokuments P1 zeigt die logische Struktur des Systems, nicht die Hardware-    Struktur. 14
14

Zur nächsten Seite