RoadRunner
Java-Programm
From Wikipedia, the free encyclopedia
RoadRunner ist ein Java Programm zur Beobachtung von Informationen von HTML-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) regulärer Ausdruck berechnet, der die Unterschiede der Dateien beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch Grammatik basierte Wrapper erzeugt.
| RoadRunner | |
|---|---|
| Basisdaten | |
| Aktuelle Version | 0.02.11 (2004) |
| Betriebssystem | plattformunabhängig |
| Programmiersprache | Java |
| Kategorie | Wrapper, Parsergenerator |
| Lizenz | GNU General Public License |
| deutschsprachig | nein |
| RoadRunner | |
Beispiel
Eine Buch-Katalog Homepage bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z. B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine Tabelle von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel usw.) automatisch aus den Seiten zu extrahieren.
Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die Labels A, B und C enthält und eine XML-Datei mit den extrahierten Daten für jedes Label.
Beispiel von extrahierten Daten in Tabellenform:
| Label | Datum |
|---|---|
| A | Max Frisch |
| B | Homo Faber |
| C | 1965 |
| A | Stefan Zweig |
| B | Der Amokläufer |
| C | 1930 |
| ... | ... |
Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:
| Label | Bedeutung |
|---|---|
| A | Autor |
| B | Titel |
| C | Jahr |
Literatur
- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In: Proceedings of the 27th Conference on Very Large Databases (VLDB). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: Automatic Web Information Extraction in the RoadRunner System. In: International Workshop on Data Semantics in Web Information Systems (DASWIS). 2001 (PDF).
- Valter Crescenzi, Giansalvatore Mecca: Automatic information extraction from large websites. In: Journal of the ACM. Band 51, Nr. 5, 2004, ISSN 0004-5411, S. 731–779, doi:10.1145/1017460.1017462.