RoadRunner - Wikiwand

RoadRunner ist ein Java Programm zur Beobachtung von Informationen von HTML-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) regulärer Ausdruck berechnet, der die Unterschiede der Dateien beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch Grammatik basierte Wrapper erzeugt.

Schnelle Fakten Basisdaten ...

RoadRunner
Basisdaten
Aktuelle Version	0.02.11 (2004)
Betriebssystem	plattformunabhängig
Programmiersprache	Java
Kategorie	Wrapper, Parsergenerator
Lizenz	GNU General Public License
deutschsprachig	nein
RoadRunner

Schließen

Beispiel

Eine Buch-Katalog Homepage bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z. B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine Tabelle von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel usw.) automatisch aus den Seiten zu extrahieren.

Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die Labels A, B und C enthält und eine XML-Datei mit den extrahierten Daten für jedes Label.

Beispiel von extrahierten Daten in Tabellenform:

Weitere Informationen Label, Datum ...

Label	Datum
A	Max Frisch
B	Homo Faber
C	1965
A	Stefan Zweig
B	Der Amokläufer
C	1930
...	...

Schließen

Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:

Weitere Informationen Label, Bedeutung ...

Label	Bedeutung
A	Autor
B	Titel
C	Jahr

Schließen

Literatur

Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: RoadRunner: Towards Automatic Data Extraction from Large Web Sites. In: Proceedings of the 27th Conference on Very Large Databases (VLDB). 2001 (PDF).
Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo: Automatic Web Information Extraction in the RoadRunner System. In: International Workshop on Data Semantics in Web Information Systems (DASWIS). 2001 (PDF).
Valter Crescenzi, Giansalvatore Mecca: Automatic information extraction from large websites. In: Journal of the ACM. Band 51, Nr. 5, 2004, ISSN 0004-5411, S. 731–779, doi:10.1145/1017460.1017462.

Weblinks

RoadRunner

Related Articles