Wissenschaftliche Bücher schnell und einfach durchsuchen.
Stellen Sie sich vor, Sie haben ein Gefäss vollgepackt mit einer grossen Anzahl digitalisierter Dokumente. Die Suche nach ganz bestimmten Informationen innerhalb dieser Daten ist wie die berühmte Suche nach der Nadel im Heuhaufen. Eine Abteilung des Schweizer Pharmakonzerns Novartis hatte genau dieses Problem und hatte somit einen hohen Bedarf an einer ausgereiften, schnellen und zuverlässigen Suchfunktion.
Das Suchen nach bestimmten Informationen innerhalb von Dokumenten in einem Browser klingt zunächst einfach. Zu dem Zeitpunkt als unsere Experten ins Spiel kamen, hatte Novartis bereits einen Korpus voller digitalisierter Dokumente und einen Solr-Index (bereitgestellt von Drittanbietern).
Über ein neu entwickeltes Web-UI können Anwender einen oder mehrere Suchbegriffe in ein integriertes Formular eingeben. Die passenden PDF-Dateien werden angezeigt und können geöffnet werden. Aufgrund urheberrechtlicher Bedenken wollte Novartis Funktionen wie Drucken oder Speichern von Dokumenten deaktivieren. Deshalb war die Verwendung der in gängige Browser integrierten PDF Viewer keine passende Option. Alternativ wurde die Open Source Library PDF.js integriert und angepasst.
Zur korrekten Anzeige einer Datei musste der PDF Viewer auf der Client-Seite auf den Download des gesamten PDFs auf den Zielcomputer warten. Das Ergebnis war eine schlechte Performance. Um dieses Problem zu lösen entschied sich das Projektteam für das Page Splitting Verfahren. Hierbei wird ein mehrseitiges PDF in einzelne Seiten aufgeteilt.
Die auf Novartis massgeschneiderte Version des PDF Viewers beinhaltet zudem eine Zoom-Funktion sowie eine Seitennavigation für das vollständige PDF Dokument. Die Stichwortsuche innerhalb einer Seite inklusive Hervorhebung der Suchergebnisse erfolgt über die im Browser integrierte Suchmaschine.
Einer der nächsten Schritte ist die Definition, wie neue Dokumente hochgeladen und indexiert werden, damit diese ebenfalls durchsucht werden können.