TOP

TOP Archive

Aus den Festtagen des Biblionetzkars

30 December 2007 | Beat Döbeli Honegger | Biblionetz
Nachdem ich dieses Jahr verschiedentlich aus dem Alltag als Biblionetzkar berichtet habe, hier ein Einblick ins Biblionetzkarleben während der Weihnachtsfeiertage.

Diese Schilderung ist vor allem für Nichtinformatiker/innen gedacht, da ich in letzter Zeit öfters die Meinung gehört habe, dass im Biblionetz wohl alles automatisch geschähe, ansonsten ein solcher Umfang nicht durch eine Einzelperson leistbar sei. Wie sich Nichtinformatiker/innen das Leben der Informatiker vorstellen...

(Ich bin mir aber bewusst, dass Nichtinformatiker/innen wohl spätestens beim zweiten Abschnitt gelangweilt weiterklicken und echte Informatiker/innen sich über meine stümperhaften Basteleien belustigen werden.)

Seit unterdessen elf Jahren (ja, das Biblionetz feiert dieser Tage den 11. Geburtstag...) ist die Zeit zwischen Weihnachten und Neujahr die Wiege neuer Biblionetzfunktionen. Es ist die Zeit, wo man sich grundsätzliche Gedanken machen, weltfremde Probleme vieldimensional im Kopf wälzen und danach auch noch mehrere Tage und Nächte hintereinander programmieren kann. Naja, zumindest vor 11 Jahren konnte man das, heute siehts auch anders aus und entsprechend wenig wird sich im Biblionetz ändern.

Für diese Festtage habe ich mir eigentlich etwas einfaches vorgenommen: Ich wollte wieder einmal Daten aus der Computer Science Library importieren.

The DBLP server provides bibliographic information on major computer science journals and proceedings. Initially the server was focused on DataBase systems and Logic Programming (DBLP), now it is gradually being expanded toward other fields of computer science. You may now read "DBLP" as "Digital Bibliography & Library Project".

The server indexes more than 955000 articles and contains several thousand links to home pages of computer scientists (November 2007).

Diese bibliographischen Daten lassen sich u.a. als 420 MByte grosse XML-Datei herunterladen, ein gefundenes Fressen also, um sich mit der Datenextraktion aus XML-Strukturen zu beschäftigen (das ist Weiterbildung und Rätselspass in einem). Als erstes ist also eine Einarbeitung in XPath (siehe Wikipedia), einer Abfragesprache für XML-Daten, notwendig.

Gut, theoretisch ist das Konzept verstanden, nun zur Praxis. Eine kurze Recherche führt mich zum auch für Windows verfügbaren Kommandozeilenwerkzeug xmlstarlet (siehe Wikipedia), einer am MIT entwickelten Open Source Software. Somit steht das Herumspielen Einarbeiten in xmlstarlet auf dem Programm.

Ok, auch das ist erledigt, ich scheine die Syntax begriffen zu haben. Na dann, geben wir doch dem Programm die 420 MByte grosse XML-Datei zum Futtern. Wird wohl ein wenig dauern, also einen Kaffee aufgesetzt und etwas Schokolade genascht...

Mehrere praktische Computerstillstände und viele Pralinen später die Erkenntnis: XML-Tools, welche die zum Frass vorgeworfenen XML-Daten als Baum im Hauptspeicher aufbauen, brauchen viel Speicher. Bei 420 MByte sehr, sehr viel Speicher. Keine gangbare Lösung, das Problem lässt sich weder durch mehr Pralinen noch durch mehr Speicher wirklich lösen.

Eine weitere Recherche später weiss ich, dass es neben DOM-orientieren XML-APIs auch ereignisorientierte XML-APIs gibt, u.a. Simple API for XML (SAX) (siehe Wikipedia), die eben nicht die ganze XML-Struktur speicherfressend im Speicher aufzubauen versuchen. Und erstaunlicherweise unterstützt selbst MS Access 2003 bzw. die entsprechende XML-Bibliothek SAX. Die Einarbeitung in diese MS-Spezifika ist mir dann aber zu mühsam, und so entsteht eine Bastellösung, über deren Details ich mich hier lieber ausschweige.

Danach kommen eigentlich nur noch die üblichen Probleme von Bibliothekaren: Dubletten im Biblionetz, unterschiedliche Schreibweisen von Personennamen und Sonderzeichen in allen möglichen Zeichensätzen. Also hier und dort einen Konverter oder Filter geschrieben, der in 80% der Fälle funktioniert und in 20% der Fälle …

Beim Recherchieren bin ich über http://www.io-port.net/ gestolpert:

Das Informatikportal von FIZ Karlsruhe ermöglicht die einfache und schnelle Recherche in mehr als zwei Millionen Publikationen der Informatik und verwandter Themen. Der Datenbestand ist der umfangreichste seiner Art.

Unter anderem bietet io-port auch die Volltexte aller Lecture Notes in Informatics (LNI). Für mich interessant: Alle INFOS und DelFI-Konferenzbände im Volltext. Leider sind diese Volltexte aber nur für zahlende Universitäten und GI-Mitglieder abrufbar. Tja, und keine der Universitäten, bei denen ich eine virtuelle Identität besitze, scheint bisher eine io-port-Lizenz zu besitzen. Und da ich nicht in Deutschland, sondern in der Schweiz wohne, bin ich nicht GI- sondern SI-Mitglied, und ob ich damit Zugang kriege, muss ich noch abklären. grummel, die Volltexte sind vorhanden, aber nicht frei verfügbar...

Aus Frust bastel ich mir ein Google-Interface, das mit Hilfe von automatisierten Abfragen bei Google versucht, Volltexte von im Biblionetz eingetragenen wissenschaftlichen Texten zu finden. Auch dies eine 80-20-Lösung: Zwar finde ich damit einige Texte, aber der Code funktioniert nicht vollautomatisch, sondern benötigt meine Hilfe, um den Spreu vom Weizen zu trennen.

Daneben auch normaler Biblionetzkar-Alltag: Organisationen, die ihren Webauftritt überarbeitet haben - gähn - und dabei - seufz - alle alten Adressen haben sterben lassen. Prominentes Beispiel diesmal: scil, swiss centre for innovations in learning: Versucht man einen SCIL-Bericht unter der bisherigen Adresse abzurufen, meint die Website nur: Sorry. This site does not exist in english.

Das Nichtinformatiker/innen nicht an stabile URLs denken, ist ja noch halbwegs nachvollziehbar. Dass aber Entwickler von Content Management Systemen nicht mal mehr die Grundideen von HTTP berücksichtigen, ist mir weiterhin unverständlich und bringt mich jedes Mal in Rage.

Die Fehlerseite bei SCIL trägt zwar neckisch den Code 404 im (für Menschen gedachten) Titel der Seite:

scil404.jpg

Der Webserver liefert aber den (für Maschinen gedachten) Status 200 OK zurück, so dass Linkchecker nichts davon mitbekommen, dass die Seite gar nicht mehr existiert. auauaua!

scil200.jpg

Tja, das führt dann halt dazu, dass Google als ersten Treffer eine Fehlermeldung bringt:

scil-google.jpg
Soviel von der Biblionetz-Entwicklungsfront. Mehr liegt leider dieses Jahr nicht drin. All die anderen lustigen Ideen müssen warten. Mindestens bis nächste Weihnachten.

Learning Management System als Panopticum

30 December 2007 | Beat Döbeli Honegger | Medienbildung
%STARTBLOG%
Was man mit SMS mailt, wird anscheinend gleich verbloggt.

Wenn mir schon Paternalismus vorgeworfen wird, dann passt ja die neueste These im Biblionetz Learning Management System = Panopticum (Biblionetz:a00910) bestens (auch wenn sie aus dem Jahr 2002 stammt).

Change-Management an Hochschulen ist teuer

28 December 2007 | Beat Döbeli Honegger | Wissenschaft
Diesen Eindruck kann man zumindest erhalten, wenn man die Preise der beiden Ende 2007 zu diesem Thema publizierten Dissertationen anschaut:

  • Change Management in Hochschulen (Biblionetz:b03252) von Ingrid Schönwald ist für 48 Euro zu haben
  • Change Management an Hochschulen (Biblionetz:b03306) von Monique Fuchs kostet 98 Euro

b03252.jpg b03306.jpg

Tja, was den Diplomarbeiten recht ist, soll den Dissertationen billig teuer sein...

War da nicht mal was mit Open Access (Biblionetz:w01889) für Forschungsergebnisse?

Flugbilder von Zürich

24 December 2007 | Beat Döbeli Honegger | GeoLocation
Wenn wir schon bei digitalen Geländedaten sind: Die Stadt Zürich hat vor einigen Wochen einen interaktiven Stadtplan der Stadt Zürich ins Web gestellt, der unter anderem auch Flugbilder der Stadt enthält, deren Auflösung diejenige der Google-Bilder nochmals übertrifft:

gps3.jpg

Doch der Stadtplan hat noch mehr zu bieten, als eine bessere Bildauflösung: So lässt sich z.B. auch ein Stadtplan von 1900 einblenden:

gps4.jpg

P.S.: Ja, anders als an vielen anderen Orten ist auch die Freiensteinstrasse am richtigen Ort eingetragen wink

Probleme mit digitalen Karten

24 December 2007 | Beat Döbeli Honegger | GeoLocation
In der Sonntagszeitung vom 22.12.2007 wurde im Artikel Ins Abseits navigiert über die Probleme mit der GPS-Navigation berichtet. Immer mehr Autofahrer und vor allem ortsunkundige Lastwagenfahrer unter Zeit- und Kostendruck vertrauen ihren GPS-Geräten blind und versuchen die schnellste Route zu befahren, selbst wenn die Strassen dafür zu eng sind oder die eingetragenen Brücken nicht mehr existieren.

Die britische Gemeinde St. Hilary wurde dermassen von fehlgelenkten Lastwagen heimgesucht, dass sie Strassenschilder aufgestellt hat, um Lastwagenfahrer auf die für Schwerverkehr ungeeigneten Strassen hinzuweisen:

gps.jpg

Ich warte diesbezüglich gespannt auf den ersten fehlgelenkten Lastwagen im Garten vor unserem Haus, denn die meisten derzeit verfügbaren digitalen Strassenkarten (z.B. Twixtel, Google-Maps) haben die Freiensteinstrasse seit Jahren in der falschen Häuserzeile eingetragen:

gps2.jpg

Bei den rotumkringelten weissen Flecken handelt es sich um Autos: Dort ist die Freiensteinstrasse in Wirklichkeit...

Was mich bei der Lektüre des Sonntags-Zeitungs-Artikels erstaunt hat: Wie viele Autofahrende auch auf richtungsgetrennten Autobahnen der Aufforderung Bitte sofort wenden! nicht widerstehen können. Ich sollte das erst halb gelesene Buch Persuasive Technology (Biblionetz:b02290) in meinem Büchergestell vielleicht zur Weihnachtslektüre machen...

Kontakt

  • Beat Döbeli Honegger
  • Plattenstrasse 80
  • CH-8032 Zürich
  • E-mail: beat@doebe.li