24. Oktober 2006

[Uni] Sophisticated?

Heute begab ich mich zum "Mediävistischen Kolloquium im Wintersemester 2006/07" ... zum was?!

Nun ja, im Rahmen meiner geplanten DA zur Erstellung eines Tools für die Eingabe von mittelelaterlichen Texten erschien mir der Vortrag "Die Datenbank Sidaskripta: Ein Angebot zur Erfassung mehrsprachlicher Text- und Quellensammlung" irgendwie äußerst passend. Was jedoch präsentiert wurde - um jetzt mal höflich zu bleiben - war im besten Fall eine Zugabe zur entsprechenden von der DFG geförderten Promotionsstelle - integraler Teil selbiger Doktorarbeit dürfte sie meines Erachtens nach nämlich nicht sein, dafür war sie nämlich zu armselig.

(Achtung, etwas technisches Kauderwelsch jetzt:) Eine Datenbank, in der HTML-Datensätze von altfinnischen Texten aus dem 8.-12.Jh. (mehr oder weniger korrekt codiert) händisch eingegeben wurden[1], ein PHP-Skript, eine etwas billige Seite[2] mit Suchmaske und verschiedenen Suchkriterien[3]. Fertig. Ob es jetzt einfache SQL-Anweisungen mittels PHP in der Datenbanken waren oder doch eine echter Suchalgorithmus[4], blieb mir verborgen, die entsprechende Seite zum Nachschauen ist gerade down.

Weder hat man die Möglichkeit, sich originale Scans der Handschriften anzuschauen, noch gibt es viel Meta-Infos zu den Texten[2], dafür nette Spielerein mit Statistiken zur Vorkommenshäufigkeit[5] und der Möglichkeit, die Liste invertiert darzustellen[6].

Alles in allem war das ehrlich gesagt nicht viel mehr als das, was ich im letzten Wintersemester in "Multimedia: Basissysteme und Anwedungen" beim Programmieren eines kleinen PHP-Forums auch gemacht habe, ein bisschen erweitert um die Möglichkeit, einige, wenige Sonderzeichen miteingeben zu können[7].

Besonders übel fand ich an dem Vortrag übrigens, dass er abgelesen wurde und partou versucht wurde, es als Wunderwerkzeug zur Demokratisierung von Wissen anzupreisen.

Vom technischen Standpunkt aus möchte ich anmerken, dass es bestimmt den Hiwi viel Arbeit gekostet hat, das alles funktionierend zum Laufen zu bringen, aber definitiv sehr eingeschränkt und wenig zukunftssicher ist (wie gesagt, die Datensätze werden in HTML abgelegt ... das ist defintiv eine schlechte Idee, da HTML schwer zu integrieren und umzuformen ist in andere Formate, z.B. .pdf oder .doc).

Tja, was soll ich sagen? Ich schreib eine DA über ein Thema, was dem Referentem zur Diss gereicht hat und bei weitem umfangreicher und nach softwareengineermäßigen Standards geschrieben werden soll. UND dann könnte ich ohne weiteres eine Datenbank-Architektur wie diese dranhängen, weil meine Schnittstellen besser standardisiert und offener sind als jene. Tschakka!

Der Vortrag endete übrigens mit einem kurzen Überblick, wie Mediävistik-Studenten sich eine Promotionsstelle angeln können - normale Stellen gibt es für die nämlich kaum. Und seit heute kenn ich auch die näheren Umstände dieser Tatsache ...


[1] Selbst nach hartnäckigem Fragen meinerseits und einiger anderer Teilnehmer wurde zwar das Bild vermittelt, unser Doktor-in-spe hätte das selbst gemacht, aber zu technischen Realisierung wollte er dann doch lieber auf seinen praktischerweise abwesenden Hiwi verweisen ...
[2] Aus Gründen der Skalierbarkeit angeblich, da rumänische Forscher (sic! es geht um finnische Texte wohlgemerkt) u.U. nicht soviel Bandbreite für elaborierte, grafisch aufwendige Seiten haben. Sie waren noch nicht dazu gekommen, behaupte ich einfach mal.
[3] Zugegebenermaßen recht sinnvolle Einteilung meiner Meinung nach.
[4] Dafür waren die Ergebnisse beim mehrmaligen Vorführen desselben Suchbegriffes allerdings etwas zu homogen und auch zu schnell (wahlweise ist die Datenbank einfach noch nicht wirklich gefüllt); trotzdem würde mich das etwas mehr beeindrucken, weil es komplizierter ist, sowas zu programmieren.
[5] Was prinzipiell auf SQL hinweisen würde.
[6] Da waren sie so richtig stolz drauf ... *ähm, kein Scherz.
[7] Selbst Kategorien und Name (in dem Fallbeispiel wären es eben Autoren und Quelle) konnte man eingeben.

Edit: Hier der Link zum Selberanschauen: www.sidaskipti.de (nein, ich hab mich oben nicht vertippt, in der Ankündigung steht "Sidaskripta")

2 Kommentare:

Anonym hat gesagt…

Also, ich bin der HiWi, der, wie Du so schön sagtest "praktischerweise" nicht da war. Dann kann der Dozent wirklich nix dafür. Ich hab leider aufgrund eines anderen Jobs kurzfristig absagen müssen, sonst wäre ich schon gekommen. Dann hätte man das angemessen bequatschen/diskutieren können und Du wärst somit vielleicht nicht zu manch voreilligen Schluss gekommen. Aber nachdem ich ja auch an der Uni-Bamberg bin kann man das ja mal vielleicht in der Feki-Cafete nachholen. Da kann ich dann auch auf Deine Kritikpunkte besser eingehen.
Nur folgendes:
- Die Suche läuft komplett in SQL, da meiner Meinung performanter (da muss ich mich grundsätzlich fragen, warum das komplizierte Modell wählen sollte, wenn es doch eine einfachere Variante gibt[Aber wenn Du mir die Zeit bezahlst mach ich die Suche auch gerne mit einem "echten Suchalgorithmus" ;-)]).
- Aufbereitung und Formatierung des Textes is in PHP.
- das grafische Layout ist sicherlich nicht das beste, aber es reicht für die erste Version der Applikation.
- Aus den Texten ist jederzeit ein PDF oder DOC Format zu drucken.
- Die Datenbank/Applikation ist nur ein Teil der Diss.
- Was meinst du mit 'in HTML hinterlegt'.
- ...

Grundsätzlich kann man immer etwas ändern und noch mehr 'Features' einbauen, da man wieder ne neue Idee hat, denn die Anforderungen/Wünsche wachsen in den meisten Fällen mit dem Fortschritt der Entwicklung. Aber irgendwann muss man mal einen großen Milestone setzen bzw. sagen: "Das ist die derzeitige Version", denn das Budget is ja auch begrenzt.
Ich könnte jetzt noch weiterschreiben, hab aber keine Lust mehr, da ich noch andere Sachen zu machen habe.
Wie schon geschrieben, wir können uns gerne mal darüber unterhalten, wenn Du möchtest.

mit einem freundlichen 'Tschakka', Du bist der Größte ;-)

der HiWi

coyote hat gesagt…

Naja, meine Infos habe ich soweit alle aus dem Vortrag. Wollte dich eh noch anschreiben, weil einiges wohl etwas falsch kommuniziert wurde. Z.B. dass die Eingaben der Texte alle in HTML wären.

SQL stelle ich mir bei der Dimension momentan sicher sinnvoll vor, aber die Frage ist halt, ob da die DB nicht irgendwann in die Knie geht oder ich nicht von vorn herein lieber "gute" Treffer haben will anstatt aller ... aber das sprengt gerade den Rahmen.

Dass ich hier etwas überzeichen, dürfte ja wohl auch klar sein, dafür wurden viel zu viele Innenstadtklischees bedient an jenem Abend, speziell beim zweiten Vortrag und der Sache mit dem Promotionsstudium ... aber das ist ja ne andere Baustelle.

Das "Tschakka" und der Absatz darüber bezogen sich i.ü. darauf,dass andere eine DFG-geförderte Promotionsstelle auf 2 Jahre mit HiWis haben. Und ich nur einen Anforderungskatalog, was alles schön wäre.

Bis zum Kaffee dann!