Diese Website ist seit dem Ende des Studiengangs Informationswissenschaft
im Juni 2014 archiviert und wird nicht mehr aktualisiert.
Bei technischen Fragen: Sascha Beck - s AT saschabeck PUNKT ch
Drucken

Projekte

Buchbesprechungen

William T. Arms: Digital Libraries

2. The Internet and the World Wide Web

  • The Internet Community
  • Conventions of the Web
  • Panel 2.4: The Internet Engineering Task Force and the RFC Series
  • Panel 2.7: The World Wide Web Consortium
  • Panel 2.5: The Los Alamos E-print Archives
  • Web sites
  • Home pages
  • Buttons
  • Hierarchical organization
  • Panel 2.6: An Example of HTML
  • The Web as a Digital Library





Der Autor beschreibt zun�chst die Entstehung des Internets. Das Internet, auch „Information Highway“ genannt, entwickelte sich aus zwei Netzwerken, PARC und ARPAnet. Viele der urspr�nglichen Konzepte kommen von der Xerox Corporation’s Palo Alto Research Center (PARC). Dabei waren Universit�ten in den Vereinigten Staaten Vorreiter in der Ausweitung von kleinen lokalen Netzwerken in grosse, campus�berspannende Netzwerke.
Weitaus bekannter ist jedoch ARPAnet, das Mitte der 80iger Jahre etwa 150 Informatik Forschungs Organsationen verkn�pfte. Weitere Beitr�ge kamen von zwei US-Regierungsinstitutionen: der Defense Advanced Research Project Agency (DARPA) und der National Science Foundation.

Grundkenntnisse der Internettechnologie sind f�r Designer und Nutzer von digitalen Bibliotheken n�tzlich, so z.B. TCP/IP, domain names and domain-name system (DNS). Erkl�rungen liefert Arms in den darauffolgenden Panels.

Eine wichtige Eigenschaft des Internets ist, dass Techniker und Computerwissenschaftler die von ihnen entwickelte Technologien selbst gerne anwenden. Sie kommunizieren mit Email und nennen konventionelle Post dabei „Schneckenpost“. Aufs�tze schreiben sie auf ihren eigenen Computern und Internetseiten erstellen sie mit eigenen Markup Tags anstelle eines Editors: Programmieren geh�rt zur Grundkenntnis.

nach oben

Zwei grundlegende Protokolle des Internets sind TCP and IP. Dadurch dass sie oft zusammen genannt werden, vergi�t man leicht, dass damit zwei verschiedene Protokolle gemeint sind. Das Internet-Protocol (IP) verbindet die einzelnen Netzwerk-Segmente, denen das Internet zugrunde liegt. Jeder Computer hat dabei eine eigene, einheitliche Adresse, die sogenannte IP-Adresse. Diese besteht aus vier Ziffern, jeweils von 0-255 (z.B. 132.151.3.90). Dieses Protokoll erm�glicht jedem Computer im Netz, Nachrichten zu anderen zu versenden. Die verschiedene Teile des Internets sind durch spezielle Computer verbunden, den Routern.
Im Internet werden Nachrichten als kleine Pakete verschickt. Ein Router empf�ngt ein Paket von einem Segment des Netzes und leitet es weiter, ohne zu wissen, ob das Paket sein Ziel erreicht. Dies ist die Aufgabe des Transport Control Protocol (TCP). Ein Applikations-Programm im „sendenden“ Computer sendet eine Nachricht zur lokalen TCP-Software, die die Nachricht aufnimmt, in kleine Pakete aufteilt, jedem Paket die IP-Adresse des Ziels gibt und es ins Netzwerk versendet. Im „empfangenden“ Computer wird jedes Paket erkannt, ausgepackt und wieder zu einer Nachricht zusammengef�gt.
Dabei git es nat�rlich auch Pannen und Fehler. Nicht jede Nachricht kommt am St�ck an. Wenn der Router �berlastet ist, kann es zu Verz�gerungen kommen.

Das TCP/IP suite ist eine Gruppe von Computer-Programmen, die von den meisten modernen Computern bereitgestellt werden. Sie beinhalten Telnet, FTP und elektronische Mails.

The NetNews bulletin boards, auch als Usenet bekannt, sind wichtige Beispiele f�r den Versuch der Internet-Community, Informationen offen zu verteilen. Tausende dieser „bulletin boards“, Newsgroups genannt, werden in einer Hierarchie organisiert, rec.arts.theatre.musicals ist z.B. eine Newsgroup, in der man Musicals diskutieren kann.
NetNews ist das genaue Gegenteil einer digitalen Bibliothek in dem Sinne, dass es nicht verwaltet wird. Es gibt keine Einschr�nkungen f�r wer schreibt oder was als Nachricht hinterlegt wird. Dadurch ist Mi�brauch nat�rlich T�r und Tor ge�ffnet, doch viele Newsgroups funktionieren ganz gut.

nach oben

Das Ver�ffentlichen von seri�sem Akademischen Materialien gibt es schon mehrere Jahre. zwei wichtige Beispiele daf�r sind Internet RFC series und Physics E-Print Archives at the Los Alamos National Library, die in den darauffolgenden Panels vertieft werden. Diese beiden Dienste sind von grundlegender Wichtigkeit f�r das Ver�ffentlichen von Forschungsergebnissen auf den jeweiligen Gebieten. Qualit�t wird durch Peer Review erreicht, d.h. ein Artikel wird vor der Ver�ffentlichung von anderen Spezialisten gelesen. Beide Dienste haben ihre Effektivit�t f� wissenschaftliche Kommunikation bewiesen.
Auch �konomisch sind sie interessant, da beide Dienste sowohl f�r Nutzer und Autoren frei sind. Vor der Einf�rung des Web waren beide Dienst gut etabliert. Sie benutzen zwar heute Web-Technologien, basierten aber urspr�nglich auf electronic mail und file transfer

Dieser Abschnitt liefert einen �berblick �ber das WWW und der ihm zugrundeliegenden Technologie.
Das Web ist eine linked collection of information auf vielen Computern im Internet auf der ganzen Welt verteilt. Diese Computer werden web server genannt. Einige dieser Server und die Informationen darauf werden von Einzelpersonen gehalten oder von kleinen Gruppen wie Universit�ts-Institute und Forschungszentren, andere wiederum von grossen Informationsdiensten. Viele Sites werden dabei bewusst als digitale Bibliothek organisiert.
Die Web-Technologie wurde um 1990 von Tim Berners-Lee und Kollegen im Centre Europ�enne pour la Recherche Nucl�aire (CERN) in der Schweiz entwickelt. Durch die Benutzeroberfl�che Mosaic von Marc Andreessen von der Universit�t in Illinois wurde sie 1993 bekannt. Dieser Benutzeroberfl�che folgten in wenigen Jahren kommerzielle Versionen, von denen Netscape Navigator und Microsoft Internet Explorer am h�ufigsten verwendet werden. Diese „user interfaces“ nennt man web browser oder einfach browser.
Der Erfolg des WWW kann kurz zusammengefasst werden: es stellt eine praktische M�glichkeit bereit, um Information �ber das Internet zu verteilen. Einzelpersonen k�nnen Informationen ver�ffentlichen und diese auch selbst erlangen, ohne Hilfe. Ein geringes Ma� an an Computer-Kenntnissen ist notwendig um eine Website zu erstellen, f�r die Benutzuung eines Browsers sogar keine.
CERN und die Universit�t von Illinois begannen die Tradition mit der offenen Verteilung ihrer Software f�r Web Server und User Interfaces. Der heute am meistenverwendete Server ist Apache, eine kostenfreie version des Illinois Web Servers. Die freie Verteilung von Software via Internet bewirkt eine schnellere Akzeptanz der neuen Technologien.
Ein weiterer Grund f�r den schnellen Erfolg des Internets ist, dass das die Technologie ein Tor zur Information bereitstellt, die nicht speziell f�r das Web geschaffen worden war. Die Browser verwenden das Hypertext Transfer Protocol (HTTP), doch sie unterst�tzen auch andere Protokolle wie File Transfer Protocol (FTP), NetNews und Email.
Ein weiterer Mechanismus, der Common Gateway Interface (CGI) erlaubt es die L�cke zwischen dem WWW und anderen Systemen zu �berbr�cken, um Informationen zu speichern. Seit dem ersten Erscheinen von Mosaic sind Browser f�r die gebr�uchlichen Betriebssystme erh�ltlich (Windows, MacIntosh und Unix). Der Verwalter einer Website kann sicher sein, dass Nutzer weltweit die Information in an�hernd dem gleichen Format lesen k�nnen, welche Computer auch immer dazu verwendet werden.

nach oben

Das Web basiert auf vier einfachen Techniken: der Hypertext Markup Language (HTML), dem Hypertext Transfer Protocol (HTTP), MIME data types und den Uniform Resource Locators (URL’s). Auf die einzelnen Punkte wird in den folgenden Abschnitten n�her eingegangen.

HTML ist eine Sprache zur Beschreibung der Struktur und Ercheinung von Textdokumenten. In Panel 2.6 wird ein konkretes Beispiel gezeigt.
HTML-Files enthalten sowohl den Text als auch die Codes, die sogenannten tags um das Format oder die Struktur zu beschreiben.. Eine Eigenschaft solcher tags sind die eckigen Klammern < und >. Dabei kommen die meisten tags als Paare vor, d.h. sie haben sowohl einen einleitenden tag als auch einen abschliessenden tag.
Andere tags beschreiben das Format, kursiv oder unterstrichen. Dabei gibt es noch viele weitere tags, z.B. zum Zeilenumbruch oder Absatzeingrenzung.
Grundkenntnisse in HTML k�nnen in kurzen Tutorien erlangt werden, denn auch einfache HTML-Dokumente k�nnen ein ansprechendes Dokument erzeugen. Einen n�tzliche Eigenschaft von HTML ist die Einfachheit. Kleine Syntaxfehler werden verziehen, wobei andere Computersprachen strenge Syntaxregeln haben. Wenn ein HTML-Text mehr oder weniger richtig geschrieben ist, wird er von den meisten Computern akzeptiert.

Das Beispiel zeigt zwei Eigenschaften von HTML, die zum Erfolg des WWW beigetragen haben. Dies ist einerseits die Einfachheit, mit der man Farbbilder in Webseiten einf�gen kann. Dies erm�glichen spezielle tags. Das Web ist das erste weitreichend genutzte System, das formatierten Text und Farbbilder kombiniert.
Die zweite spezielle Eigenschaft ist der Hyperlink. Webseiten stehen nicht allein, sie k�nnen mit Seiten �berall im Internet verbunden sein. Hyperlinks werden ebenfalls durch besondere tags angezeigt, durch den Browser werden sie im Allgemeinen blau und unterstrichen angezeigt, der Nutzer kann den Hyperlink anklicken, worauf dieser ausgef�hrt wird.

nach oben

Eine zweite Schl�sselkomponente des Web ist der Uniform Resource Locator (URL). Er stellt einen einfachen Mechanismus zur Adressierung bereit, der erlaubt, das Informationen auf Computern auf der ganzen Welt miteinander „verlinkt“ werden. Solch ein URL ist z.B. http://www.dlib.org/dlib.html. HTTP ist dabei der Name des Protokolls, www.dlib.org ist der Domain Name eines Computers und dlib.html ist der Name einer Datei auf diesem Computer.

Ein Protokoll ist ein Satz von Regeln, um Nachrichten zwischen Computersystemen zu versenden. HTTP ist das Protokoll mit dem man Nachrichten zwischen Web Browsern und Web Servern versendet. Eine Nachrichtentyp in HTTP ist get. Ein Klick auf den Hyperlink mit der URL http://www.dlib.org/dlib.html zum Beispiel beschreibt den Befehl get. Arms zufolge kann man die URL folgenderma�en interpretieren: „�ffne eine Verbindung zwischen dem Browser und dem Web Server mit dem Domain Name „www.dlib.org“. Kopiere die Datei „dlib.html“ vom Web Server zum Browser und schliesse die Verbindung.“

Um die Datei „dlib.html“ korrekt anzuzeigen, muss der Browser erkennen, dass es sich um ein HTML-Format handelt. Die Interpretation h�ngt vom Daten-Typ ab. Zwei Daten-Typen sind html und jpeg. Im WWW und Internetanwendungen wird der der Daten-Typ durch ein Schema genannt MIME spezifiziert. Urspr�nglich entwickelt zur Beschreibung von Emails, benutzt das Schema eine zweiteilige Codierung, „two-part encoding“, mit einem Oberbegriff und einem benennenden Begriff, „generic and specific part“, image/jpeg ist z.B. die Beschreibung f�r ein Bild im jpeg-Format.
Wichtig bei MIME types im Web ist, dass Daten, die durch ein HTTP get Befehl �bermittelt werden, gleichfalls einen MIME type haben. Die Datei „dlib.html“ hat daher den MIME type text/html. Wenn der Browser solch eine Datei emf�ngt, erkennt er diesen als HTML-Text und zeigt ihn auf dem Bildschirm an.

nach oben

Es gibt verschieden Formen der Information im Internet. Firmen stellen ihre Produkte und Dienste auf ihrer Website vor, Flugtickets k�nnen im Netz bestellt werden, Privatpersonen haben ihre Homepages usw. Die verschiedene Sites sind z.B. verantwortlich f�r steigende Qualit�t von graphischem Design und der grossen Anzahl an ausgebildeten Usern, Webmastern und laut Arms „creators“. Doch der Erfolg all dieser Websites �berl�dt das Internet in manchen Bereichen und hat so soziale und gesetzliche Fragestellungen �ber Mi�brauch des Internets aufgeworfen.

Eine Web site ist eine Sammlung von Informationen, die dem Nutzer als eine Einheit erscheinen. H�ufig ist eine Website ein einzelner Web Server, eine gro�e Seite kann auf mehreren Servern liegen, oder ein Server versorgt mehrere Webseiten.

Eine Homepage ist laut Arms eine Eingangsseite zu einer Sammlung von Informationen. Fast jede Web site hat daher ihre Home page. so stellen Home pages oft einen �berblick �ber die ganze Web site dar.

Das Web ist kein Umweg f�r die Entwicklung digitaler Bibliotheken, sondern ist ein zentraler Punkt. Viel beschweren sich dar�ber, dass die Qualit�t der Informationen zu gering sei und dass Information schwer zu finden sei. Teilweise trifft das auch zu. Es gibt ein riesiges Mass an Informationen im Netz und es ist oft auch wenig n�tzliches Material dabei, aber viele Web Server werden verantwortungsbewu�t verwaltet und liefern Informationen h�chster Qualit�t. Es kann mitunter schwierig sein, Informationen im Web ausfindig zu machen, doch es gibt Werkzeuge und Dienste, die es dem Nutzer erm�glichen, die im Netz vorhandenen Informationen auzusp�ren.
„Today’s web is a beginning, not the end,“ sagt Arms in Bezug auf digitale Bibliotheken und das Web der Zukunft.

nach oben