.csv

.csv

Das Dateiformat CSV beschreibt den Aufbau einer Textdatei zur Speicherung oder zum Austausch einfach strukturierter Daten. Die Dateiendung CSV ist eine Abkürzung für Comma-Separated Values (seltener Character Separated Values oder Colon Separated Values). Ein allgemeiner Standard für das Dateiformat CSV existiert nicht. Jedoch wird es im RFC 4180 grundlegend beschrieben. Die zu verwendende Zeichenkodierung ist ebenso wenig festgelegt; 7-bit ASCII gilt weithin als der kleinste gemeinsame Nenner.

In CSV-Dateien können Tabellen oder eine Liste unterschiedlich langer Listen abgebildet werden. Kompliziertere, beispielsweise geschachtelte Datenstrukturen können durch zusätzliche Regeln oder in verketteten CSV-Dateien gespeichert werden. Um sie in einer Datei abzuspeichern, eignen sich jedoch andere Formate wie XML oder EDIFACT besser.

Inhaltsverzeichnis

Dateiaufbau

Innerhalb der Textdatei haben einige Zeichen eine Sonderfunktion zur Strukturierung der Daten.

  • Ein Zeichen wird zur Trennung von Datensätzen benutzt. Dies ist in der Regel der Zeilenumbruch des datei-erzeugenden Betriebssystems – damit sind es in der Praxis oft tatsächlich zwei Zeichen.
  • Ein Zeichen wird zur Trennung von Datenfeldern (Spalten) innerhalb der Datensätze benutzt. Allgemein wird dafür das Komma eingesetzt. Abhängig von beteiligter Software und Benutzereinstellungen sind auch Semikolon, Doppelpunkt, Tabulator, Leerzeichen und andere Zeichen üblich.
  • Um Sonderzeichen innerhalb der Daten nutzen zu können (z. B. Komma in Dezimalzahlwerten), wird ein Feldbegrenzerzeichen benutzt. Normalerweise ist dieser Feldbegrenzer das Doppelhochkomma ". Wenn der Feldbegrenzer selbst in den Daten enthalten ist, wird dieser im Datenfeld verdoppelt.

Der erste Datensatz kann ein Kopfdatensatz sein, der die Spaltennamen definiert.

Jeder Datensatz sollte laut RFC 4180, Absatz 2, Punkt 4 die gleiche Anzahl Spalten enthalten – dies wird aber nicht immer eingehalten.

Formatierung der Datenfelder

Die Formatierung der Daten selbst ist nicht festgelegt. Das bedeutet, dass die verwendeten Formate zwischen den beteiligten Benutzern abgesprochen werden müssen. Besonders davon betroffen sind:

  • Datums- und Zeitangaben
    • Die Reihenfolge der Einzelangaben (Jahr, Monat, Tag, Stunde, Minute, Sekunde, ...) kann nicht immer eindeutig erkannt werden.
    • Erschwerend kommt dazu, dass insbesondere bei Datumsangaben national unterschiedliche Trennzeichen genutzt werden.
    • Die harmloseste Hürde in diesem Fall ist, dass die Zahlenwerte mit und ohne führende Null vorkommen.

Beispiele: Ist 04/03/02 der 4. März 1902, der 3. April 2002, der 2. März 2004 oder ein ganz anderer Wert? Entspricht 8:09 „morgens neun Minuten nach acht“, „20 Uhr 09“ oder ist es eine „Dauer von 8 Minuten und 9 Sekunden“?

  • Texte
    • Im Gegensatz zu XML sieht CSV keinen Vermerk des benutzten Zeichensatzes innerhalb der Datei vor. Die verwendete Zeichencodierung sollte zwischen allen Beteiligten im Vorfeld festgelegt werden.
  • Zahlenwerte
    • Nach der ursprünglichen Vorgabe für das CSV-Datenformat können Zahlenfelder mit fester Mindestbreite verwendet werden. Dann werden Zahlenwerte mit führenden Nullen ergänzt, um die Mindestbreite zu erhalten.
    • In verschiedenen Ländern haben sich unterschiedliche Dezimal- und Tausendertrennzeichen etabliert. Über Ländergrenzen hinweg können diese Zeichen sogar gegensätzlich benutzt werden.
    • Manchmal wird kein Tausendertrennzeichen eingesetzt.
    • Je nach Vorliebe des Anwenders werden zudem negative Werte auf vielfältige Weise dargestellt.
    • Die Formatfülle von Währungsangaben ist unüberschaubar.
  • Leerfeld?
    • Der Feldinhalt "" wird manchmal als leerer Inhalt und manchmal als einzelnes Anführungszeichen interpretiert.

Besonderheiten beim Import

Die CSV Dateien werden nicht immer auf die gleiche Art und Weise von denselben Tabellenkalkulationsprogrammen interpretiert:

  • Microsoft Excel
    • Öffnen durch Importieren aus Textdatei
      • Spaltenbreite wird an den Inhalt angepasst
      • Trennzeichen kann im Importdialog gewählt werden
    • Öffnen durch Doppelklick
      • Alle Spalten haben die gleiche Breite
      • Trennzeichen ist stillschweigend Semikolon, wenn die CSV Datei nach ANSI-Norm gespeichert ist
      • Trennzeichen ist stillschweigend Tabulator, wenn die CSV Datei in Unicode-Format gespeichert ist

Berechnungen

Das CSV-Format beschreibt zeilenweise miteinander verknüpfte Datensätze. Berechnungen sind nicht vorgesehen, dennoch akzeptieren viele Programme wie Excel und Gnumeric entsprechende Rechenausdrücke. Diese orientieren sich am jeweiligen Programm. Für die beiden genannten Programme funktioniert beispielsweise folgende (erste) Zeile:

100;200;=A1+B1

Je nach Sprachumgebung können auch benannte Funktionen verwendet werden.

Software

  • CSV-Dateien können mit jedem Texteditor oder mit einem speziellen Programm bearbeitet werden, beispielsweise eignet sich Awk.
  • Tabellenkalkulationsprogramme wie Microsoft Excel oder OpenOffice.org Calc und Datenbanksysteme wie z. B. Oracle oder Mysql können CSV-Dateien üblicherweise einlesen und auch exportieren, wobei in der Regel Einstellungen wie Codierung, Trennzeichen, etwaige Textbegrenzungszeichen und Spaltenüberschriften in erster Zeile oder nicht vorgenommen werden können.
  • Um zwei CSV-Dateien miteinander zu vergleichen, kann Csvdiff verwendet werden.

Anwendungen

Beispiel

Die CSV-Datei mit dem Trennzeichen „;“ und Spaltenüberschriften in der ersten Zeile

Stunde;Montag;Dienstag;Mittwoch;Donnerstag;Freitag
1;Mathe;Deutsch;Englisch;Mathe;Kunst
2;Sport;Französisch;Geschichte;Sport;Geschichte
3;Sport;"Religion ev;kath";Kunst;Deutsch;Kunst

repräsentiert diese Tabelle:

Stunde Montag Dienstag Mittwoch Donnerstag Freitag
1 Mathe Deutsch Englisch Mathe Kunst
2 Sport Französisch Geschichte Sport Geschichte
3 Sport Religion ev;kath Kunst Deutsch Kunst

In diesem Beispiel werden die Anführungszeichen verwendet, um das Semikolon zwischen ev und kath in der letzten Zeile als Text zu kennzeichnen. Das dritte Element dieser Zeile lautet also Religion ev;kath.

Weblinks

  • RFC 4180 – RFC-Spezifikation des Dateiformates CSV

Wikimedia Foundation.

Игры ⚽ Поможем сделать НИР

Schlagen Sie auch in anderen Wörterbüchern nach:

  • CSV — Saltar a navegación, búsqueda Para otros usos de este término, véase CSV (desambiguación). Los ficheros CSV (del inglés comma separated values) son un tipo de documento en formato abierto sencillo para representar datos en forma de tabla, en las… …   Wikipedia Español

  • CSV — may refer to: Clerics of Saint Viator Common Stored Value Ticket Confederación Sudamericana de Voleibol Character Strengths and Virtues Christian Social People s Party Community Service Volunteers GM U platform, a minivan made by General Motors… …   Wikipedia

  • Csv — steht für: Certified Server Validation, eine vorgeschlagene technische Methode zur Spam Vermeidung Character Separated Values oder Comma Separated Values, siehe CSV (Dateiformat) Chrëschtlech Sozial Vollekspartei (Christlich Soziale Volkspartei) …   Deutsch Wikipedia

  • CSV — formatas statusas T sritis informatika apibrėžtis ↑Duomenų bazės laukų įrašymo tekstiniu formatu būdas, kai duomenų laukai skiriami kableliais. Naują įrašą atitinka nauja eilutė. CSV formatas dažnai naudojamas adresų knygos duomenims, programos… …   Enciklopedinis kompiuterijos žodynas

  • .csv —   [Abk. für Comma Separated Values], Erweiterung für eine ASCII Datei, die Daten aus einer Datenbankdatei enthält (Comma separated Values) …   Universal-Lexikon

  • CSV — (Comma Separated Values) (Computers) file format used for storing database information in ASCII format (each entry or field is separated by a comma and each new row is represented by a new line) …   English contemporary dictionary

  • CSV — У этого термина существуют и другие значения, см. CSV (значения). CSV Comma Separated Values Расширение .csv MIME text/csv Тип формата представление базы данных Стандарт(ы) RFC 4180 CSV (от англ …   Википедия

  • CSV — Die Abkürzung CSV steht für: Certified Server Validation, eine vorgeschlagene technische Methode zur Spam Vermeidung Comma Separated Values oder Character Separated Values, ein Dateiformat, siehe CSV (Dateiformat) Christlich Soziale Volkspartei… …   Deutsch Wikipedia

  • CSV — cash surrender value (CSV) The amount of cash that can be obtained by the policy owner upon cancellation of a whole life insurance policy. CSV may also be borrowed by the policy owner. Only certain kinds of life insurance policies have cash… …   Financial and business terms

  • CSV — Cette page d’homonymie répertorie les différents sujets et articles partageant un même nom.   Sigles d’une seule lettre   Sigles de deux lettres > Sigles de trois lettres   Sigles de quatre lettres …   Wikipédia en Français

Share the article and excerpts

Direct link
Do a right-click on the link above
and select “Copy Link”