Professionelle Übersetzung von CSV-Dateien – Was muss man beachten?

Übersetzungsbüro Schnellübersetzer - Projektmanager Boris
Unsere IT-Spezialisten beraten Sie gerne zum Thema CSV-Dateien!
CSV steht für Comma Separated Values oder Character Separated Values. Wie der Name schon sagt, werden Werte hierbei durch Zeichen getrennt. Für den Gebrauch des Dateiformats existiert kein allgemein gültiger Standard, dennoch ist dieser ausführlich im RFC 4180 erklärt. CSV-Dateien eignen sich sehr gut für Übersetzungen, wobei man jedoch einige Dinge beachten muss.

Welches System nutzt CSV?

In der Regel nutzen kundenspezifische Systeme und Anwendungen das CSV-Dateiformat. Häufig werden mithilfe des CSV-Formats Texte aus Datenbanken exportiert, beispielsweise bei Content Management Systemen. Datenbanken können eine Vielzahl von Formaten für den Import und Export nutzen, wobei CSV die einfachste Lösung ist. Für eine bessere Kontrolle der Struktur eignet sich dabei auch das XML-Format, in welches eine CSV-Datei eingepflegt werden kann.

Zeichensatztabelle oder Codepage

Eine Zeichensatztabelle, auch Codepage genannt, stellt eine Zuordnung von Zahlen und Zeichen dar. Dabei ist Unicode das gängigste Format und UTF-8 die gängigste Kodierung für Unicode-Zeichen. Nutzt man UTF-8 codierte CSV-Dateien, kann man diese in jede Sprache übersetzen. Dies funktioniert zwar auch mit anderen Zeichensatztabellen, doch hierbei muss darauf geachtet werden, dass eine CSV-Datei keinen Hinweis darauf enthält, in welchem Format sie codiert ist. Dies kann zu Problemen führen.

Ist die Datei beispielsweise im ANSI-Format mit westeuropäischem Zeichensatz und soll in die osteuropäische Variante übersetzt werden, stellt man schnell fest, dass diese andere Buchstaben für die gleichen Zeichen besitzt. Die Möglichkeiten für Übersetzungen im ANSI-Format sind also begrenzt. Aus diesem Grund ist es ratsam, von vornherein Unicode zu benutzen, wie zum Beispiel UTF-8.

Wie erstellt man fehlerfreie CSV-Dateien?

Die Herausforderung von CSV-Dateien liegt darin, ihren komplexen Aufbau nicht zu unterschätzen. Hat man zum Beispiel eine Datenbank mit einer Tabelle, die mehrere Felder enthält, und möchte diese in eine CSV-Datei umwandeln, geht man folgendermassen vor:

Die Felder werden durch Zeichen eingeteilt, zum Beispiel durch ein Komma oder ein Semikolon. Ein Datensatz endet mit einer neuen Zeile im Dokument. In der Regel beginnt ein CSV-Dokument also in der ersten Reihe mit den Namen der Felder in der Tabelle, also mit den Spaltenbezeichnungen.

Wenn kein Komma im Tabellentext auftritt, ist alles gut und man hat ein einwandfreies CSV-Dokument erstellt. Doch was passiert, wenn ein Komma im Text auftaucht? Es verursacht eine unbeabsichtigte Verschiebung und Text kann zum Beispiel plötzlich in Feldern ohne Spaltenbezeichnung stehen.

Wie soll man also ein Feld anlegen, das ein Komma enthält, welches selbst für die Trennung der Felder zuständig ist? In diesem Fall beginnt und endet man ein Feld mit Anführungszeichen. Manche nutzen diese Methode immer, andere nutzen sie nur, wenn es wirklich nötig ist.

Doch was passiert, wenn der Text auch ein Anführungszeichen enthält? In solchen Fällen bedarf es einer speziellen Kodierung, um festzulegen, dass Anführungszeichen kein Feld beenden. In Microsoft Excel verdoppelt man hierfür schlichtweg die Anführungszeichen. In anderen Anwendungen kann man teilweise selbst festlegen, welches Zeichen anzeigen soll, dass das Anführungszeichen nicht das Feld beendet. Auf diese Art und Weise kann man den Text aus mehreren Zeilen anlegen.

Welche Daten können in eine CSV-Datei eingepflegt werden?

Grundsätzlich kann man alles in CSV einpflegen, was textbasiert ist. Unsere Projektmanager haben bereits Projekte mit HTML und XML in CSV-Dateien betreut. Beides funktioniert einwandfrei. Doch wir hatten auch schon den Fall, dass Standard-Tools benutzt wurden, um eine Datei in das CSV-Format zu exportieren. Im ersten Moment sah alles gut aus, doch es stellte sich heraus, dass das Tool keine Felder mit einer Länge von über 32.768 Zeichen exportieren kann. Solche Schwierigkeiten sind natürlich speziell und eher selten zu finden. In unserem Fall konnten wir den Kunden rechtzeitig über die fehlerhafte Datei informieren und dadurch spätere Probleme vermeiden.

2017-03-10T14:17:31.1595581Z

Erwin Vroom
Möchten Sie mehr erfahren?

Ich berate Sie gerne!

Male83950
customer service
ISO 9001ISO 17100DIN EN ISOtekomKiva Supporter LogoAmerican Translators Association Logo