Zeichensatzkonvertierung in Oracle-DB - moving objects GmbH Martin Busik Hamburg - Mai 2003 www.moving-objects.de

Die Seite wird erstellt Hortensia-Emilia Scherer

Business

Deutsch

Like
Teilen
Einbetten
Vollbild
Folien
HTML Herunterladen
PDF Herunterladen
Missbrauch

←

WEITER LESEN

→

Transkription von Seiteninhalten

Wenn Ihr Browser die Seite nicht korrekt rendert, bitte, lesen Sie den Inhalt der Seite unten

Zeichensatzkonvertierung in
        Oracle-DB

         moving objects GmbH
             Martin Busik
         Hamburg - Mai 2003
        www.moving-objects.de

                                1

moving objects GmbH

? Beratung
   – Anforderungserhebung
   – Geschäftprozessanalyse
   – Coaching
? Schulung
   – OOA/OOD, Java, J2EE, JSP, Servlets, Swing, XML
? Realisierung
   – J2EE-Applikationen
   – Datenbankapplikationen (ORACLE)
? www.moving-objects.de

                                                      1

Thema
Zeichensatzkonvertierung

In unterschiedlichen Zeichensätzen können identische Zeichen
unterschiedlich kodiert sein. Bei einer Zeichensatzkonvertierung gibt es
Probleme, wenn ein gegebenes Zeichen in einem der Zeichensätze
nicht definiert ist.

                                                                       1

Font vs. Zeichensatz

? Ein Zeichensatz besagt welche Zeichen vorgesehen sind und
  welche (numerische) Darstellung bzw. Code ein Zeichen hat.
  Z.B. ASCII oder Unicode
? Ein Font legt fest wie Zeichen (=numerischer Code) eines
  Zeichensatzes grafisch dargestellt werden
? Die (graphische) Darstellung eines einzelnen Zeichen wird Glyph
  genannt.
? D.h. Darstellung und Verarbeitung sind getrennt, auch wenn ein
  Zeichen nicht dargestellt wird, kann es verarbeitet werden (z.B. Die
  Windows System-Schriftart) und umgekehrt.

                                                                         1

Zeichensätze in Oracle

? Client/Server System, auch wenn man mittels sqlplus auf der
  gleichen Maschine wie die Datenbank arbeitet!
   – Client und Server können mit unterschiedlichen Zeichensätzen arbeiten
   – Mit Database Links verbundene Datenbanken können unterschiedliche
     Zeichensätze verwenden
? In der Datenbank wird der Zeichensatz bei der Erstellung festgelegt
  (create database Statement)
? Jeder Client (sqlplus, oci usw.) kann pro Datenbanksession einen
  eigenen Zeichensatz verwenden.
   – Festlegung über die Umgebungsvariable NLS_LANG (bzw. Registry)
     export NLS_LANG=german_germany.WE8ISO8859P1
? Java verwendet intern Unicode (UCS2)
   – Weniger Probleme mit Zeichensatzumwandlungen

                                                                             1

Wo findet Konvertierung statt

A n bin dun g                   Wo?                  N LS_LA N G     A n m er k u n g en
O C I ( sq l p l u s, p e r l ) O C I Tr e i b e r   V er wen d et
O D BC                          O C I Tr e i b e r   V er wen d et   V er w en d et O CI
JD BC O C I (Fa t ) O C I Tr e i b e r               N ein           Z w i s ch e n s ch r i t t U T F
JD BC T h i n                   Se r v e r           N ein           Z w i s ch e n s ch r i t t U T F
Ja v a Se r v e r JD BC Se r v e r                   N ein           Z w i s ch e n s ch r i t t U T F

                                                                                                1

Häufig verwendete Zeichensätze

Zeich en sat z     Or acle Bezeich n un g Cod elän g e U m laut e           € -Zeich en
                   U S7 A SCII            7 Bit            N ein            N ein
OEM , IBM PC WE8 PC8 5 0                  8 Bit            0 x 8 E – 0 x E0 N ein
Lat in 1           WE8 ISO8 8 5 9 P1      8 Bit            0 x C4 – 0 x FCN ein
“A N SI”           M SWIN 1 2 5 2         8 Bit            0 x C4 – 0 x FCJa (0 x 8 0 )
                   WE8 PC8 5 8            8 Bit            0 x 8 E – 0 x E0 Ja (0 x D 5 )
Lat in 9 , Lat in 0WE8 ISO8 8 5 9 P1 5    8 Bit            0 x C4 – 0 x FCJa (0 x A 4 )
U TF-8             U TF8                  8 b is 2 4 Bit * Ja               Ja
U CS-2             A L1 6 U TF1 6         1 6 Bit          Ja               Ja
M ac               WE8 M A CROM A N 8 8 Bit                Ja               N ein

                                                                                      1

Demo

•   Es werden zwei Datenbanken verwendet, Datenbank alpha (mit dem
    Zeichensatz WE8PC850 erstellt) und beta (mit dem Zeichensatz
    WE8ISO8859P1 erstellt)

                                                                 1

Ergebnisse der Demo

? WE8ISO8859P1 ist nicht WE8MSWIN1252, wird aber häufig
  gleichgesetzt
? WE8ISO8859P1 ist der Oracle-default Zeichensatz bei Oracle 8i und
  Deutsch als Systemsprache (locale)
? Solange keine Zeichensatzkonvertierung durchgeführt wird, werden
  scheinbar alle Zeichen unterstützt
? Probleme werden erst bei EAI- oder Web-Projekten sichtbar

                                                                  1

National Character Set

? Zweiter Zeichensatz in der Datenbank (Datentypen nchar, nvarchar,
  nclob)
   – flexibler, es werden mehr Zeichensätze unterstützt
? In sqlplus wird aber nur ein Zeichensatz verwendet!
   – sinnvoll nur bei direkten Aufrufen der oci-Funktionen
? Verwendung des „national character set“ führen zu Komplikationen:
  select * from emp where ename = N'Müller';

                                                                      1

Möglichkeiten der Umwandlung

? Daten exportieren, Datenbank mit neuem Zeichensatz erstellen,
  Daten importieren
   – Kann länger dauern
   – Alle Datentypen werden (soweit möglich) korrekt umgewandelt
   – Kann nahezu bei allen Zeichensatzkombinationen durchgeführt werden
? Datenbankzeichensatz ändern
  ALTER DATABASE [] CHARACTER SET 
   – Es wird nur die „Kennung“ geändert, nicht die Daten
   – Metalink Einträge beachten, wenn CLOB Spalten verwendet werden
   – Nur bei bestimmten Kombinationen möglich (z.B. We8iso8859p1 nach
     we8mswin1252 ist möglich, nicht aber we8iso8859p1 nach
     we8iso8859p15) [oder Oracle Support in Anspruch nehmen...]

                                                                          1

Character set scanner

? Oracle Tool für Konfliktprüfung vor einer Wandlung
? Script rdbms/admin/csminst.sql muss eingespielt werden
? Aufruf:
  csscan system/manager full=y tochar=we8iso8859p15
? Es wird ein Protokoll erstellt (scan.txt, scan.err, scan.out). Auszug:
   Table : WAEHRUNG
   Column: WAE_SYMBOL
   Type    : VARCHAR2(1)
   Number of Exceptions           : 1
   Max Post Conversion Data Size: 1
   ROWID                Exception Type   Size Cell Data(first 30 bytes)
   AAAEzpAADAAAAATAAA lossy conversion        €
? Korrektur von Daten muss u.U. Separat nach der Migration erfolgen

                                                                           1

Wahl des Zeichensatzes

? Alle abzubildenden Zeichen sollten unterstützt werden
? Konvertierung erfordert Rechenleistung
   – Nach Möglichkeit den Zeichensatz verwenden, mit dem die Clients
     arbeiten, die den größten Traffic-Anteil ausmachen
? UTF16 kann bei Oracle 8i nicht verwendet werden
? UTF16 (UCS2) kann nicht als „database character set“ verwendet
  werden, nur als „national character set“ (nchar, nvarchar, nclob)
   – UTF16 braucht doppelt so viel Platz wie ISO8859P1
? Metalink konsultieren ob Besonderheiten zu berücksichtigen sind

                                                                       1

Oracle und UTF-8 Kodierung

? UTF-8 Kodierung verwendet variable Längen, rückwärtskompatibel
  mit US7ASCII
? In Oracle 8i ist die Spezifikation nach Unicode 2.1 implementiert, bei
  den definierten Zeichen werden bis zu 3 Byte pro Zeichen benötigt
  (Zeichensatzname UTF8)
? In Oracle 9i ist die Spezfikation nach Unicode 3.1 implementiert, bei
  den definierten Zeichen werden bis zu 4 Byte pro Zeichen benötigt
  (Zeichensatzname AL32UTF8)
? Deklaration varchar2(xyz) beziehen sich auf Byte, nicht auf Zeichen,
  d.h. Bei einer Umstellung auf UTF8 muß das Datenbankschema
  angepasst werden – z.B. Das €-Zeichen benötigt 3 Byte

                                                                           1

Resumee

? Für Anwendungsszenarien, wo mehrere unterschiedliche Clients
  oder mehrere unterschiedliche Datenbanken mit unterschiedlichen
  Zeichensätzen verwendet werden, ist eine Migration angebracht.
   – Ohne Migration steigt die Anzahl der Workarounds, das kompliziert die
     Migration
   – Konfiguration von Clients, Schnittstellen usw. muß gleichzeitig mit der
     DB-Zeichensatzumstellung erfolgen, dies bedeutet einen größeren
     Aufwand
   – Sensibilisierung der Entscheider notwenig („Es funktioniert ja alles“)

                                                                               1

Links

?   [1] Metalink, Note 144192.1
?   [2] Metalink, Note 68790.1
?   [3] Metalink, Note 158577.1
?   [4] Metalink, Note 137127.1
?   [5] Metalink, Note 119164.1
?   [6] Metalink, Note 66320.1
?   [7] http://otn.oracle.com/tech/globalization/pdf/Unicode.PDF
?   [7] http://www.microsoft.com/globaldev/reference/cphome.mspx
?   [8] http://www.cs.tut.fi/%7Ejkorpela/chars/index.html
?   [9] http://www.cl.cam.ac.uk/~mgk25/unicode.html#utf-8

                                                                   1

Fragen / Diskussion

                      1

Sie können auch lesen

Integrierte Managementsysteme in der Praxis am Beispiel Buntmetall Amstetten - Fachevent der Quality Austria am 13. Juni 2012: Anforderungen an ...

DAS MAGAZIN VON EUROPAS GRÖSSTEM FOTOVERBUND - POWERED BY CHIP FOTO-VIDEO MEDIADATEN 2019

Multimediale Werkzeuge, Audio: Formate, Tools -Sound/Audio Objekte Formate, Beispiele

Marktcheck "Verpackter Spargel im Handel" - Bei Qualität und Frische von verpacktem Spargel besteht Verbesserungsbedarf

A proposal for an Austrian Nursing Minimum Data Set (NMDS): A Delphi study

ADDRESSABLE TV - LOST IN TRANSLATION? - Die Entstehung des Fernsehwerbemarktes der Zukunft - Screenforce

Zentrale Prüfungen am Ende der Klassen 10 im Schuljahr 2018/19 - Runderlass des Ministeriums für Schule und Weiterbildung vom 12.07.2016 ...

Jugendbefragung 2021 Auswertung für den Marktgemeinderat - Bad Bocklet

Alltours macht's vor: radio liefert sonnige aussichten für die travelbranche

Generieren Machine-Learning-Verfahren präzisere Wohnimmobilienpreis-Prognosen als hedonische Modelle?

EU-Datenschutzgrundverordnung 25. Mai 2018

Einführung in die Datenorganisation - Informationssysteme

PROJEKT INFOR-MATIK WEBSITE FÜR KLAUSURTERMINE - Luka Tien Dung Meiritz, Q2 - Klausuren

Die Vermessung der Unterwasserwelt - Ocean Maps

News zum Einstellungstermin 01.08.2019 - schleswig-holstein.de

GBAS am Flughafen Frankfurt - Hintergrundinformationen - Pressetermin am 3. September 2014

INFO DECK NO-CODE KI FÜR DIE BAUINDUSTRIE - Zukunftsrat der Bayerischen Wirtschaft

Open Industry 4.0 Alliance Praxisbeispiel: Wie die Verpackungsindustrie ihre Transformation in die Hände nimmt

Morgen - Meeting vom 15. April 2019 - Start 07:15 Uhr - Tradematiker

BENUTZER AUTHENTIFIZIERUNG - im - Elatec RFID

Multi-Kulti, RFID-Chip und die neuere Geschichte Schwedens(38) - Gralsmacht

Verarbeitung digitaler Grabungsdaten beim Archäologischen Dienst Graubünden/Schweiz - Amanda Zwicky, Bernd Heinzle, Christoph Walser, Philipp Wiemann

Sicherheit von Pufferballs und ähnlichen Produkten - AGES

Seminar Financial Econometrics - Wintersemester 2019/20

Soziokratie und Holakratie - Ein differenzierter Vergleich zwischen Mutter und Tochter www.soziokratie.org www.christianruether.com ...

Offener Brief zum Bahn-Chaos rund um Reutlingen und Tübingen - Parents For Future

Digitalisierung - Innovationspotentiale für Gesundheit - DMEA

Ihr Warenverkehr ist unser Programm - FORMAT-IVEAS: Das Import-, Versand-, Export- & Außenhandelssystem - FORMAT Software Service GmbH

Zentralabitur 2017 - Informatik - Zentralabitur.nrw

PARK DER GÄRTEN - ALLE DIE GARTENSCHAU IN BAD ZWISCHENAHN Ein Ausflugsziel für stellt sich vor - Germany Travel

Cyberkriminalität: Dieser Mann berät Unternehmen in Sachen IT- Sicherheit

AUSSEN WIRTSCHAFT ÖSTERREICHISCHE GRUPPENAUSSTELLUNG EUROSATORY 2018

Audi A5 Sportback - AF6BNPF5

Waldhof Bruchmühle Standortinformation - Radnetzplaner Mecklenburg ...

VALUEpilot Professionelle Ermittlung des WBW-Korridors - Audatex

#Diklusion - Deutsch als Zweitsprache für die Grundschule - Dr. Lea Schulz - Sonderpädagogin www.leaschulz.com

Das Sonnensystem Peter Hauschildt 24. Januar 2019

Was bieten Literaturverwaltungsprogramme? - Staatsbibliothek zu ...

NEIN! BÖSES BABY! Ab wann versteht ein Kind Verbote? - Bewusste Elternschaft

FICHTNER DIGITAL GRID - REDISPATCH 2.0 - Unterstützung für Verteilnetzbetreiber bei der Umsetzung von Redispatch 2.0

"BACK2OFFICE" INTELLIGENTES MONITORING VON GEFÄHRDUNGSPOTENTIALEN - ATOS

DEIN URLAUB. UNSERE HEIMAT.

OPENLIBRARY-LÖSUNGEN FÜR IHRE BIBLIOTHEK - MATTHIAS RANDECKER EASYCHECK GMBH & CO. KG 2018

Zentralabitur 2019 - Informatik - Unterrichtliche Voraussetzungen für die schriftlichen Abiturprüfungen an Gymnasien, Gesamtschulen ...

"Fichtl der Waldgeist" - Ein Orden für Michael Pinnisch

Dialogveranstaltung Zoll 2018 - WKO

AT&T - Ausfall des Telefonnetzes in den USA - von Jörg Sesterhenn

CENTER PARCS "PARK ALLGÄU" 2019 - Dein Urlaub. Unsere Heimat.

ZENTRALE TEILENTHÄRTUNG DES TRINKWASSERS MITTELHARDT - Dr.-Ing. Sebastian Hesse (Bürgerinfo, März 2019)

WERBEMARKTANALYSE HOTELS 2018 - ADVISION DIGITAL