ZéBit: Padrões de Codificação de Caracteres

Boa tarde, Zés da Tecnologia!!

No nosso mundo globalizado, é essencial codificar caracteres de uma maneira que possa ser interpretada internacionalmente e por vários dispositivos, codificar e apresentar informações no script exigido pelo usuário. Nesses ambientes, não é incomum encontrar vários scripts presentes em um único registo bibliográfico, mesmo quando a transliteração ainda é necessária para a indexação em um script homogéneo. A codificação precisa de caracteres e é, portanto, essencial para a troca de dados internacionalmente.

Inevitavelmente, no entanto, quanto mais caracteres forem precisos, mais complexo será o padrão de codificação de caracteres. Alguns dos padrões mais utilizados no Mundo são o ASCII e o Unicode

Por muitos anos, letras latinas básicas, números e símbolos foram codificados com o padrão ASCII (American Standard Code for Information Interchange), uma das primeiras formas de codificação no processamento de computadores. Este padrão foi introduzido em 1963 e usa uma codificação de 7 bits. Desde o início da automação de bibliotecas, no entanto, surgiu a necessidade de criar um novo padrão para codificar outros conjuntos básicos de caracteres, como os latinos. Por causa disso, muitos padrões para conjuntos de caracteres foram desenvolvidos durante a década de 1970, sendo o mais comum o ISO 5426 (latim estendido).

Uma tabela de código ASCII

Enquanto nas bibliografias impressas o objetivo principal de um padrão de codificação de caracteres era descrever todos os de impressão necessários, numa época de troca internacional de dados, é essencial que qualquer padrão de codificação possa ser interpretado globalmente. Assim, uma crescente necessidade de troca internacional de dados levou a uma codificação universal padronizada do conjunto de caracteres: o Unicode.

O Unicode, desenvolvido pelo Grupo de Trabalho ISO (International Organization for Standardization), é um padrão universal para codificação de texto multilínguas. A norma ISO 10646 foi publicada pela primeira vez em outubro de 2002 e revisada em dezembro de 2003. A versão de 2014 descreve mais de 110.000 caracteres de 100 scripts, além de vários símbolos. A codificação uniforme pode ser feita de forma composta e decomposta, o que significa que caracteres especiais consistem em letras básicas, juntamente com marcas diacríticas relevantes.

Uma tabela de código Unicode

Este padrão (ISO 10646) tem a vantagem de codificar quase todos os scripts e evitar a ambiguidade gerada pelo uso complexo de sequências. Pode ser usado em um conjunto de 16 bits (UTF-16) ou em um conjunto de 8 bits (UTF-8). Este último é cada vez mais utilizado na Web para troca de dados e, portanto, é recomendado como a melhor opção para registos bibliográficos e processamento de dados de bibliotecas. A versão mais recente do padrão Unicode está disponível na Web, juntamente com gráficos de códigos de caracteres por script.

Esperamos que tenham aprendido alguma coisa.

A equipa ZéBit !!

quarta-feira, 30 de outubro de 2019

Padrões de Codificação de Caracteres

Sem comentários:

Enviar um comentário

Zés em Tempo Real

A nossa turma!