BuscaPé, líder em comparação de preços na América Latina

PHPit

Pular navegação

Detectando/descobrindo o charset/codificação de uma string - UTF-8, ISO-8859-1, etc.

Enviado em 26/05/2008 às 10:26

Prefácio


Título longo (tem a ver com o Google? Magina!) mas tutorial bem simples. Recentemente enfrentei problemas com o UTF-8 (quem nunca enfrentou?) e testei vários modos de descobrir qual era a codificação usada, desde as gambiarras mais descaradas até as expressões regulares mais rebuscadas. Depois de muito bater a cabeça contra a mesa, cheguei a um resultado aceitável de como descobrir se a codificação da string era UTF-8 ou ISO-8859-1 utilizando strpos() e procurando pelo caractere à (uma vez que no português não existem palavras que comecei com "ã"), mas no fim das contas acabei percebendo que sempre tem alguém que envia uma mensagem totalmente em maiúsculo. Não vou simplesmente tacar um strtolower(). O jeito é pesquisar mais...

Conceito


Depois de muito dar socos na mesa e pesqusiar no meu amigo Google, chegou a hora do triste veredicto: caí em uma built-in function (funções que já vêm na linguagem). Nossa função se chama mb_detect_encoding() e, infelizmente, não irá funcionar a contento se não tiver um dedinho brasileiro ali.
A função só terá um resultado satisfatório se forem observados dos detalhes:

1. O segundo parâmetro da função (encoding list) deverá ser rigorosamente passado, contendo os dois encodes possíveis, a saber: UTF-8 e ISO-8859-1.
2. O último caractere da string não pode ser acentuado, para tanto utilizaremos um "método alternativo de eficácia momentânea" (vide Wikipédia: Gambiarra).

Mas e então, como fica? Vamos meter a mão na massa!

Mão na massa


Vamos montar uma funçãozinha bacana e bem simples, chamada codificacao() que irá retornar o charset de uma dada string. Talvez você perceba algo bizarro neste snippet, mas eu explico logo abaixo:

  1. <?php
  2. function codificacao($string) {
  3. return mb_detect_encoding($string.'x', 'UTF-8, ISO-8859-1');
  4. }
  5. ?>


Agora você me pergunta: O que raios aquele "x" está fazendo ali?
A resposta é muito simples. Lembra que eu comentei que a string não pode terminar em caractere acentuado? (Hahahahahahahahahaha!)
Procura no manual do PHP que foi um um francês que sugeriu essa implementação (que mesmo após o PHP corrigir o bug, a função continuará funcionando do mesmo jeito) e eu gostei. :)

Conclusão


Nem sempre é possível resolver problemas sem um "ajustezinho brasileiro". Resta-nos aguardar e ir atrás pra ver se um dia resolvem transpor este pequeno "detalhe" para o código-fonte do PHP! :P

Enviem críticas, dúvidas e sugestões, aproveitando que agora tem um formulário de contato meio enjambrado! xD

Um grande abraço a todos e fiquem com Deus!

 

Comente (02)




Comentário #1
Autor: Kuen
Em: 26/05/2008 às 13:57

Gostei do "x". Heheheh!!!

Muito massa!!

Flw!

Comentário #2
Autor: Anselmo Battisti
Em: 27/05/2008 às 17:07

Cara não consegui resolver o meu problema com esta abordagem, meu problema era ouuuuuutro na verdade, ehehe, mas essa função um dia com certeza vai ajudar, valeu!

Artigos Recentes

Rafael Jaques - PHPit 2007
Site sob Creative Commons - Alguns direitos reservados

Assine o RSS do PHPit! :)
Saiba onde tem o melhor preço antes de comprar