Detectando/descobrindo o charset/codificação de uma string – UTF-8, ISO-8859-1, etc.

Prefácio

Título longo (tem a ver com o Google? Magina!) mas tutorial bem simples. Recentemente enfrentei problemas com o UTF-8 (quem nunca enfrentou?) e testei vários modos de descobrir qual era a codificação usada, desde as gambiarras mais descaradas até as expressões regulares mais rebuscadas. Depois de muito bater a cabeça contra a mesa, cheguei a um resultado aceitável de como descobrir se a codificação da string era UTF-8 ou ISO-8859-1 utilizando strpos() e procurando pelo caractere à (uma vez que no português não existem palavras que comecei com “ã”), mas no fim das contas acabei percebendo que sempre tem alguém que envia uma mensagem totalmente em maiúsculo. Não vou simplesmente tacar um strtolower(). O jeito é pesquisar mais…

Conceito

Depois de muito dar socos na mesa e pesqusiar no meu amigo Google, chegou a hora do triste veredicto: caí em uma built-in function (funções que já vêm na linguagem). Nossa função se chama mb_detect_encoding() e, infelizmente, não irá funcionar a contento se não tiver um dedinho brasileiro ali.
A função só terá um resultado satisfatório se forem observados dos detalhes:

1. O segundo parâmetro da função (encoding list) deverá ser rigorosamente passado, contendo os dois encodes possíveis, a saber: UTF-8 e ISO-8859-1.
2. O último caractere da string não pode ser acentuado, para tanto utilizaremos um “método alternativo de eficácia momentânea” (vide Wikipédia: Gambiarra).

Mas e então, como fica? Vamos meter a mão na massa!

Mão na massa

Vamos montar uma funçãozinha bacana e bem simples, chamada codificacao() que irá retornar o charset de uma dada string. Talvez você perceba algo bizarro neste snippet, mas eu explico logo abaixo:

<?php
    function codificacao($string) {
        return mb_detect_encoding($string.'x', 'UTF-8, ISO-8859-1');
    }
?>

Agora você me pergunta: O que raios aquele “x” está fazendo ali?
A resposta é muito simples. Lembra que eu comentei que a string não pode terminar em caractere acentuado? (Hahahahahahahahahaha!)
Procura no manual do PHP que foi um um francês que sugeriu essa implementação (que mesmo após o PHP corrigir o bug, a função continuará funcionando do mesmo jeito) e eu gostei. :)

Conclusão

Nem sempre é possível resolver problemas sem um “ajustezinho brasileiro”. Resta-nos aguardar e ir atrás pra ver se um dia resolvem transpor este pequeno “detalhe” para o código-fonte do PHP! :P

Enviem críticas, dúvidas e sugestões, aproveitando que agora tem um formulário de contato meio enjambrado! xD

Um grande abraço a todos e fiquem com Deus!

Esta entrada foi publicada em Dicas e marcada com a tag , , , , . Adicione o link permanente aos seus favoritos.

13 pessoas já comentaram! Tá esperando o quê?

  1.  
    Kuen disse:

    Gostei do "x". Heheheh!!!

    Muito massa!!

    Flw!

    Utilizando Mozilla Firefox Mozilla Firefox 2.0.0.14 no Windows Windows XP
  2.  

    Cara não consegui resolver o meu problema com esta abordagem, meu problema era ouuuuuutro na verdade, ehehe, mas essa função um dia com certeza vai ajudar, valeu!

    Utilizando Mozilla Firefox Mozilla Firefox 2.0.0.13 no Ubuntu Linux Ubuntu Linux
  3.  
    Wesley Milan disse:

    Cara, parabéns, adorei o artigo, linguagem leve e eficiente, e resolveu um problema que a muito tempo eu precisava solucionar.

    Obrigado, e continue escrevendo.

    Abraços

    Utilizando Mozilla Firefox Mozilla Firefox 2.0.0.12 no Windows Windows XP
  4.  
    battisti disse:

    >> Comentário #2

    >> Autor: Anselmo Battisti

    >> Em: 27/05/2008 às 17:07

    >> Cara não consegui resolver o meu problema com esta

    >> abordagem, meu problema era ouuuuuutro na verdade, ehehe,

    >> mas essa função um dia com certeza vai ajudar, valeu!

    OLHA AI HOJE ESSA FUNÇÃO ME AJUDOU, NÃO FALEI :) VALEU!

    Utilizando Mozilla Firefox Mozilla Firefox 3.0.4 no Ubuntu Linux Ubuntu Linux
  5. Utilizando Internet Explorer Internet Explorer 7.0 no Windows Windows XP
  6.  
    Jonny Ken disse:

    FANTÁSTICO!!!

    Adorei a Gambiarra! re re re re

    Utilizando Mozilla Firefox Mozilla Firefox 3.0.13 no Windows Windows XP
  7.  
    Danilo Suares disse:

    Huhauh. fiz um x um x um x no seu coração!!!

    muito bom, me salvou a vida!

    Parabéns pele tutorial.

    Utilizando Google Chrome Google Chrome 4.1.249.1064 no Windows Windows Vista
  8.  

    muito bom o seu artigo estava a procura disso e solucionou meu problema.. grato…

    Utilizando Mozilla Firefox Mozilla Firefox 3.6.9 no Windows Windows Vista
  9.  

    muito boa essa dica estava a procura disso.. muito bom mesmo…

    Utilizando Mozilla Firefox Mozilla Firefox 3.6.11 no Windows Windows Vista
  10.  
    Guilherme disse:

    Cara, ajudou esse baiano aqui. Muito obrigado!

    Utilizando Opera Opera 9.80 no Windows Windows Vista
  11.  
    Michel disse:

    Tu acabou de ganhar o selo "Sou foda!". Parabéns.

    Utilizando Google Chrome Google Chrome 9.0.597.98 no Windows Windows 7
  12.  
    Rodrigo disse:

    Cara, muito bom esse Tuto aí me ajudo muito pro meu cliente de E-mail. vou recomendar muito. agora, "metodo alternativo de eficácia momentânea" é o melhor! ashuasausha

    Utilizando Google Chrome Google Chrome 9.0.597.98 no Linux Linux
  13. Pingback: PHP: Descobrindo o charset / codificação de uma string (ISO-8859, UTF-8) « rcdeveloper

Deixe um Comentário

O seu endereço de email não será publicado Campos obrigatórios são marcados *

*

Você pode usar estas tags e atributos de HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="" highlight="">