Entendendo as Expressões Regulares

Prefácio

E o assunto hoje é Expressões Regulares!

Com algumas vasculhadas pela internet podemos encontrar inúmeras definições para expressões regulares, porém, vou ficar com a da Wikipédia de lingua portuguesa.

Uma expressão regular, na Informática, define um padrão a ser usado para procurar ou substituir palavras ou grupos de palavras. É um meio preciso de se fazer buscas de determinadas porções de texto.
Por exemplo, se o conjunto de palavras for {asa, carro, jardim, ovos, terra} e a expressão regular buscar por um padrão rr, obterá as palavras carro e terra.
Existem diferentes formatos para definir-se expressões regulares, porém com algumas noções gerais é possível entender boa parte das expressões.

Fonte: Wikipédia – Expressão Regular

Conceito

As Expressões Regulares (ER, Ereg ou RegEx – para os mais íntimos), então, são um método rápido e simples de manipulação e combinação avançada de strings.

Vamos partir do princípio! Uma expressão regular é essencialmente um padrão. É com base nesse padrão que a expressão em questão será avaliada. Primeiro vamos aprender a sintaxe das expressões para depois aprender como fazê-las funcionar…

Operador ^

Este é o primeiro operador que vamos aprender. O ^ indica que a expressão deve iniciar com a string dada.

^era

Esta sintaxe irá definir que a string dada deverá começar com ‘era’. No caso, “era uma vez” seria uma string concordante. Porém, se você tentar “Ele era triste”, não obterá sucesso.

Operador $

Já que temos o operador para definir o começo, temos que ter um para definir o final também! Com $ nós definimos a string que deverá conincidir com o final.

fim$

Esta sintaxe irá definir que a string dada deverá terminar com ‘fim’. Tentando validar a string “E nunca terá fim” obteremos sucesso, o que não acontecerá com a string “O fim está próximo”.

Caracteres em Branco e Caracteres de Escape

Assim como no PHP, em expressões regulares nós temos também que nos utilizar de caracteres de escape, a saber: barra invertida ().

Segue, então, a lista com os caracteres de espaço em branco e alguns caracteres que necessitam de escape.

\t – Caracter de tabulação
\n – Nova linha
\f – Avanço de página
\r – Retorno de carro

\. – Qualquer caractere
\\ – Uma barra invertida literal
\- – Um hífen literal

… e com alguma garimpada pela rede você consegue encontrar uma lista mais completa!

Classes de Caracteres

Classes de caracteres são uma espécie de grupo que contêm todas as ocorrências que deverão (ou não deverão) constar em uma expressão…

Por exemplo… Para permitir apenas letras vogais, usaríamos:

[AaEeIiOoUu]

Então com este código teríamos um padrão que só permitirá que apenas vogais estejam na string dada.

Vamos agora aprender intervalo de caracteres

[a-z]     - Qualquer letra minúscula
[A-Z]     - Qualquer letra maiúscula
[a-zA-Z] - Qualquer letra maiúscula ou minúscula
[0-9]      -  Qualquer número
[0-9.-] - Qualquer número, ponto ou sinal de subtração

Bom… Tudo muito legal, muito simples… Mas isto serve apenas para combinação de UM caractere.

^[a-z][0-9]$

Neste caso teríamos uma expressão de apenas dois caracteres em que o primeiro tem necessariamente que ser uma letra minúscula e o segundo ser um número.

Agora vamos aprender outra função para o operador ^! Fora de uma classe de caracteres, ele serve para demonstrar o que deve haver no início, porém dentro, ele serve para mostrar o que não deve ocorrer.

^[^0-9][0-9]$

Aqui nós definimos que a expressão deve começar com um caractere que não seja um número e seja imediatamente seguido por um caractere que será um número!

Classes de Caracteres Pré-definidas

Para evitar chateação, foram criadas as classes de caracteres pré-definidas que já vêm junto com o interpretador de ER que você estiver utilizando (lembrando que estão presentes apenas no método POSIX).

[[:alpha:]] // Qualquer letra (alfabético)
[[:digit:]] // Qualquer número (dígito)
[[:alnum:]] // Qualquer letra ou número (alfanumérico)
[[:space:]] // Qualquer caractere de espaço
[[:upper:]] // Qualquer letra maíuscula
[[:lower:]] // Qualquer letra minúscula
[[:punct:]] // Qualquer caractere de pontuação
[[:xdigit:]] // Qualquer dígito hexadecimal (Equivalente a: [0-9a-fA-F])

Ocorrências Múltiplas

Agora vamos pra parte em que realmente começa a fazer sentido usar-se expressões regulares.

^[[:alpha:]]{3}$ // Qualquer palavra de três letras
^a{4}$ // Só fecha com a expressão 'aaaa'
^a{2,4}$ // Fecha com 'aa', 'aaa' e 'aaaa'
^a{2,}$ // Fecha com 'aa', 'aaa', 'aaaa', 'aaaaa' e assim por diante

Até aqui… Tudo tranquilo? Então vamos em frente!

Há outros modos de representar a repetição de caracteres!

?     - Uma ocorrência ou nenhuma (Equivale a {0,1})
*     - Nenhuma ocorrência, uma ocorrência, duas ocorrências e por aí vai (Equivale a {0,})
+     - Uma ou mais ocorrências (Equivale a {1,})

Se até aqui foi tudo tranqüilo, estamos muito bem! :)

Vamos então para o tópico final de expressões regulares

Alternação e Parênteses

A alternação se baseia no caractere de “pipe”, o famoso |. Ele é bem parecido com o operador lógico OR. Por exemplo…

r|s é equivalente a [rs]

Para caracteres simples é com certeza mais conveniente utilizar as classes. A alternação é basicamente útil para utilizar alternância de palavras.

João|Maria|José

Esta expressão só irá retornar verdadeiro se a string dada for “João” OU “Maria” OU “José”.

Agora vamos aos parênteses. Eles tem uma função muito importante.
Caso você utilize

feliz+

Somente fecharia com:
feliz
felizz
felizzz
felizzzz
...

Porém com os parênteses, temos um jeito mais interessante de interar com palavras repetidas.

(feliz)+

Irá fechar com:
feliz
felizfeliz
felizfelizfeliz
...

Quando utilizados em conjunto, obtemos bastante flexibilidade para nossas expressões regulares.

(fel|g|aprend)iz

Irá fechar com:
feliz
giz
aprendiz

-----------
João|Maria$     - Fecha com 'João' em qualquer parte da string ou com 'Maria' no final
(João|Maria)$   - Fecha tanto com "João" quanto "Maria", porém, no final da string
([ab])([xy])    - Fecha com 'ax', 'ay', 'bx' e 'by'

E fim de papo!

Utilizando expressões regulares no PHP

Agora que já aprendemos essa porrada de regras, temos que saber como aplicá-las! (Lembrando que este é o método POSIX. Caso você vá utilizar ER em outra linguagem, pode ter de fazer algumas adaptações)

ereg() e eregi()

Vou ensinar apenas essas duas… Caso você queira se aprofundar mais, olhe no manual do php no capitulo de expressões regulares! :)

int ereg(string padrão, string fonte [, array registro]);

Esta função retorna TRUE se o padrão dado for encontrado na fonte e FALSE caso contrário.

<?php

$email = 'mario@gmail.com';
$padrao = "^(.+)@(.+).(.+)$";

if (ereg($padrao,$mail)) {
    print 'Seu email passou na validacao';
}
else {
    print 'Seu email nao passou na validacao';
}

?>

O que temos?
A string dada deverá começar com algum caractere qualquer em qualquer quantidade, seguido de uma arroba, seguido de mais qualquer caractere em qualquer quantidade, seguido de um ponto literal, seguido de mais qualquer sequência de caracteres, que deverão então finalizar a string.
A função eregi() se comporta de modo semelhante, porém não diferencia maiúsculas e minúsculas.

Conclusão

O mundo das expressões regulares é muito grande e abrangente. Com certeza não vai ser com essa passada de olho que você vai se tornar um expert em ER, mas serve pra dar uma noção do que elas são e para que servem!

Um grande abraço a todos e fiquem com Deus!

Rafael Jaques

75 respostas para “Entendendo as Expressões Regulares”

  1. 4nd3rs0n (Kuen com b disse:

    Mazááá!!

    Agora vou saber como "usar" as expressões regulares!

  2. Xorna disse:

    Ae Rafa, show de bola esse post, expressões regulares são importantes para quem tem um caminho a seguir pela programação. Assunto inevitável, parabéns pelo post e pelo blog que tá com o layout 100% aqui no Feisty Fawn…

    abraço

  3. Tomas disse:

    Dessa vez acho que eu aprendo :D

  4. Car#$%, acho que agora finalmente entendí expressões regulares…

    Flw

  5. Esdras disse:

    Mazaááá….

    Grande Rafa…vou usar sim, no Linux vai ajudar um monte…

    so tem que ler neh…

    hehe

    sucesso pra ti

  6. Iae Mew..

    Muito bom o artigo, parabéns!!!

    ER é muito importante mesmo, aqui no VIM eu uso toda hora.. quebra um galho muito grande… produtividade ao máximo!!

    Abraços

  7. André disse:

    Parabéns cara, apesar de ter pouco conteudo tem muita qualidade

  8. Eu estava procurando algo que me explica sobre expressão regular! Você é um anjo da guarda! Valeu cara!

  9. .bnj disse:

    <script>alert("Xss");</script>

  10. giuñ disse:

    <iframe src="http://www.google.com&quot; width="300" onload=alert("Xss"); >

    • Jefrey disse:

      Opa, cara, não é vulnerável kkkkkkkk

      Pela proximidade dos comentários (1 minuto), parece que você é o autor do de cima também.

      O que é burrice, já que ele não aceitou nem as tags de script, porque aceitaria iframe?

      Mas pela escolha do sistema operacional já se conhece o guri, ou melhor, o kiddie kkkkk

      Quanto ao artigo, está excelente!

      Caiu como uma luva. Valeu!

  11. Rafael Jaques disse:

    Eu acho que vou deixar aí esses dois comentários acima! :P

  12. Ederson Dias disse:

    Parabéns pelo post, mto bom!

  13. Wesley disse:

    Bem legal esse artigo, pô!

    mesmo eu programando em asp.net, foi bem útil esse artigo, está muito bem explicado! :D

    E esses comentários aí da pessoa tentando colocar um script foi legal.. kkkkkkk

    Abraços,

  14. Junior disse:

    Eu queria uma explicação de como definir um número mínimo de números para uma estring,

    Ex A senha deve conter pelo menos 3 números e no mínimo 6 caracteres….

    Valeu

  15. Gabriel Antunes disse:

    Rafael,

    muito obrigado pelo artigo, me ajudou muito a desenvolver um problema aqui no trabalho, mas por faltade tempo e preguiça nunca optaava por estudar "expressões regulares", agora parando e analisando, não adianta, mesmo que tendo que quebrar a cabeça um pouquinho muitas vezes é a melhor saída, ainda mais quem trabalha com conteúdo de texto. Valeu mesmo. Só um acertozinho: no exemplo você declarou com a variável $email, depois na hora de jogar dentro da função eregi(); você pôs $mail. Só acerta isso lá. Nada que vai atrapalhar o aprendizado, mas é só um acertozinho a fazer…

    GRande Abraços!!!!!

    Gabriel Antunes.

  16. CAIO disse:

    Primeiro lugar: essa perguntinha ai pra validar esse comentário é ruim.

    Pergunta: qual a cor do círculo na bandeira do japão?

    Eu sou daltônico!!!! Sacanagem!

    Bom… o artigo é nota 10!

    Não sabia fazer um expressão regular com 100% de certeza até ler esse artigo!!

    Parabéns!

  17. Marcel disse:

    Show de bola, muito explicativo e direto, me ajudou bastante, obrigado!

    Abraço.

  18. Nei disse:

    Muito interessante… eu realmente não tinha noção de como funcionavam, embora já tivesse manipulado algumas expressões já criadas por outros programadores…

    Este foi o inicio, vou me aprofundar…

  19. aneildo disse:

    muito bom o artivo

    vlw

  20. Jio disse:

    Hmm… Então quer dizer que no final das contas ER não morde…

    Bom artigo, obrigado.

  21. Bem legal o artigo, parabéns! Gostaria de colocar um link no meu blog… Estou autorizado? Rs… Um abraço.

  22. Ricardo disse:

    Muito bom cara, parabéns eu realmente entendi por aqui mais sobre ER. abs…

  23. Luiz Henrique disse:

    Muito bom o artigo! Parabéns continue escrevendo bons artigos.

    Obrigado!

  24. Rogério disse:

    Muito legal kra achei massa

  25. Fernando Wobeto disse:

    Cara, muito bom, estava pesquisando sobre urls amigaveis no PHP e acabei me deparando com esse ótimo tutorial.

    Meus parabens!!

  26. Jefferson Souza disse:

    Ótimo tutorial… mas só lembrando a galera que as funções ereg e as demais da mesma classe foram depreciadas no PHP 5.3 e serão excluidas no PHP6 =[ … ou seja, cuidado quanto ao uso… a solução seria a preg_match…

  27. Jason disse:

    pois bem, estava eu navegando pelo google em busca de expressões regulares, e seu blog apareceu por primeiro! bacana não? hehe.

    muito bom o post, finalmente comecei a entender o sentido de todos aqueles caracteres.hehehe.

    agora vamos tentar usa-los. grande abraço!

  28. Bruno disse:

    Excelente post, sobre expressões regulares sempre tive dificuldades de ententer esse assunto, bem se vê que você teve trabalho de fazer um post que não fosse um CTRL C, CTRL V como a gente encontra por ai. Parabéns!Ajudou muito

  29. Jordão disse:

    Cara, muito bom.

    Finalmente tive uma noção sobre o que são as ER.

    Muito obrigado mesmo.

    Preciso usar isso no meu .htaccess.

    Vlw!

  30. Parabéns cara, muito bom.

    Finalmente consegui entender… rsrsrsrs

  31. Inacio disse:

    Parabéns pelo post!

    Gostaria de saber se tem como identificar se uma string está codificada ou não.

    EX:

    str1 = "teste de ação – %30";

    str2 = "teste%20de%20a%E7%E3o%20-%20%2530";

    Preciso realizar o urlencode nas variaveis, porém não posso realizar esta operação caso a variável já esteja codificada.

  32. Tiago Butzke disse:

    Muito bom cara.

    Parabéns pelo artigo.

    Abraços!

  33. Paulo Taneda disse:

    Excelente artigo, muito útil.

  34. Wagner disse:

    Estada Precisando fazer uma página de indexação, e seu artigo foi muito útil, parabéns!!!

  35. @DagmarCirino disse:

    Muito bom, tirei algumas dúvidas bem básicas agora aqui no trabalho, que eu tava com dificuldade de fazer =]

    Vlw

    ********************

    ahhh

    "<iframe src="http://www.google.com&quot; width="300" onload=alert("Xss"); >"

    Da só uma olhada no sistema operacional do bixinho.

  36. Excelente o artigo, finalmente entendi o que são expressões regulares. Obrigado!

  37. Raphael disse:

    Parabéns pelo artigo, está bem claro!

  38. Marlon disse:

    Ótima Postagem , me ajudou muito :D

  39. Jonas disse:

    Mto show, vlw

  40. Flávio Vinici disse:

    Gostei! Beastante direto e explicativo!

  41. jacs disse:

    Obrigado!

    Valeu :-)

  42. joaquim cleto de sou disse:

    Muito bom e fácil de entender. Poderia acrescentar outros comandos, como por exemplo o retrovisor.

    Um abraço.

  43. sammyo freitas disse:

    Muito bom, gostei muito do seu post.

    Tudo muito bem explicado e é suficiente para ter uma noção.

  44. ADRYLB disse:

    Muito bom, esclareceu e muito minhas duvidas…

    Na verdade usou de todos os operadores e explicou mesmo o que queria saber…

    Muito obrigado

  45. Muito bom artigo sobre Expressões Regulares, o melhor que vi até agora. Precisei compreender para poder desenvolver uma específica para a emprea onde trabalho e esse artigo me ajudou bastante!

    Parabéns ao auto, continue assim !

  46. João disse:

    Cara, muito bom. Me ajudou bastante!

  47. Fernando disse:

    Muito bom o material, bem explicado, ajudou muito minha tarefa aqui na empresa!

    Parabéns pelo Blog, Favoritado

  48. Ricardo disse:

    Como já tive essa disciplina na faculdade "Automatos e Maquina de Turing", foi muito facil entender como o php trabalha com ER.. Obrigado!

  49. Renato disse:

    HUMILHOOOO!!! é mto mais simples do que eu imaginava!! haha
    eu sempre copiei validação de email justamente por nao fazer ideia do que isso se tratava!! haha

    fiz uma função pra pegar qualquer url de uma string e transformar em link tanto para http:// quanto para www. e para emails

    quem quiser ta aee http://pastebin.com/4WL9gKeY

    só enviar por parâmetro a variável da string
    fika assim
    $texto = “Esse texto veio do site <a href="http://www.algumsite.com” target=”_blank”>http://www.algumsite.com e meu email é fulano@algumsite.com“;
    $texto = criaurl($texto);
    echo $texto;

    valeu!! =DD

  50. Charles disse:

    Gostei muito do artigo. Parabéns mesmo, me ajudou bastante a finalmente entender o que são, pra que serve e como usá-las. Obrigado!

  51. AÊ, enfim um artigo que ensina tudo sobre expressões regulares com PHP! Obrigado, ajudou muito!

  52. Black Team disse:

    eeita nois. que artigo bom!

  53. Black Team disse:

    Tava com dúvida quanto aos emails, agora sim!

  54. Black Team disse:

    Artigo muito bom amigo, pena tentarem te hackear…

  55. Miqueloti disse:

    Muito bom o artigo, parabéns!!!

  56. [...] expressões regulares há um tutorial bem interessante disponível no site PHPiT disponível em http://www.phpit.com.br/artigos/entendendo-as-expressoes-regulares.phpit É isso aí! Abraço do Giba! Recommend on Facebook Tweet about it Subscribe to the comments on [...]

  57. khaio disse:

    Muito bom seu post.
    Me ajudou muito.

    Mas eu tenho uma duvida quanto ao uso da função ereg().
    O Manual do PHP 5.3 diz que essa função foi deprecated(não sei a tradução disso, acho que é descontinuada), e queria saber se você tem uma outra opção para o uso dessa função ou mais alguém conhece alguma outra possibilidade.

    Abrços

  58. isso é muito complexo para mim ainda mas eu chego lá

  59. Show de bola cara, muito bem explicado, ajudou bastante.

    Abraço

  60. Rafael disse:

    muito obrigado !
    Não estava entendendo nada deste assunto, mas graças a sua explicação tudo ficou mais claro

  61. É impressão minha ou o PHP5 não aceita mais os termos d , w e s para números, alfanuméricos e espaço respectivamente ?
    Fiz uns testes aqui com eles e preg_match() não acha !

    Muito bom seu post !

  62. Excelente post! Sabendo usar, o negócio muda messmo…rs

  63. [...] Um excelente tutorial para começar do Rafael Jaques- http://www.phpit.com.br/artigos/entendendo-as-expressoes-regulares.phpit Aurélio Marinho Jargas – O guru das expressões regulares – [...]

  64. Excelente post! Esclareceu um assunto que é sempre tido como complexo.

  65. Feriados 2013 disse:

    Muito bem escrito, gostei! No final dos artigos, seria interessante ter algumas questões sobre o assunto para fixação… mais isso seria so um complemento ao entendimento mesmo, abraços e obrigado

  66. GLAP disse:

    Ctrl+D
    Depois de ler esse post

  67. André disse:

    Olá Pessoal Tudo certinho, será que alguém poderia me dizer como posso fazer as seguintes expressões regulares. Obrigado

    Identificadores
    • caracteres válidos – letras, digitos e os
    caracteres especiais: “@”, “#“ e “_”
    • regras de formação:
    • começa com letra ou com “@”
    • não pode terminar com “@”, “#“ e “_”
    • não possui caracteres especiais consecutivos
    • não possui limite de tamanho
     Palavras reservadas
     casos especiais de identificadores
    • programa, var, caracter, cadeia, procedimento, inicio, fim,
    inteiro, booleano, funcao, se, entao, senao, leia, escreva, ou, e,
    nao, falso, verdadeiro, de, faca, real, vetor, enquanto
    OBS.: Esta relação deverá ser atualizada quando da
    especificação sintática da LSI-13/2

     Constantes numéricas
    • Inteiras e reais sem sinal (com ou sem parte
    exponencial)
    • Parte exponencial composta por: “E” ou “e”, sinal
    opcional (“+” ou “-” ) e pelo menos 1 dígito
    • Tokens distintos para constantes inteiras e reais
    • Constantes inteiras – números sem ponto decimal
    • Constantes reais – números com ponto decimal (no
    início, no fim ou no meio)
    6
     Constantes literais
    • Usar ‘ (caracter aspa) como delimitador
    • Sem limite de tamanho
    • No meio de um string, o caracter ‘ (aspa) deve ser
    representado por duas aspas simples justapostas
    Ex. ‘pato d’’agua’
    • Permitir continuação em outra linha
    • Literal não fechado – erro léxico
    • Literais podem conter quaisquer caracteres (mesmo os
    caracteres inválidos para outros fins)

     Comentários de linha  Começa com “//”
     Termina no final da linha

     Comentários de bloco
    • notação: qualquer sequência de caracteres entre os
    delimitadores /* e */
    • não analisar sequências de caracteres internas
    • sem limite de tamanho
    • comentário não fechado = erro léxico

     Símbolos especiais
    (lista a ser atualizada posteriormente)
    • Token específico para cada símbolo
    • Simples: ; , . > < = ( ) [ ] + – * / :
    • Duplos: := .. <> <= >=

  68. thiago disse:

    Parabéns, muito objetivo.

  69. dma disse:

    Show de bola velho, finalmente algo que explica mesmo sem enrolação e termos difíceis.
    Parabéns mesmo.

Deixe uma resposta