BuscaPé, líder em comparação de preços na América Latina

PHPit

Pular navegação

Entendendo as Expressões Regulares

Enviado em 12/11/2007 às 13:17

Prefácio


E o assunto hoje é Expressões Regulares!

Com algumas vasculhadas pela internet podemos encontrar inúmeras definições para expressões regulares, porém, vou ficar com a da Wikipédia de lingua portuguesa.

Uma expressão regular, na Informática, define um padrão a ser usado para procurar ou substituir palavras ou grupos de palavras. É um meio preciso de se fazer buscas de determinadas porções de texto.
Por exemplo, se o conjunto de palavras for {asa, carro, jardim, ovos, terra} e a expressão regular buscar por um padrão rr, obterá as palavras carro e terra.
Existem diferentes formatos para definir-se expressões regulares, porém com algumas noções gerais é possível entender boa parte das expressões.

Fonte: Wikipédia - Expressão Regular

Conceito


As Expressões Regulares (ER, Ereg ou RegEx - para os mais íntimos), então, são um método rápido e simples de manipulação e combinação avançada de strings.

Vamos partir do princípio! Uma expressão regular é essencialmente um padrão. É com base nesse padrão que a expressão em questão será avaliada. Primeiro vamos aprender a sintaxe das expressões para depois aprender como fazê-las funcionar...

Operador ^


Este é o primeiro operador que vamos aprender. O ^ indica que a expressão deve iniciar com a string dada.

^era


Esta sintaxe irá definir que a string dada deverá começar com 'era'. No caso, "era uma vez" seria uma string concordante. Porém, se você tentar "Ele era triste", não obterá sucesso.

Operador $


Já que temos o operador para definir o começo, temos que ter um para definir o final também! Com $ nós definimos a string que deverá conincidir com o final.

fim$


Esta sintaxe irá definir que a string dada deverá terminar com 'fim'. Tentando validar a string "E nunca terá fim" obteremos sucesso, o que não acontecerá com a string "O fim está próximo".

Caracteres em Branco e Caracteres de Escape


Assim como no PHP, em expressões regulares nós temos também que nos utilizar de caracteres de escape, a saber: barra invertida (\).

Segue, então, a lista com os caracteres de espaço em branco e alguns caracteres que necessitam de escape.

\t - Caracter de tabulação
\n - Nova linha
\f - Avanço de página
\r - Retorno de carro

\. - Qualquer caractere
\\ - Uma barra invertida literal
\- - Um hífen literal


... e com alguma garimpada pela rede você consegue encontrar uma lista mais completa!

Classes de Caracteres


Classes de caracteres são uma espécie de grupo que contêm todas as ocorrências que deverão (ou não deverão) constar em uma expressão...

Por exemplo... Para permitir apenas letras vogais, usaríamos:

[AaEeIiOoUu]


Então com este código teríamos um padrão que só permitirá que apenas vogais estejam na string dada.

Vamos agora aprender intervalo de caracteres

[a-z] - Qualquer letra minúscula
[A-Z] - Qualquer letra maiúscula
[a-zA-Z] - Qualquer letra maiúscula ou minúscula
[0-9] - Qualquer número
[0-9\.\-] - Qualquer número, ponto ou sinal de subtração


Bom... Tudo muito legal, muito simples... Mas isto serve apenas para combinação de UM caractere.

^[a-z][0-9]$


Neste caso teríamos uma expressão de apenas dois caracteres em que o primeiro tem necessariamente que ser uma letra minúscula e o segundo ser um número.

Agora vamos aprender outra função para o operador ^! Fora de uma classe de caracteres, ele serve para demonstrar o que deve haver no início, porém dentro, ele serve para mostrar o que não deve ocorrer.

^[^0-9][0-9]$


Aqui nós definimos que a expressão deve começar com um caractere que não seja um número e seja imediatamente seguido por um caractere que será um número!

Classes de Caracteres Pré-definidas


Para evitar chateação, foram criadas as classes de caracteres pré-definidas que já vêm junto com o interpretador de ER que você estiver utilizando (lembrando que estão presentes apenas no método POSIX).

[[:alpha:]] // Qualquer letra (alfabético)
[[:digit:]] // Qualquer número (dígito)
[[:alnum:]] // Qualquer letra ou número (alfanumérico)
[[:space:]] // Qualquer caractere de espaço
[[:upper:]] // Qualquer letra maíuscula
[[:lower:]] // Qualquer letra minúscula
[[:punct:]] // Qualquer caractere de pontuação
[[:xdigit:]] // Qualquer dígito hexadecimal (Equivalente a: [0-9a-fA-F])


Ocorrências Múltiplas


Agora vamos pra parte em que realmente começa a fazer sentido usar-se expressões regulares.

^[[:alpha:]]{3}$ // Qualquer palavra de três letras
^a{4}$ // Só fecha com a expressão 'aaaa'
^a{2,4}$ // Fecha com 'aa', 'aaa' e 'aaaa'
^a{2,}$ // Fecha com 'aa', 'aaa', 'aaaa', 'aaaaa' e assim por diante


Até aqui... Tudo tranquilo? Então vamos em frente!

Há outros modos de representar a repetição de caracteres!

? - Uma ocorrência ou nenhuma (Equivale a {0,1})
* - Nenhuma ocorrência, uma ocorrência, duas ocorrências e por aí vai (Equivale a {0,})
+ - Uma ou mais ocorrências (Equivale a {1,})


Se até aqui foi tudo tranqüilo, estamos muito bem! :)

Vamos então para o tópico final de expressões regulares

Alternação e Parênteses


A alternação se baseia no caractere de "pipe", o famoso |. Ele é bem parecido com o operador lógico OR. Por exemplo...

r|s é equivalente a [rs]


Para caracteres simples é com certeza mais conveniente utilizar as classes. A alternação é basicamente útil para utilizar alternância de palavras.

João|Maria|José


Esta expressão só irá retornar verdadeiro se a string dada for "João" OU "Maria" OU "José".

Agora vamos aos parênteses. Eles tem uma função muito importante.
Caso você utilize

feliz+

Somente fecharia com:
feliz
felizz
felizzz
felizzzz
...


Porém com os parênteses, temos um jeito mais interessante de interar com palavras repetidas.

(feliz)+

Irá fechar com:
feliz
felizfeliz
felizfelizfeliz
...


Quando utilizados em conjunto, obtemos bastante flexibilidade para nossas expressões regulares.

(fel|g|aprend)iz

Irá fechar com:
feliz
giz
aprendiz

-----------
João|Maria$ - Fecha com 'João' em qualquer parte da string ou com 'Maria' no final
(João|Maria)$ - Fecha tanto com "João" quanto "Maria", porém, no final da string
([ab])([xy]) - Fecha com 'ax', 'ay', 'bx' e 'by'


E fim de papo!

Utilizando expressões regulares no PHP


Agora que já aprendemos essa porrada de regras, temos que saber como aplicá-las! (Lembrando que este é o método POSIX. Caso você vá utilizar ER em outra linguagem, pode ter de fazer algumas adaptações)

ereg() e eregi()



Vou ensinar apenas essas duas... Caso você queira se aprofundar mais, olhe no manual do php no capitulo de expressões regulares! :)

int ereg(string padrão, string fonte [, array registro]);

Esta função retorna TRUE se o padrão dado for encontrado na fonte e FALSE caso contrário.

  1. <?php
  2.  
  3. $email = 'mario@gmail.com';
  4. $padrao = "^(.+)@(.+)\.(.+)$";
  5.  
  6. if (ereg($padrao,$mail)) {
  7. print 'Seu email passou na validacao';
  8. }
  9. else {
  10. print 'Seu email nao passou na validacao';
  11. }
  12.  
  13. ?>


O que temos?
A string dada deverá começar com algum caractere qualquer em qualquer quantidade, seguido de uma arroba, seguido de mais qualquer caractere em qualquer quantidade, seguido de um ponto literal, seguido de mais qualquer sequência de caracteres, que deverão então finalizar a string.
A função eregi() se comporta de modo semelhante, porém não diferencia maiúsculas e minúsculas.

Conclusão


O mundo das expressões regulares é muito grande e abrangente. Com certeza não vai ser com essa passada de olho que você vai se tornar um expert em ER, mas serve pra dar uma noção do que elas são e para que servem!

Um grande abraço a todos e fiquem com Deus!

Rafael Jaques

 

Comente (09)




Comentário #1
Autor: 4nd3rs0n (Kuen com balaca no nome)
Em: 12/11/2007 às 13:13

Mazááá!!

Agora vou saber como "usar" as expressões regulares!

Comentário #2
Autor: Xorna
Em: 12/11/2007 às 16:40

Ae Rafa, show de bola esse post, expressões regulares são importantes para quem tem um caminho a seguir pela programação. Assunto inevitável, parabéns pelo post e pelo blog que tá com o layout 100% aqui no Feisty Fawn...

abraço

Comentário #3
Autor: Tomas
Em: 13/11/2007 às 07:20

Dessa vez acho que eu aprendo :D

Comentário #4
Autor: Anderson Triacca
Em: 13/11/2007 às 09:43

Car#$%, acho que agora finalmente entendí expressões regulares...

Flw

Comentário #5
Autor: Esdras
Em: 13/11/2007 às 15:21

Mazaááá....

Grande Rafa...vou usar sim, no Linux vai ajudar um monte...
so tem que ler neh...

hehe

sucesso pra ti

Comentário #6
Autor: felipe tonello
Em: 14/11/2007 às 13:44

Iae Mew..

Muito bom o artigo, parabéns!!!

ER é muito importante mesmo, aqui no VIM eu uso toda hora.. quebra um galho muito grande... produtividade ao máximo!!

Abraços

Comentário #7
Autor: Andr
Em: 11/06/2008 às 09:52

Parabéns cara, apesar de ter pouco conteudo tem muita qualidade

Comentário #8
Autor: KurmanAhlabm
Em: 15/11/2008 às 00:04

Hi there!
My first post at this great blog!
I wanna show u my dayly updated blog: <a href= http://www.megautbe.cn >Black Amateur Fuck Video</a>
Have a nice day!
BB!

P.S. if you don't want to see this message please write me to no.ads08@gmail.com with subject "NO ADS" and URL of your forum
Thank you for cooperation!

Comentário #9
Autor: DominikKoeh
Em: 19/11/2008 às 10:57

My first post at this great blog!
I wanna show u my dayly updated blog: <a href= http://giantblg.cn/whole-ass-amateur.html >Whole Ass Amateur</a>
P.S. if you don't want to see this message please write me to no.ads08@gmail.com with subject "NO ADS" and URL of your forum
Thank you for cooperation!

Artigos Recentes

Rafael Jaques - PHPit 2007
Site sob Creative Commons - Alguns direitos reservados

Assine o RSS do PHPit! :)
Saiba onde tem o melhor preço antes de comprar