2 de julho de 2008

A REDE DE INFORMAÇÕES E A LINGUAGEM

Por: Adriana Zardini, Ana Carolina Vilela, Carolina Vianini, Rafael Magalhães


POSLIN - FALE - UFMG
Que a Internet se tornou uma mina de informações sobre os mais variados assuntos não resta a menor dúvida. Entretanto, de nada adiantaria saber que existe tanta informação disponível na rede se não houvesse um modo de se "chegar" até ela. Nesse sentido, os sites de busca constituem uma ferramenta fundamental para o internauta, uma vez que operam como mediadores entre o usuário e o conteúdo disponível na Web.
Dentre as ferramentas de busca existentes, certamente a que mais se destaca hoje é o Google. Lançada em 1998 por Larry Page e Sergey Brin, a ferramenta vem causando uma revolução no modo como os usuários da Internet buscam e encontram informações de seu interesse na rede. Antes do surgimento do Google, ferramentas como o Altavista dominavam a Internet através de uma proposta simples. Os resultados eram organizados de acordo com o número de ocorrências e a posição de uma determinada palavra-chave no texto. Dessa forma, para que um site garantisse um lugar entre os primeiros resultados de busca, bastava que ele apresentasse várias vezes uma determinada palavra-chave. Não é difícil inferir o problema de tal abordagem: o fato de um site aparecer no topo da lista não implicava necessariamente a sua boa qualidade. Além do mais, segundo Rafael Kenski, as ferramentas de busca disponíveis eram um misto de serviço e propaganda. Os serviços de busca aceitavam colocar links em destaque em troca de pagamento, o que, mais uma vez, não garantia a veracidade da relação "topo da lista"-"melhor conteúdo".

É nesse contexto que surgem Page e Brin com uma idéia muito mais complexa: a de que os sites passassem a ser avaliados de acordo com o número de links que apontassem para eles. A idéia se baseava no sistema de citações acadêmicas, segundo o qual a relevância de uma dada publicação é inferida a partir do número de textos que fazem referência a ela. O que Page e Brin fizeram, então, foi adaptar o mesmo raciocínio à Internet: as páginas que fossem muito citadas em outros sites seriam, provavelmente, as mais importantes e, portanto, deveriam aparecer no topo das listas de resultados. Nas palavras de Kenski (online), "o sistema causou uma revolução: não era mais uma equação ou uma pessoa que julgava as páginas, mas sim a própria Internet".
As ferramentas de busca e a linguagem
A Internet se transformou em um elemento crucial na vida cotidiana. Com o avanço das ferramentas de busca, o acesso ao conhecimento tornou-se simples e rápido. De fato, temos à nossa disposição o "mundo em um clique". Todas essas questões nos levam a uma profunda reflexão sobre a linguagem e seu papel nesse contexto.
A primeira consideração que nos vem à mente é que a linguagem é o elemento que possibilita a nossa interação com as ferramentas de busca e, conseqüentemente, com o conhecimento disponível na rede. Essa questão é bifacetada. Por um lado, temos a linguagem – em sua vertente escrita – como o instrumental que nós, usuários, empregamos para buscar informações: nós digitamos palavras numa pequena caixa e damos a ordem para que a ferramenta busque o que desejamos. Por outro lado, a linguagem é também a entidade que "corporifica" o conhecimento, de modo que este se torne concretamente acessível a nós. E aqui, não nos referimos apenas ao conhecimento expresso pela linguagem verbal escrita. A Internet está repleta de outras manifestações da linguagem: temos imagens, vídeos e músicas, acessíveis através de sites como o
Flickr
, o YouTube e o Joost. A linguagem exerce, portanto, dois papéis fundamentais na "rede de informações": ela é o instrumento pelo qual comunicamos às ferramentas de busca o que queremos e é também o meio que "corporifica" o conhecimento, tornando-o acessível a nós.
Mas nem sempre a busca se resumiu em simplesmente digitar 'quaisquer palavras' numa caixinha de texto. No passado, ferramentas como o Archie e Veronica - criadas em 1990 e 1993, respectivamente - exigiam que o usuário utilizasse "linguagens poderosas". Isso se refere à necessidade de utilizar expressões específicas e bem aproximadas à forma descrita pelo autor para se achar um arquivo. Caso contrário, mesmo que o arquivo tivesse alguma relação com o tema proposto, ele não figuraria na resposta da busca.
É inegável o salto de qualidade que o Google proporcionou, no cenário da busca, em relação a essas ferramentas do passado. Porém há ainda muito o que se avançar. Segundo Gonçalves de Freitas (s.d.), as ferramentas de busca de hoje não priorizam buscas semânticas, ou seja, não levam em conta o conteúdo das páginas. Dessa forma, explica, "utilizando algoritmos matemáticos para atribuir relevância às páginas, estes engenhos não conseguem dotar de semântica a busca, porque possuem capacidade de representar as páginas com análises baseadas apenas no nível léxico." (p. 3.) O resultado é alta cobertura, porém pouca precisão, disponibilizando ao usuário uma série de resultados inúteis ou irrelevantes. De acordo com esse mesmo autor, "duas características da Internet dificultam o acesso à informação útil, específica e relevante: o volume e a falta de definição semântica precisa, interpretável por programas e sistemas, para as informações disponibilizadas nas páginas." (p. 4.)

Sendo assim, a Inteligência Artificial passa a ser uma alternativa para lidar com a falta de mecanismos capazes de captar a semântica do conteúdo das páginas da Web. Gonçalves de Freitas (ibid.) explica que, "basicamente, dois tipos de solução foram propostos, que não são mutuamente exclusivas: dotar os sistemas de inteligência e autonomia para percorrer e selecionar informação relevante na imensidão da rede, deduzindo ou aprendendo quais as informações úteis (...); dotar a própria Internet de inteligência, fazendo com que as páginas possuam uma semântica clara e definida, e que agentes possam raciocinar sobre esta semântica."(p. 4.) Segundo o autor, essa idéia deu origem ao que chamamos de Web Semântica. Dzikaniak e Kirinus (2004, p. 21) explicam que o objetivo da Web Semântica é incorporar semântica às informações, fazendo com que não apenas os usuários, mas também as máquinas, entendam as informações presentes nos sites. Objetiva-se, assim, criar um ambiente cooperativo para agentes de software e usuários. As autoras ressaltam ainda que é imprescindível que os recursos disponibilizados na Web "sejam expressivos o bastante para que as máquinas ou agentes sejam capazes de processar e entender o real significado do dado, intermediando as necessidades de cada usuário e as fontes de informações disponíveis." (p. 21.) A idéia, então, é que a máquina seja capaz de identificar/inferir o sentido de determinada palavra, sobretudo quando ela se deparar com ambigüidades ou casos de homonímia/polissemia.
O Prolog é uma linguagem de programação baseada na lógica. O nome Prolog vem justamente de PROgramming inLOGic . Esta linguagem, (...) tem se tornado bastante popular entre lingüistas e pesquisadores de lingüística computacional e inteligência artificial. O Prolog foi desenvolvido desde o princípio visando ao trabalho de processamento de línguas naturais e desenvolvimento de parsers automáticos (Othero & Menuzzi, 2005, p. 42). Segundo os mesmos autores (ibidem, p. 43), "o computador é uma máquina que transforma informação procedendo através de uma seqüência de passos. A menos que tenha sido programado, ele não faz nada. (...) A tarefa do programador é dizer ao computador como resolver o problema, mostrando a ele passos detalhados que devem ser seguidos para chegar a resposta correta. Assim, trabalhar com a web semântica e fazer com que o computador deduza, raciocine e entenda depende nós, linguistas , pesquisadores, programadores de software e etc. O Prolog, por exemplo, é um programa que deduz através informações e fatos inseridos em seu banco de dados, trabalhando com a lógica, mas somente baseado em regras e vocabulários que foram antes disponibilizados em seu sistema pelo programador .

Para chegarmos à sonhada "busca perfeita", no entanto, há um longo caminho a ser percorrido. Primeiramente, para que os engenheiros de software possam "ensinar" suas ferramentas a "ler", e conseqüentemente, torná-las capazes de "resolver" problemas de ambigüidade/homonímia/polissemia, eles necessitam de uma boa descrição sintática e semântica dos contextos em que as palavras da língua ocorrem. Para isso, precisam trabalhar em parceria com os cientistas da linguagem, sobretudo com os lingüistas descritivos (aqueles que se ocupam da descrição da língua) e com os lingüistas de corpus (que se ocupam da coleta de dados da língua com o fim de empregá-los em pesquisa lingüística). Fillmore et al. vêm desenvolvendo um projeto – o FrameNet – que busca entender o contexto que cerca uma palavra, isto é, que outros itens lexicais normalmente ocorrem perto dela; em que tipo de construções sintáticas a palavra ocorre, etc. Esse tipo de conhecimento, "ensinado" às ferramentas de busca, aumentará as chances de essas ferramentas acertarem a identificação do "significado exato" das palavras.
Gonçalves de Freitas (ibid.) explica que as ontologias – especificação dos conceitos de um determinado domínio e suas relações, restrições e axiomas, definidos de forma declarativa - são a alternativa para prover semântica à Internet. Além do mais, as ontologias "servem como ferramenta para organização, reuso e disseminação de conhecimento já especificado, facilitando a construção de novos agentes. E mais: podem "servir como vocabulário de comunicação entre agentes inteligentes". Segundo o autor, "linguagens estão sendo desenvolvidas para permitir que páginas sejam anotadas usando formalismos lógicos, que, por sua vez, possam definir ou instanciar ontologias." (p. 4.) Aqui se encaixa o trabalho do lingüista, estabelecendo a ligação humano-computador através da linguagem.

A proposta de pesquisadores nesta área é desenvolver tecnologia capaz de atribuir semântica à busca do conhecimento. O sentido, de acordo com Monteiro (2006), "seria contextualizado de acordo com o usuário em tela, e para tanto as ontologias funcionariam como linguagem de representação do conhecimento, ... estabelecendo as relações e inferências necessárias entre o usuário e as camadas semióticas".
A área de conhecimento que explora as relações entre lingüística e informática é chamada de Lingüística Computacional. Seu objetivo, segundo Othero & Menuzzi (2005, p. 22) é tornar "possível a construção de sistemas com capacidade de reconhecer e produzir informação apresentada em linguagem natural". A área se subdivide em duas outras: a lingüística de corpus (já mencionada acima) e a PLN (processamento de linguagem natural). Em PLN, busca-se estudar a linguagem com vistas à construção de softwares e sistemas computacionais como tradutores automáticos, chatterbots, parsers, reconhecedores automáticos de voz, etc. (ibidem, p. 24).
E não é só dos estudos descritivos em sintaxe e semântica que a lingüística computacional se vale, não. Na área de PLN, por exemplo, é fundamental que se tenha um forte diálogo entre cientistas da computação e fonólogos/foneticistas. Segundo Othero & Menuzzi (ibidem, p. 27-30), os conhecimentos cedidos pela Fonética/Fonologia são imprescindíveis para que se expandam as áreas de reconhecimento e síntese da fala, o que permitirá, respectivamente, a criação de aplicativos de comando de voz e programas que sejam capazes de ler em voz alta páginas disponíveis na internet, por exemplo. Esse último programa, aliás, seria de grande valia por permitir o acesso de deficientes físicos e visuais à rede de informações. Outras áreas da lingüística também podem contribuir. A Lingüística do Texto pode auxiliar "no estabelecimento das relações anafóricas intra- e extra-oracionais do discurso"; a Dialetologia pode cooperar na "compreensão de diferentes dialetos, gírias, regionalismos e jargões", e a Análise da Conversação pode auxiliar na "determinação dos turnos conversacionais e na compreensão e uso de marcadores conversacionais" (ibidem, p. 35).

A busca como metáfora da organização da linguagem e da operação cognitiva de categorização
Podemos traçar um paralelo entre a linguagem e os mecanismos utilizados pelas ferramentas de busca na organização e hieraquização das informações. De fato, esse processo é uma metáfora da organização da própria linguagem, na medida em que os resultados exibidos após uma consulta baseiam-se em associações e cruzamentos de palavras na Web. A maneira como escolhemos as palavras que constituirão a nossa fala/escrita é semelhante ao modo como os mecanismos de busca fazem associações para buscar, na vastidão da Internet, as palavras digitadas de modo a produzir uma busca coerente.
Ademais, a busca e hierarquização da informação feita por ferramentas como o Google guarda semelhança com a maneira como nós categorizamos o mundo. A categorização, capacidade cognitiva que nos permite agrupar entidades por semelhança, não é uma habilidade exclusivamente humana. Outros animais também são capazes de categorizar informações como, por exemplo, o que pode ou não ser comido, de quem podem se aproximar, etc. No entanto, o ser humano faz categorizações mais complexas e é capaz de modificar essas categorias a qualquer momento. Lima (2007) explica que "categorias e hierarquias de categorias são a melhor maneira de organizar o conhecimento para recuperação, pelo óbvio motivo de que a informação estruturada é mais fácil de ser recuperada do que uma informação desorganizada". Citando Moreira (1993, p. 33), Lima lembra que "a estruturação do conhecimento na mente humana tende a seguir uma estrutura hierárquica, a partir das idéias mais abrangentes." E complementa que "a categorização como processo cognitivo é uma alternativa de estruturar a informação, pois ela procura refletir a organização da estrutura informacional de uma pessoa sobre determinado assunto. Essas estruturas do conhecimento são representações da organização das idéias na nossa memória semântica. Cada estrutura de conhecimento existe como objeto, idéia ou evento e, também, como um grupo de atributos, o qual é ligado a outra estrutura do conhecimento. À medida que aprendemos, apreendemos novas estruturas e ligações, adicionando informações às estruturas existentes, ou alterando essas estruturas através do processo de reestruturação." Essa rede de conexões que vamos tecendo para estabelecer significados, a nosso ver, assemelha-se à estrutura de busca do Google. Daí a grande dificuldade em estabelecer a "busca perfeita", já que os limites das categorias são imprecisos e podem ser fortemente influenciados pelo contexto e cultura.

CONCLUSÃO
A linguagem está em constante evolução. Isso ocorre à medida que as pessoas vão fazendo uso da linguagem nas mais diversas situações de interação. De acordo com o contexto sócio-cultural, a linguagem se modifica e amplia a forma de interação entre as pessoas. Tal ponto não difere da busca, já que essas ferramentas também se acham em constante aprimoramento. Ao longo do tempo, com a utilização de termos na Internet e das interações realizadas pelos usuários, a linguagem (de programação) utilizada na rede também evoluiu e se modificou. Essa evolução tem melhorado o acesso ao conhecimento, tornando-o mais amplo e prático. Com o acesso mais fácil, o volume de interações tem aumentado o que, por sua vez, tem contribuído para a evolução da própria linguagem, na forma de acesso e organização do conhecimento e dos mecanismos de busca.
As palavras-chaves usadas nas buscas são, de fato, elementos reveladores da nossa cultura; do nosso "momento" social, uma vez que denunciam o que queremos e buscamos. Esses dados formam, na visão de Battelle (2006, p. 5), a "base de dados de intenções" e constituem informações valiosíssimas sobre a nossa sociedade e cultura, o que, na verdade, gera uma situação controversa. Afinal qual será o real uso dessas informações? Ao mesmo tempo que se pode, a partir de tais informações, proporcionar à sociedade uma série de benefícios e avanços, sabe-se que se pode, da mesma forma, atribuir-lhes fins malévolos.

Referências:
BATTELLE, J. "A Busca". Rio de Janeiro: Campus/Elsevier, 2006.
DZIEKANIAK, G. V.; KIRINUS, J. B. "Web Semântica". Encontros Bibli no. 18, 2004. Diponível em http://www.encontros-bibli.ufsc.br/Edicao_18/2_Web_Semantica.pdf. Data do acesso: 24 de agosto de 2007.

GONÇALVES DE FREITAS, F. Ontologias e Websemantica. Disponível em: http://www.inf.unisinos.br/~renata/cursos/topicosv/ontologias-ws.pdf. Data do acesso: 25 de agosto de 2007.
KENSKI, R. O mundo Google: ele mudou a Internet e a nossa vida. Agora quer revolucionar todo o resto. Disponível em: http://www.oseuguia.com.br/omundogoogle.html. Data do acesso: 24 de agosto de 2007.
LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; Ano 04, Vol 11, 156-167. Disponível em: http://www.cienciasecognicao.org/. Data do acesso: 24 de agosto de 2007.
MOREIRA, M. A. A Teoria de Educação de Novak e o Método de Ensino-Aprendizagem de Gowin. Porto Alegre: IFUFRGS. Série Ensino-Aprendizagem, n. 4, 1993. Apud LIMA, G. A. B. Categorização como um processo cognitivo. Ciências & Cognição; Ano 04, Vol 11, 156-167. Disponível em: http://www.cienciasecognicao.org/. Data do acesso: 24 de agosto de 2007.
MONTEIRO, S. O Ciberespaço e os Mecanismos de Busca: Novas Máquinas semióticas. Ci. Inf. Brasília, V. 35, n. 1, p. 31-38, jan./abri. 2006. Disponível em:
http://www.scielo.br/pdf/ci/v35n1/v35n1a04.pdf
Data do acesso: 27 de agosto de 2007.
OTHERO, G. A; MENUZZI, S. M. Lingüística Computacional – Teoria e Prática. São Paulo: Parábola Editorial, 2005.
Retrieved from "http://linguagem.a.wiki-site.com/index.php/Main_Page"

0 comentários: