Monday, April 06, 2009

Banco de Dados - "Web Profunda"

Debatemos na última aula sobre banco de dados na internet...segue matéria do New York Times reproduzida pela Folha de São Paulo de 30 de março. O texto cita uma pesquisadora brasileira, Juliana Freire, professora da Universidade de Utah.

Pesquisadores tentam explorar recônditos do universo digital
Por ALEX WRIGHT

Em meados de 2008, o Google discretamente alcançou um marco: o trilionésimo endereço da sua lista. Mas, por maior que esse número pareça, ele representa apenas uma fração de toda a internet.Além desse trilhão de páginas há uma web mais vasta de dados ocultos: dados financeiros, catálogos de compras, horários de voos, pesquisas médicas e todo tipo de material guardado em bancos de dados geralmente invisíveis aos buscadores.Os desafios dos grandes mecanismos de busca para penetrarem nessa chamada "web profunda" explicam em grande parte por que eles ainda não conseguem responder satisfatoriamente a perguntas como "Qual é a melhor tarifa de voo de Nova York a Londres na próxima quinta?". Agora, está surgindo uma nova leva de tecnologias que ampliará o alcance dos buscadores até os recônditos da web. Quando isso acontecer, não só melhorará o resultado das buscas -poderá até redefinir a forma como as empresas atuam on-line.Os buscadores dependem de programas "crawlers" (rastejadores), que juntam informações seguindo as pistas dos hyperlinks que unem a rede. Embora isso funcione bem para as páginas que compõem a superfície da web, esses programas têm dificuldade em penetrar bancos de dados formulados para responderem a consultas digitadas."A web 'rastejável' é a ponta do iceberg", diz Anand Rajaraman, cofundador da Kosmix, empresa que criou um software de análise de bancos de dados que tiverem mais chances de gerarem informações relevantes, para então apresentar uma visão geral do assunto retirada de múltiplas fontes. "A maioria dos buscadores tenta ajudá-lo a encontrar uma agulha em um palheiro", disse Rajaraman. "Mas o que nós estamos tentando fazer é ajudá-lo a explorar o palheiro."O palheiro é infinitamente grande. Com milhões de bancos de dados conectados à web e incontáveis permutações de termos de busca, simplesmente não há como um buscador, por mais poderoso que seja, peneirar todas as combinações possíveis. Para extrair dados significativos da "web profunda", os buscadores têm de analisar os termos de busca do usuário e entender como mediar essas consultas junto a bancos de dados específicos.A brasileira Juliana Freire, professora da Universidade de Utah, trabalha no ambicioso projeto DeepPeep ("espiada profunda"), que pretende vasculhar e indexar todos os bancos de dados públicos da web. Extrair o conteúdo de conjuntos de dados tão díspares exige um sofisticado jogo de adivinhação informática. O DeepPeep começa fazendo um pequeno número de consultas-exemplo, "para que possamos então usar isso para ampliar nossa compreensão dos bancos de dados e escolher quais palavras procurar", disse ela. Para além da esfera das buscas para o consumidor, as tecnologias da "web profunda" podem no futuro permitir que as empresas usem os dados de um jeito novo. Por exemplo, um site de notícias locais poderia ampliar sua cobertura permitindo que os usuários consultassem registros públicos armazenados em bancos de dados do governo.

No comments: