VoyForums
[ Show ]
Support VoyForums
[ Shrink ]
VoyForums Announcement: Programming and providing support for this service has been a labor of love since 1997. We are one of the few services online who values our users' privacy, and have never sold your information. We have even fought hard to defend your privacy in legal cases; however, we've done it with almost no financial support -- paying out of pocket to continue providing the service. Due to the issues imposed on us by advertisers, we also stopped hosting most ads on the forums many years ago. We hope you appreciate our efforts.

Show your support by donating any amount. (Note: We are still technically a for-profit company, so your contribution is not tax-deductible.) PayPal Acct: Feedback:

Donate to VoyForums (PayPal):

Login ] [ Contact Forum Admin ] [ Main index ] [ Post a new message ] [ Search | Check update time ]


[ Next Thread | Previous Thread | Next Message | Previous Message ]

Date Posted: 03:54:31 11/01/02 Fri
Author: Macondes
Subject: GERAL SOBRE A UNIDADE 2

Prezados Alunos

Vou fazer a seguir algumas considerações gerais para orientar o estudo de vocês sobre a Unidade2.

O tema da Unidade 2 é “DESCOBERTA DE INFORMAÇÕES NA REDE MUNDIAL - PROBLEMAS E ALTERNATIVAS”. Ela se propõe a discutir o PROBLEMA da “explosão informacional”, que todos vocês já ouviram falar, e que foi agravado MUITÍSSIMO com o surgimento da Internet, a partir dos anos 90; mais assustador que o tamanho da Internet é a sua taxa de crescimento; além disso, existe uma INSTABILIDADE muito grande: muitas páginas Internet surgem e desaparecem.

Desde o surgimento da Internet, foram desenvolvidas várias alternativas para se encontrar informações nela; é o problema chamado na literatura especializada de DESCOBERTA DE INFORMAÇÕES (“information discovery”).

Este problema é crucial e envolve interesses não só educacionais e acadêmicos, como é o caso de um estudante fazendo uma pesquisa escolar, ou um cientista, procurando trabalhos correlatos para a revisão bibliográfica da sua pesquisa. Este problema envolve também INTERESSES ECONÔMICOS: empresas procuram parceiros e fornecedores, ou oportunidades de negócios. De fato, não adianta a informação existir, estar disponível na rede, se seus usuários potenciais não tem conhecimento da sua existência ou não conseguem achá-la.

A primeira alternativa para este problema foram os chamados “sites” de busca, mecanismos de busca, etc, como Yahoo, AltaVista, Lycos, Webcrawler, HotBot, Google, etc. Nós os chamamos neste curso de “localizadores gerais” exatamente porque eles são gerais e não especializados em algum assunto. O Yahoo surgiu da lista de favoritos publicada na web, de dois estudantes de pós-graduação em ciência da computação; eles acabaram ficando milionários com isto. Os “links” eram selecionados, coletados e armazenados por profissionais de informação numa base de dados. É o tipo de serviço que os textos básicos chamam de catálogos. Posteriormente, foram desenvolvidos programas especiais, os robôs ou “crawlers” que visitam endereços Internet, indexam suas páginas extraindo palavras-chave do texto das páginas e armazenam numa base de dados as palavras-chave associadas ao endereço (URL) da página. Posteriormente, um usuário pode fazer uma busca por palavra-chave nesta base e recuperar os endereços dos “sites” correspondentes. Este processo é descrito com mais detalhes a partir do slide 46 da Unidade2.

Este processo é muito ineficaz. Os localizadores gerais cobrem só uma parte da Internet, seu processo de indexação por extração de palavras-chave do texto da página, cegamente, é muito ineficiente, gerando grande quantidade de informações e muito “lixo” e frustração de quem procuram informações relevantes. Além disso, indexam página por página e não um “site” completo; daí as muitas repetições dos resultados de uma busca. As principais deficiências dos localizadores gerais estão descritas a partir do slide 31 da Unidade 2.

Na verdade, os localizadores gerais são uma tecnologia ou uma resposta ou pertencem a uma época PASSADA da Internet, quando as informações eram publicadas sob a forma de páginas html ESTÁTICAS. Estas páginas html estáticas foram a chamada web superficial (“surface web”). Os robôs dos localizadores gerias não “enchergam” as informações que estão na web profunda (“deep web”), ou seja, as informações que não estão armazenadas como páginas html estáticas, mas sim que estão armazenadas em BASES DE DADOS, acessáveis através de uma interface de consulta a esta base de dados. É IMPORTANTÍSSIMO vocês compreenderem esta distinção. Para isto vocês tem que compreender exatamente o que é uma URL, o endereço Internet das páginas HTML; isto esta explicado no slide 39 da Unidade 2.

Primeiro vamos às dimensões. Se vocês acham que a Web, isto é, a parte da Internet sob a forma de páginas html, que constitue a chamada web superficial, é grande, saibam que a web profunda é cerca de 500 vezes maior que a web superficial. Inclusive, estudos indicam que a cobertura dos lozalizadores gerais esta DIMINUÍNDO e as informações armazenadas em bancos de dados disponíveis na web vêem AUMENTANDO. “SITES” como a Library of Congress, NASA, Web of Science, Bureau do Censo, National Library of Medicine, dos EUA, Portal SciELO de periódicos acadêmicos brasileiros, IBGE e Recita Federal, no Brasil, contém BILHÕES DE INFORMAÇÕES e são exemplos de “sites” em que as informações estão armazenadas em bases de dados e só podem ser acessadas através de interface de uma consulta. Vejam as ilustrações no slide 33 da Unidade 2. Dados e detalhes sobre isto podem ser encontrados em Bergman, Michael K. The deep web: surface hidden value. Journal of Electronic Publishing, v.7, n.1, 2001. http://www.press.umich.edu/jep/07-01/bergman.html.

Mais dados sobre as dimensões da web e da cobertura da mesma pelos localizadores gerais podem ser encontrados em http://wwwmetrics.com, http://wwwinfotoday.com/newsbreaks/nb0712-1.htm e http://wwwsearchengineshowdown/stats/nature99.shtml

Agora, a algumas definições: página html ESTÁTICA diz respeito à páginas html que estão armazenadas como arquivos num servidor Internet. Por exemplo, a página inicial do nosso curso é o arquivo index.htm, armazenado na pasta gdo, subpasta htm do servidor (computador, máquina) VM.UFF.BR. Esta página existe lá, basta acessar o endereço http://www.uff.br/gdo/htm/index.htm.

Uma página DINÂMICA não existe como arquivo armazenada num servidor; ela é GERADA DINAMICAMENTE por um gerenciador de bases de dados como respostas a uma consulta feita a esta base de dados. Ela é gerada SÓ PARA QUEM FEZ A CONSULTA. Quando vocês fazem uma consulta a uma base de dados, por exemplo, à LILACS, no site da BIREME (http://www.bireme.br), por exemplo “SIDA AND CRIANCA”, o que vocês obtém é uma página DINÂMICA, que é gerada pelo gerenciador de bases de dados e enviada ao seu “browser”; ela não existe e nem esta armazenada em lugar nenhum, a não ser na tela do seu “browser”. Esta diferença pode ser vista também pelas duas referências:

Arms, Willian Y., Hillamann, Diane, Lagoze, Carl, et al. A spectrum of interoperability: the site for science prototype for the NSDL. DLib Magazine, v.8, n,1, jan.2002. Disponível em http://www.dlib.org/dlib/january02/arms/01arms.html, visitado em 18/01/2002.

e

MARCONDES, Carlos Henrique e SAYAO, Luís Fernando. Integração e interoperabilidade no acesso a recursos informacionais eletrônicos em C&T: a proposta da Biblioteca Digital Brasileira. Ci. Inf. [online]. set./dez. 2001, vol.30, no.3 [citado 01 Novembro 2002], p.24-33. Disponível na World Wide Web: . ISSN 0100-1965.

O primeiro URL faz referência a uma PÁGINA ESTÁTICA, um arquivo html armazenado no servidor do periódico Dlib; já o segundo URL contém instruções para o gerenciador de bases de dados realizar uma consulta pela indetificação do artigo e linguagem = português (&pid=S0100-19652001000300004&lng=pt) e aí recuperá-lo e exibi-lo para você.

O primeiro artigo é recuperado pelos robôs dos localizadores gerais; o segundo NÃO.

Há outra estratégia para descoberta de informações na Internet, também analisada no curso, os Serviços de localizadores especializados ou Catálogos Especializados ou “Gateways” – Portais temáticos. Alguns deles são bastante conhecidos por nós, como as bibliotecas virtuais especializados do Programa Prossiga (http://www.prossiga.br) ou o ótimo portal SOSIG inglês (http://www.sosig.ac.uk) , especializado e Ciências Sociais e onde inclusive se encontram muitos “sites”úteis sobre ciência da informação, biblioteconomia e arquivologia.

O problema dos localizadores especializados e’ que eles só cobrem áreas temáticas muito restritas, especializadas; para isto eles são muito úteis, evitando, por exemplo, que um pesquisador fique horas e horas navegando a procura de informações; num localizador especializado a informação já foi encontrada, avaliada, classificada e indexada e disponibilizada. No entanto, pelo trabalho de descoberta, avaliação, classificação e indexação ser feito POR PESSOAS, é lento, caro e tem que lidar com o problema da mudança de ‘link”, ou seja, todos os “links” relacionados num Portal como Prossiga tem que ser constantemente revisitados para verificar se os “links” permanecem válidos ou se mudaram. Os localizadores especializados sào uma solução só para pequenas comunidades de pesquisadores e cientistas.

Parece haver uma TERCEIRA (VIA?) SOLUÇÃO. O envolvimento dos autores das páginas na descrição e indexação das mesmas, com o uso de metadados. É a famosa CATALOGAÇÃO NA FONTE, tão conhecida pelos profissionais de informação. Daí o nosso curso.

Prestem atenção nos pontos destacados nesta conversa. Quando a página do Fórum estiver na tela, se desconectem, leiam atenciosamete e imprimam se quizerem.

Marcondes

[ Next Thread | Previous Thread | Next Message | Previous Message ]


Post a message:
This forum requires an account to post.
[ Create Account ]
[ Login ]
[ Contact Forum Admin ]


Forum timezone: GMT-8
VF Version: 3.00b, ConfDB:
Before posting please read our privacy policy.
VoyForums(tm) is a Free Service from Voyager Info-Systems.
Copyright © 1998-2019 Voyager Info-Systems. All Rights Reserved.