GERAL SOBRE A UNIDADE 2 -- METADADOS: descriÃÂ§ÃÂ£o e recuperaÃÂ§ÃÂ£o de informaÃÂ§ÃÂµes na rede mundial

[ Show ]

Support VoyForums

[ Shrink ]

VoyForums Announcement: Programming and providing support for this service has been a labor of love since 1997. We are one of the few services online who values our users' privacy, and have never sold your information. We have even fought hard to defend your privacy in legal cases; however, we've done it with almost no financial support -- paying out of pocket to continue providing the service. Due to the issues imposed on us by advertisers, we also stopped hosting most ads on the forums many years ago. We hope you appreciate our efforts.

Show your support by donating any amount. (Note: We are still technically a for-profit company, so your contribution is not tax-deductible.) PayPal Acct: Feedback:

Donate to VoyForums (PayPal):

[ Login ] [ Contact Forum Admin ] [ Main index ] [ Post a new message ] [ Search | Check update time ]

[ Next Thread | Previous Thread | Next Message | Previous Message ]

Date Posted: 03:54:31 11/01/02 Fri
Author: Macondes
Subject: GERAL SOBRE A UNIDADE 2

Prezados Alunos

Vou fazer a seguir algumas considera��es gerais para orientar o estudo de voc�s sobre a Unidade2.

O tema da Unidade 2 � �DESCOBERTA DE INFORMA��ES NA REDE MUNDIAL - PROBLEMAS E ALTERNATIVAS�. Ela se prop�e a discutir o PROBLEMA da �explos�o informacional�, que todos voc�s j� ouviram falar, e que foi agravado MUIT�SSIMO com o surgimento da Internet, a partir dos anos 90; mais assustador que o tamanho da Internet � a sua taxa de crescimento; al�m disso, existe uma INSTABILIDADE muito grande: muitas p�ginas Internet surgem e desaparecem.

Desde o surgimento da Internet, foram desenvolvidas v�rias alternativas para se encontrar informa��es nela; � o problema chamado na literatura especializada de DESCOBERTA DE INFORMA��ES (�information discovery�).

Este problema � crucial e envolve interesses n�o s� educacionais e acad�micos, como � o caso de um estudante fazendo uma pesquisa escolar, ou um cientista, procurando trabalhos correlatos para a revis�o bibliogr�fica da sua pesquisa. Este problema envolve tamb�m INTERESSES ECON�MICOS: empresas procuram parceiros e fornecedores, ou oportunidades de neg�cios. De fato, n�o adianta a informa��o existir, estar dispon�vel na rede, se seus usu�rios potenciais n�o tem conhecimento da sua exist�ncia ou n�o conseguem ach�-la.

A primeira alternativa para este problema foram os chamados �sites� de busca, mecanismos de busca, etc, como Yahoo, AltaVista, Lycos, Webcrawler, HotBot, Google, etc. N�s os chamamos neste curso de �localizadores gerais� exatamente porque eles s�o gerais e n�o especializados em algum assunto. O Yahoo surgiu da lista de favoritos publicada na web, de dois estudantes de p�s-gradua��o em ci�ncia da computa��o; eles acabaram ficando milion�rios com isto. Os �links� eram selecionados, coletados e armazenados por profissionais de informa��o numa base de dados. � o tipo de servi�o que os textos b�sicos chamam de cat�logos. Posteriormente, foram desenvolvidos programas especiais, os rob�s ou �crawlers� que visitam endere�os Internet, indexam suas p�ginas extraindo palavras-chave do texto das p�ginas e armazenam numa base de dados as palavras-chave associadas ao endere�o (URL) da p�gina. Posteriormente, um usu�rio pode fazer uma busca por palavra-chave nesta base e recuperar os endere�os dos �sites� correspondentes. Este processo � descrito com mais detalhes a partir do slide 46 da Unidade2.

Este processo � muito ineficaz. Os localizadores gerais cobrem s� uma parte da Internet, seu processo de indexa��o por extra��o de palavras-chave do texto da p�gina, cegamente, � muito ineficiente, gerando grande quantidade de informa��es e muito �lixo� e frustra��o de quem procuram informa��es relevantes. Al�m disso, indexam p�gina por p�gina e n�o um �site� completo; da� as muitas repeti��es dos resultados de uma busca. As principais defici�ncias dos localizadores gerais est�o descritas a partir do slide 31 da Unidade 2.

Na verdade, os localizadores gerais s�o uma tecnologia ou uma resposta ou pertencem a uma �poca PASSADA da Internet, quando as informa��es eram publicadas sob a forma de p�ginas html EST�TICAS. Estas p�ginas html est�ticas foram a chamada web superficial (�surface web�). Os rob�s dos localizadores gerias n�o �enchergam� as informa��es que est�o na web profunda (�deep web�), ou seja, as informa��es que n�o est�o armazenadas como p�ginas html est�ticas, mas sim que est�o armazenadas em BASES DE DADOS, acess�veis atrav�s de uma interface de consulta a esta base de dados. � IMPORTANT�SSIMO voc�s compreenderem esta distin��o. Para isto voc�s tem que compreender exatamente o que � uma URL, o endere�o Internet das p�ginas HTML; isto esta explicado no slide 39 da Unidade 2.

Primeiro vamos �s dimens�es. Se voc�s acham que a Web, isto �, a parte da Internet sob a forma de p�ginas html, que constitue a chamada web superficial, � grande, saibam que a web profunda � cerca de 500 vezes maior que a web superficial. Inclusive, estudos indicam que a cobertura dos lozalizadores gerais esta DIMINU�NDO e as informa��es armazenadas em bancos de dados dispon�veis na web v�em AUMENTANDO. �SITES� como a Library of Congress, NASA, Web of Science, Bureau do Censo, National Library of Medicine, dos EUA, Portal SciELO de peri�dicos acad�micos brasileiros, IBGE e Recita Federal, no Brasil, cont�m BILH�ES DE INFORMA��ES e s�o exemplos de �sites� em que as informa��es est�o armazenadas em bases de dados e s� podem ser acessadas atrav�s de interface de uma consulta. Vejam as ilustra��es no slide 33 da Unidade 2. Dados e detalhes sobre isto podem ser encontrados em Bergman, Michael K. The deep web: surface hidden value. Journal of Electronic Publishing, v.7, n.1, 2001. http://www.press.umich.edu/jep/07-01/bergman.html.

Mais dados sobre as dimens�es da web e da cobertura da mesma pelos localizadores gerais podem ser encontrados em http://wwwmetrics.com, http://wwwinfotoday.com/newsbreaks/nb0712-1.htm e http://wwwsearchengineshowdown/stats/nature99.shtml

Agora, a algumas defini��es: p�gina html EST�TICA diz respeito � p�ginas html que est�o armazenadas como arquivos num servidor Internet. Por exemplo, a p�gina inicial do nosso curso � o arquivo index.htm, armazenado na pasta gdo, subpasta htm do servidor (computador, m�quina) VM.UFF.BR. Esta p�gina existe l�, basta acessar o endere�o http://www.uff.br/gdo/htm/index.htm.

Uma p�gina DIN�MICA n�o existe como arquivo armazenada num servidor; ela � GERADA DINAMICAMENTE por um gerenciador de bases de dados como respostas a uma consulta feita a esta base de dados. Ela � gerada S� PARA QUEM FEZ A CONSULTA. Quando voc�s fazem uma consulta a uma base de dados, por exemplo, � LILACS, no site da BIREME (http://www.bireme.br), por exemplo �SIDA AND CRIANCA�, o que voc�s obt�m � uma p�gina DIN�MICA, que � gerada pelo gerenciador de bases de dados e enviada ao seu �browser�; ela n�o existe e nem esta armazenada em lugar nenhum, a n�o ser na tela do seu �browser�. Esta diferen�a pode ser vista tamb�m pelas duas refer�ncias:

Arms, Willian Y., Hillamann, Diane, Lagoze, Carl, et al. A spectrum of interoperability: the site for science prototype for the NSDL. DLib Magazine, v.8, n,1, jan.2002. Dispon�vel em http://www.dlib.org/dlib/january02/arms/01arms.html, visitado em 18/01/2002.

e

MARCONDES, Carlos Henrique e SAYAO, Lu�s Fernando. Integra��o e interoperabilidade no acesso a recursos informacionais eletr�nicos em C&T: a proposta da Biblioteca Digital Brasileira. Ci. Inf. [online]. set./dez. 2001, vol.30, no.3 [citado 01 Novembro 2002], p.24-33. Dispon�vel na World Wide Web: . ISSN 0100-1965.

O primeiro URL faz refer�ncia a uma P�GINA EST�TICA, um arquivo html armazenado no servidor do peri�dico Dlib; j� o segundo URL cont�m instru��es para o gerenciador de bases de dados realizar uma consulta pela indetifica��o do artigo e linguagem = portugu�s (&pid=S0100-19652001000300004&lng=pt) e a� recuper�-lo e exibi-lo para voc�.

O primeiro artigo � recuperado pelos rob�s dos localizadores gerais; o segundo N�O.

H� outra estrat�gia para descoberta de informa��es na Internet, tamb�m analisada no curso, os Servi�os de localizadores especializados ou Cat�logos Especializados ou �Gateways� � Portais tem�ticos. Alguns deles s�o bastante conhecidos por n�s, como as bibliotecas virtuais especializados do Programa Prossiga (http://www.prossiga.br) ou o �timo portal SOSIG ingl�s (http://www.sosig.ac.uk) , especializado e Ci�ncias Sociais e onde inclusive se encontram muitos �sites��teis sobre ci�ncia da informa��o, biblioteconomia e arquivologia.

O problema dos localizadores especializados e� que eles s� cobrem �reas tem�ticas muito restritas, especializadas; para isto eles s�o muito �teis, evitando, por exemplo, que um pesquisador fique horas e horas navegando a procura de informa��es; num localizador especializado a informa��o j� foi encontrada, avaliada, classificada e indexada e disponibilizada. No entanto, pelo trabalho de descoberta, avalia��o, classifica��o e indexa��o ser feito POR PESSOAS, � lento, caro e tem que lidar com o problema da mudan�a de �link�, ou seja, todos os �links� relacionados num Portal como Prossiga tem que ser constantemente revisitados para verificar se os �links� permanecem v�lidos ou se mudaram. Os localizadores especializados s�o uma solu��o s� para pequenas comunidades de pesquisadores e cientistas.

Parece haver uma TERCEIRA (VIA?) SOLU��O. O envolvimento dos autores das p�ginas na descri��o e indexa��o das mesmas, com o uso de metadados. � a famosa CATALOGA��O NA FONTE, t�o conhecida pelos profissionais de informa��o. Da� o nosso curso.

Prestem aten��o nos pontos destacados nesta conversa. Quando a p�gina do F�rum estiver na tela, se desconectem, leiam atenciosamete e imprimam se quizerem.

Marcondes

[ Next Thread | Previous Thread | Next Message | Previous Message ]