Projectos de Dissertação de Mestrado (2009-2010)

Prof. José Luis Borbinha

Projecto: ...

  Projectos no contexto da iniciativa Europeana
Enquadramanto

A "Europeana" é uma iniciativa internacional, a nível Europeu, que tem como objectivo desenvolver um serviço de pesquisa de informação nas bibliotecas, arquivos, museus e outros detentores de conteúdos culturais e científicos Europeus. A iniciativa lançou inicialmente um serviço experimental como prova de conceito, iniciando-se agora os desenvolvimentos para o serviço final efectivo.

O Grupo de Sistemas de Informação do INESC-ID tem estado envolvido nesta iniciativa desde o seu início, participando na concepção, desenho e desenvolvimento de tecnologia e serviços, especialmente em duas áreas:

  • Pesquisa
  • Interoperabilidade (somos os principais responsáves pela infraestrutura de interligação dos sistemas de informação de todos os participantes).
Projecto 356
Título
TESEU - Tecnologia de Pesquisa para a Europeana
Objectivos Pretende-se desenvolver técnicas e tecnologia para os serviços de pesquisa da Europeana, enriquecendo, inovando e criando novas soluções reutilizando tecnologia já existente em "open-source".
Descrição
Um cenário de ênfase será para o processamento de texto resultante da digitalização e aplicação de OCR ("Optical Character Recognition") para estracção de texto em obras impressas. Esses textos serão dosponibilidados por bibliotecas e arquivos de toda a Europa, sendo necessário desenvolver tecnologia para a sua recolha e processamento (normalização, extracção de infromação -tais como nomes, informação geográfica, etc., etc.). Finalmente, esses resultados serão indexados, juntamente com os metadados das obras, para suporte aos serviços de pesquisa da Europeana.
Resultado Esperado Técnicas e tecnologia para arquitecturas e serviços de "Information Retrieval", concretizados em código aberto (geração de índices, interfaces de pesquisa -eventualmente para serviços distribuídos- e formas de retorno de resultados em XML)
Observações

Dificuldade média/alta. Balanço tecnologia/I&D equilibrado. Um excelente desafio para um aluno que goste de um bom equilibrio entre investigação e engenharia.

Projecto 357
Título
ENRIQ - Enriquecimento de Informação para Pesquisa na Europeana
Objectivos
Pretende-se desenvolver técnicas e tecnologia para os serviços de pesquisa da Europeana, enriquecendo, inovando e criando novas soluções reutilizando tecnologia já existente em "open-source".
Descrição
Um cenário de ênfase será para o processamento de texto resultante da digitalização e aplicação de OCR ("Optical Character Recognition") para estracção de texto em obras impressas. Esses textos serão dosponibilidados por bibliotecas e arquivos de toda a Europa, sendo necessário desenvolver tecnologia para a sua recolha e processamento (normalização, extracção de infromação -tais como nomes, informação geográfica, etc., etc.). Finalmente, esses resultados serão indexados, juntamente com os metadados das obras, para suporte aos serviços de pesquisa da Europeana.
Resultado Esperado Técnicas e tecnologia para enriquecimento temporal, geográfico e temático dos índices e metadados, tais como extracção de entidades (nomes de pessoas, períodos históricos, assuntos, locais geográficos, etc.)
Observações
Dificuldade alta. Desafio de I&D elevado; desafio tecnológico baixo. Um excelente desafio para um aluno com gosto por investigação e "desbravar novos mundos" ;-)
Projecto 358
Título
PLATINA - Plataforma de Interoperabilidade para a Europeana
Objectivos Pretende-se desenvolver técnicas e tecnologia para interoperabilidade entre os serviços centrais da Europeana
Descrição

Desenvolvimento de novos serviços na plataforma REPOX - XML Repositoriy, para recolha de metadados e conteúdos de fornecedores de conteúdos (texto, som, imagem, mutimédia, ...). Possibilidade de concretização dos resultados em dois contextos práticos CONCRETOS:

  • Numa rede nacional de cerca de 30 "content providers" de arquivos, bibliotecas e centros de documentação (Arquivo Distrital do Porto, Fundação Máriuo Soares, Museu Nacional do Caminho de Ferro, Hemeroteca de Lisboa, Biblioteca Digital do Alentejo, etc...).
  • Numa rede Europeia de bibliotecas, arquivos, museus e outras entidades que vão participar no projecto piloto...
Resultado Esperado Novas funcionalidades e serviços para a (internacinalmente aplaudida) plartaforma REPOX (desenvolvida inicialmente para a PORBASE, um serviço da responsabilidade da Biblioteca Nacional de Portugal)
Observações
Dificuldade média. Balanço tecnologia/I&D equilibrado. Um excelente desafio para um aluno "que gosta de ver as coisas a serem usadas no fim...".
Projecto 359
Título
GESEU - Gestão de Esquemas e Interoperabilidade para a Europeana
Objectivos Desenvolvimento de uma ambiente de interoperabilidade de esquemas e objectos de informação para a Europeana.
Descrição

Desenvolvimento de uma plataforma complementar ao sistema REPOX para gestão de esquemas de informação (XML schemas, ...) e de regras de transformação entre esquemas, tendo como referência concepual a família de normas ISO 11179 (a extender...)

Resultado Esperado Contribuição significativa para uma plataforma de gestão de "Metadatga Registries" e de interoperabilidade que desafie o Biztalk
Observações
Dificuldade média/alta. Desafio de I&D médio; desafio tecnológico elevado. Um excelente desafio para um aluno com gosto por equilibrio investigação/desenvolvimento, interesse pela "semântica web", processamento de XML, etc. Claramente para quem tem gosto por desafios de engenharia "a sério". Ideal para quem queira "meter as mãos" no Google Web Toolkit (GWT), e não tenha medo do OWL, RDF, ...
Requisitos

Estres projectos são para quem:

  • Gosta e sabe programar (Java, ...)!
  • Gosta de trabalho em equipa e em ambiente internacional!!
  • Gosta de crescer com bases sustentatas!!!

Desadequado para quem queira começar já a vida profissional como um "engenheiro PowerPoint" ;-)

Localização
IST / INESC-ID (Alameda ou TagusPark)
Links relevantes

Tecnologia a explorar:

  • Apache - Lucene: http://lucene.apache.org/ ("The Apache Lucene project develops open-source search software...")
  • Apache - Mahout: http://lucene.apache.org/mahout/ ("Mahout's goal is to build scalable, Apache licensed machine learning libraries...")
  • Apache - Solr: http://lucene.apache.org/solr/ ("Solr is an open source enterprise search server...")
  • GATE - General Architrecture for Text Retrieval: http://gate.ac.uk ("Information Extraction systems analyse unrestricted text in order to extract information about pre-specified types of events, entities or relationships...")
  • OAI-PMH - The Open Archives Initiative Protocol for Metadata Harvesting: http://www.openarchives.org ("Standards for Web Content Interoperability: The Open Archives Initiative develops and promotes interoperability standards that aim to facilitate the efficient dissemination of content. OAI has its roots in the open access and institutional repository movements. Continued support of this work remains a cornerstone of the Open Archives program. Over time, however, the work of OAI has expanded to promote broad access to digital resources for eScholarship, eLearning, and eScience...")
  • METS - Metadata Encoding and Transmission Standard: http://www.loc.gov/standards/mets/ ("The METS schema is a standard for encoding descriptive, administrative, and structural metadata regarding objects within a digital library...")
  • REPOX - A Metadata Space Manager: http://repox.ist.utl.pt/

Europeana

TEL

Outros projectos relacionados:

 


04/30/2009 23:36

 

 

 

 

 

 

 

 

 


Alunos interessados em propostas de dissertação de mestrado para 2009/2010 podem contactar-me directamente, no entanto:

Àreas de Trabalho

Àreas de aplicação:

Tecnologia:

Todas as dissertações serão para desenvolver no contexto de projectos concretos com entidades externas...


04/30/2009 23:36