sexta-feira, 1 de março de 2013

BI Open Source – Conhecendo o Pentaho




No universo de Business Intelligence, temos várias ferramentas Open Source disponíveis no mercado e, a cada ano, surgem novas soluções. Vamos,  neste artigo, destacar uma delas que me chamou a atenção por sua interatividade e adaptabilidade às plataformas existentes.

Trata-se da solução Pentaho, uma ferramenta extremamente poderosa de Business Intelligence com a qual estou tendo a oportunidade de trabalhar e tem mostrado ser uma ferramenta robusta e  representa uma forte aposta da comunidade open-source voltada a ferramentas de apoio à tomada de decisão.

Pentaho

A tecnologia Pentaho foi desenhada do zero como uma plataforma de BI moderna e totalmente
integrada, baseada em standards abertos. Isto significa que pode ser integrada facilmente com qualquer infraestrutura de TI de origem, ou embebida numa aplicação desenvolvida à medida. Para utilizadores empresariais, o acesso a toda a informação de BI e a possibilidade de criar novos relatórios, vistas de análise e dashboards encontra-se numa interface web racionalizada, e estão ao alcance de dois cliques.
Ela fornece suporte técnico compreensivo, manutenção de software, funcionalidades melhoradas e mais, através de uma subscrição anual.
Possui várias suites que formam uma plataforma completa de BI, que foi desenvolvida, distribuída e implantada como Open Source apresenta grande flexibilidade e independência entre as diversas plataformas, possui alta confiabilidade e segurança a um custo mínimo de implantação
e manutenção.
Possui ferramentas de ETL como o Kettle, análises OLAP como o Mondrian ou de Data Mining como o Weka, e são reunidos num único produto que permite soluções que acompanham todo o ciclo de implementação de um SAD, (Sistema de Apoio à Decisão) e que a tornam uma das soluções Open-Source mais populares do mundo.
A solução Pentaho define-se a si mesma como uma plataforma de BI orientada para a solução e centrada em processos. Ou seja, não só apresenta os resultados de uma forma única e dando uma visão geral do estado da empresa, como implementa os próprios processos (workflow) para a resolução de problemas detectados e apresentados.

Pentaho Open BI Suite

A Pentaho Inc. integrou e promoveu o desenvolvimento de ferramentas open source que fornecem os recursos para criação de Soluções de BI. O conjunto é conhecido por Pentaho Open BI Suite (ou Suite
Pentaho), incluem as suites Reporting, Anaysis, Data Integration, Dashboards e Data Mining.
Devido à sua estrutura em componentes, a Suite pode ser utilizada para atender demandas que vão além do escopo das Soluções de BI mais tradicionais. Estão disponíveis componentes para a implementação de processos comandados por workflow automatizado, portais web customizáveis com suporte à portlets e single sign-on, entre outros. A plataforma executa todas as suas Soluções de BI, como serviços, e por isso é possível até mesmo prover acesso a esses recursos para sistemas externos, via web services, por meio de um mecanismo baseado em SOAP/WSDL/UDDI incluso.
                                                                      
As suites são responsáveis pela execução da Solução de BI, provendo controle de processos, visualização, segurança e auditoria. Têm a função de controlar o repositório e a execução de soluções,
os acessos a banco de dados, agendamentos, permissões, serviços de e-mail e mais algumas atividades fundamentais de background, grande parte da sua funcionalidade pode ser configurada através do PAC (Pentaho Administration Console ).

Funcionalidades
Pentaho

Uma das grandes dificuldades para alguém que começa a trabalhar com o Pentaho é entender o relacionamento entre os diversos aplicativos das suites. Neste artigo descrevo brevemente esses aplicativos e a função que exercem no ciclo de vida de um BI. Todos os softwares da Suite Pentaho são programas Java e rodam em qualquer plataforma que tenha uma JVM padrão, e estas ferramentas dão produtividade na criação da solução e das estruturas usadas pela plataforma.

Mondrian

É responsável pelo servidor OLAP (Online Analytic Processing) onde podemos construir os cubos que permitiram segmentar a informação por eixos de análise, permitindo a análise da informação com base
em várias perspectivas. Assim será possível a compreensão dessa informação de uma forma intuitiva, uma vez que a solução permite decompor os valores nas diferentes perspectivas de análise.
Desta forma pode-se cruzar a informação com várias dimensões de um modo muito simples, utilizando drag-and-drop, drilling into, drilling across, encadeamento de dimensões, entre outros, bem como encontrar a causa de um problema que lhe sobressaiu num simples relatório.
É escrita em linguagem Java, e implementa a linguagem MDX, XML for Analysys e especificações JOLAP, e lê a partir de instruções SQL e outras fontes de dados, agregando os dados em uma memória cache.
                 

Kettle

Faz parte da suite do Data Integration, e utiliza as técnicas de ETL (Extract-Transform-Load), para a obtenção dos dados que virão das várias fontes de dados, e que obrigatoriamente teremos de cruzá-las em algum momento dentro do ciclo de ETL.
O Kettle é capaz de ler e escrever em vários formatos de SGBD, como Oracle, PostgreSQL, SQLServer, MySql, entre outros, e importar arquivos texto (csv ou fixo), planilhas Excel e bases de dados ODBC (apenas em Windows). Ele é um ambiente gráfico no qual conexões com fontes de dados são estabelecidas e seqüências de passos executam a extração de dados, sua modificação e a carga desses em um destino. O Kettle pode integrar dados entre empresas e sistemas, substituindo a criação de camadas de programas para integração por operações visuais.
                                                                                                                       

Jpivot

Jpivot é uma biblioteca customizada JSP que desenha uma tabela e um gráfico OLAP. Os usuários podem executar navegações típicas OLAP como drill down e slice-and-dice. Utiliza o Mondrian e XMLA como engines OLAP.

Schema
Workbench

O Schema Workbench cria os cubos no format XML que serão processados e exibidos pelo Portal. Ele tem uma interface visual para navegar entre as definições do cubo, permitindo criar, além de métricas,
dimensões e hierarquias, muitas das estruturas que agregam valor na exploração de um cubo OLAP, como métricas derivadas, cubos virtuais (combinações de tabelas fato) e atributos de dimensões.                                                         

Weka

O Weka é um ambiente gráfico para Data Mining. Permite ao usuário criar e testar hipóteses contra as bases de dados. Existem grandes potencialidades na utilização de Data Mining para apoiar o processo
de tomada de decisão.
                                                             

Pentaho
User Console (PUC)

Interface para o usuário final, é a partir do PUC que os usuários terão acesso às análises e relatórios criados, poderão ainda – de acordo com as permissões definidas – criar relatórios Ad-Hoc
utilizando o WAQR, criar novas visões analíticas utilizando o JPivot, executar relatórios criados previamente com o PRD (ou outro gerador de relatórios suportado), visualizar dashboards, agendar a
execução de relatórios e compartilhar qualquer um desses artefatos com outros usuários.

Pentaho
Report Designer (PRD)

Gerador
de relatórios “pixel perfect” da suite, facilita a criação
de relatórios “ricos” com uma aparência mais profissional
e personalizada, adicionalmente permite a publicação desses
relatórios no PUC, permite inclusive que filtros simples sejam
publicados diretamente sem a criação de xactions no PDS.

Pentaho
Design Studio (PDS)

Plugin para a plataforma eclipse que funciona como uma interface gráfica para a criação de xactions que são arquivos xml interpretados pelo BI Server, são como instruções “passo-a-passo” que
dirigem a execução das atividades pelo BI Sever, permitem, por exemplo, a definição de filtros avançados para relatórios e o envio de e-mails com os relatórios executados.

Vantagens
na utilização Open Source

A maior vantagem das ferramentas open source é o baixo custo: não há gasto com licenças (que varia de centenas a milhares de dólares em ferramentas proprietárias). Ela reduz drasticamente o cost
of ownership 
para uma plataforma de business intelligence de nível empresarial, comparado com os tradicionais e proprietários sistemas de BI.
Entretanto, tal como acontece com ferramentas proprietárias, ainda são necessários investimentos em implantação, treinamento e suporte para o máximo aproveitamento.
Além do menor custo, as ferramentas open source apresentam outras qualidades importantes, tais como qualidade, segurança, independência de fornecedor, possibilidade de adequação a necessidades específicas, estabilidade e suporte técnico.
Bom, pessoal, na minha opinião vejo as soluções Open Souce para BI como uma tendência para este ano de 2010 e para os próximos. Não vejo por que gastar milhares de dólares em ferramentas proprietárias, sendo que estas soluções não deixam nada a desejar, são muito atrativas e o melhor: têm custo zero!
Para quem estiver interessado em conhecer um pouco mais sobre o Pentaho, sugiro dar uma olhada no site www.pentaho.com.
Abraços e até a
próxima.


http://imasters.com.br/artigo/16080/gerencia-de-ti/bi-open-source-conhecendo-o-pentaho/

João Sidemar Serain

quarta-feira, 27 de fevereiro de 2013

Tutorial  Kettle - Pentaho Data Integration

    Esse tutorial foi escrito originalmente em inglês por Maria Carina Roldán da Argentina  e está disponível no site :http://kettle.pentaho.org/ sob a licença de "Atribuição uso não comercial compartilhamento pela mesma Licença 3.0".
    A versão em português foi traduzida e atualizada por Ademar Gomes e está disponível aqui sobe essa mesma licença que pode ser encontrada aqui.

Business intelligence e data warehousing


     Muitas vezes, as aplicações de BI usar os dados recolhidos a partir de um armazém de dados ou um data mart . No entanto, nem todos os armazéns de dados são usados ​​para inteligência de negócios, nem todos os aplicativos de inteligência de negócios requerem um data warehouse.
    Para distinguir entre os conceitos de armazéns de inteligência de negócios e dados, Forrester Research , muitas vezes define a inteligência de negócios em uma das duas formas:
     Usando uma definição ampla: "Business Intelligence é um conjunto de metodologias, processos, arquiteturas e tecnologias que transformam dados brutos em informações significativas e úteis usado para habilitar idéias mais eficaz estratégico, tático e operacional e tomada de decisões". Ao usar esta definição, a inteligência de negócios também inclui tecnologias como integração de dados, qualidade de dados, data warehousing, gerenciamento de dados mestre de texto, e análise de conteúdo, e muitos outros que o mercado às vezes protuberâncias na Gestão da Informação do segmento. Portanto, a Forrester refere-se a preparação de dados e uso de dados como dois segmentos distintos, mas estreitamente ligadas, a pilha de inteligência de negócios da arquitetura.
     Forrester define o último, mais estreito do mercado de business intelligence como, "... referindo-se apenas as camadas superiores da pilha de BI de arquitetura, tais como relatórios, análises edashboards ". 
O que é Business intelligence ( BI )

          Business intelligence ( BI ) é um conjunto de teorias, metodologias, processos, arquiteturas e tecnologias que transformam dados brutos em informações significativas e úteis. BI pode lidar com grandes quantidades de informação para ajudar a identificar e desenvolver novas oportunidades. Fazendo uso de novas oportunidades e implementação de uma estratégia eficaz pode proporcionar uma vantagem competitiva no mercado e estabilidade a longo prazo


História                                                                                   

       Em um artigo de 1958, a IBM pesquisador Hans Peter Luhn usou o termo Business Intelligence. Ele definiu a inteligência como: "a capacidade de apreender as inter-relações dos fatos apresentados, de forma a orientar a ação para um objetivo desejado". 
             Inteligência de negócios como é entendida hoje se diz que evoluiu a partir dos sistemas de apoio à decisão, que começou em 1960 e desenvolvido ao longo de meados dos anos 1980. DSS origem nos modelos com auxílio de computador criados para auxiliar a tomada de decisão e planejamento. De DSS, armazéns de dados , Sistemas de Informação Executiva , OLAP e inteligência de negócios entrou em foco no início dos anos 80.
             Em 1989, Howard Dresner (mais tarde um grupo Gartner analista) propôs a "inteligência de negócios" como um termo para descrever "conceitos e métodos para melhorar a tomada de decisão empresarial por meio de sistemas de apoio baseados em fatos". Não foi até o final dos anos década de 1990 que essa prática era generalizada.