Dungchanok: AI614_Class9

Data Warehouse Processing มีขึ้นตอนต่างๆดังต่อไปนี้
1. รวบรวมข้อมูล - Collecting data from internal and external

2. จัดทำ Meta Dataเป็นข้อมูลที่ใช้อธิบายข้อมูลที่อยู่ใน data warehouse เช่น ที่มาของข้อมูล เป็นต้น

3. Data Staging (ECTL or ETL)ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load คือการดึงข้อมูลออกมาตาม Attribute ที่มีประโยชน์ และเกี่ยวข้องกับการตัดสินใจ และจะทำการ Clean ข้อมูล โดยจะตัดข้อมูลที่ไม่เป็นประโยชน์ออกและจัดข้อมูลใหม่ให้อยู่ใน Format ที่เป็นมาตรฐาน และสุดท้ายจะทำการ Load ข้อมูลเข้าไปยัง Data Cube ซึ่งจะประกอบไปด้วยหลายๆ Dimension และใช้สำหรับการวิเคราะห์เพื่อตัดสินใจเชิงกลยุทธ์ต่อไป
4. สร้าง Data Warehouse นำข้อมูล Data Cube ไปสร้าง Data Warehouse โดยจะมีการนำเสนอซึ่งยึด Business View เป็นหลักซึ่งการนำเสนอข้อมูลจะอยู่ในรูปแบบที่ง่ายต่อการวิเคราะห์ ตลอดจนสามารถ ปรับใช้งานได้ง่าย ส่วนใหญ่ในรูปDashboard

Data Mart
         Data Warehouse ขนาดเล็กของแต่ละแผนก เพื่อให้เกิดความสะดวกสบายในการใช้งานของแต่ละแผนก โดย แบ่งออกเป็น 2 ประเภท คือ
          1.Replicated (Dependent) Data Mart

          2.Stand-alone Data Mart
Data Cube
          เป็น Multidimensional Databases ช่วยให้ผู้ใช้เห็นข้อมูลเหล่านั้น ในหลายๆมิติ ทำให้มีประสิทธิภาพในการนำไปใช้มากยิ่งขึ้น

Business Intelligence
          ประกอบไปด้วย 3 กลุ่ม Function และ Features ดังต่อไปนี้

          1. Reporting and Analysis

Enterprise Reporting System
Dashboards มักใช้ในการแสดงผลของ operation or tactical โดยแบ่งได้เป็น3ระดับคือ

operational dashboards ซึ่งถูกใช้โดย front lines worker,supervisor
tactical dashboards ซึ่งถูกใช้โดย manager and analysts
strategic dashboard ซึ่งถูกใช้โดย ผู้บริหาร

Scorecards ใช้เพื่อประเมินผลและตืดตามผลการดำเนินงาน

           2.Analytics - การใช้เครื่องมือในการวิเคราะห์ข้อมูล โดยมีตัวอย่างดังต่อไปนี้
               - Online Analytical Processing (OLTP) เป็น เครื่องมือขั้นพื้นฐานของผู้บริหาร ช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ มักจะแสดงผลนั้นออกมาในรูปของแผนภูมิและกราฟ นอกจากนี้การวิเคราห์จะเป็นแบบ Multi-dimensional
               - Data Mining เป็นการ extract ข้อมูลออกมาเพื่อ 1) พยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือ 2) ค้นหา Patterns ที่ไม่เคยรู้มาก่อน

รูปแบบของ Data Mining มีทั้งหมด 5 รูปแบบ ดังต่อไปนี้
1.Clustering - นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น)
2.Classification - นำเสนอข้อมูลตามสมมติฐานที่เราคิด โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
3.Association - นำเสนอผลสืบเนื่อง เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.Sequence discovery - consequence ผลที่เกิดตามหลังมา
5.Prediction – นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต

ข้อดีและข้อเสียของ Data Mining
- เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ
- แต่เทคนิคอาจมีความซับซ้อนมากเกินไป ทำให้ต้องการความรู้และการอบรม
- ผู้ใช้อาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผล

-Text mining:

เป็นเสมือนการทำ Data Mining ในกรณีที่ข้อมูลเป็น Unstructure Data คือ ข้อมูลไม่มีโครงสร้างที่ตายตัว ซึ่งข้อมูลแบบนี้นับวันจะยิ่งเพิ่มจำนวนมากขึ้น เช่น การ complain ของลูกค้า, E-mail Spam โดยเมื่อมีการจัดเก็บข้อมูลแบบนี้ไว้รวมๆกันแล้ว ระบบก็จะพยายามค้นหาความสัมพันธ์ของประเด็นต่างๆในเรื่องนั้นๆ เป็นการจับกลุ่มประเด็นของข้อมูล เพื่อให้ข้อมูลเป็นประโยชน์ต่อการใช้งานต่อไป

Dungchanok

วันพฤหัสบดีที่ 20 มกราคม พ.ศ. 2554

AI614_Class9_ 19 Jan 2011

ไม่มีความคิดเห็น:

แสดงความคิดเห็น