Data Warehouse Processing มีขึ้นตอนต่างๆดังต่อไปนี้
1. รวบรวมข้อมูล - Collecting data from internal and external
1. รวบรวมข้อมูล - Collecting data from internal and external
2. จัดทำ Meta Dataเป็นข้อมูลที่ใช้อธิบายข้อมูลที่อยู่ใน data warehouse เช่น ที่มาของข้อมูล เป็นต้น
3. Data Staging (ECTL or ETL)ซึ่งประกอบไปด้วยการทำ Extract, Clean, Transform และ Load คือการดึงข้อมูลออกมาตาม Attribute ที่มีประโยชน์ และเกี่ยวข้องกับการตัดสินใจ และจะทำการ Clean ข้อมูล โดยจะตัดข้อมูลที่ไม่เป็นประโยชน์ออกและจัดข้อมูลใหม่ให้อยู่ใน Format ที่เป็นมาตรฐาน และสุดท้ายจะทำการ Load ข้อมูลเข้าไปยัง Data Cube ซึ่งจะประกอบไปด้วยหลายๆ Dimension และใช้สำหรับการวิเคราะห์เพื่อตัดสินใจเชิงกลยุทธ์ต่อไป
4. สร้าง Data Warehouse นำข้อมูล Data Cube ไปสร้าง Data Warehouse โดยจะมีการนำเสนอซึ่งยึด Business View เป็นหลักซึ่งการนำเสนอข้อมูลจะอยู่ในรูปแบบที่ง่ายต่อการวิเคราะห์ ตลอดจนสามารถ ปรับใช้งานได้ง่าย ส่วนใหญ่ในรูปDashboard
4. สร้าง Data Warehouse นำข้อมูล Data Cube ไปสร้าง Data Warehouse โดยจะมีการนำเสนอซึ่งยึด Business View เป็นหลักซึ่งการนำเสนอข้อมูลจะอยู่ในรูปแบบที่ง่ายต่อการวิเคราะห์ ตลอดจนสามารถ ปรับใช้งานได้ง่าย ส่วนใหญ่ในรูปDashboard
Data Mart
Data Warehouse ขนาดเล็กของแต่ละแผนก เพื่อให้เกิดความสะดวกสบายในการใช้งานของแต่ละแผนก โดย แบ่งออกเป็น 2 ประเภท คือ
1.Replicated (Dependent) Data Mart
2.Stand-alone Data Mart
Data Cube
เป็น Multidimensional Databases ช่วยให้ผู้ใช้เห็นข้อมูลเหล่านั้น ในหลายๆมิติ ทำให้มีประสิทธิภาพในการนำไปใช้มากยิ่งขึ้น
Business Intelligence
ประกอบไปด้วย 3 กลุ่ม Function และ Features ดังต่อไปนี้
1. Reporting and Analysis
Data Cube
เป็น Multidimensional Databases ช่วยให้ผู้ใช้เห็นข้อมูลเหล่านั้น ในหลายๆมิติ ทำให้มีประสิทธิภาพในการนำไปใช้มากยิ่งขึ้น
Business Intelligence
ประกอบไปด้วย 3 กลุ่ม Function และ Features ดังต่อไปนี้
1. Reporting and Analysis
- Enterprise Reporting System
- Dashboards มักใช้ในการแสดงผลของ operation or tactical โดยแบ่งได้เป็น3ระดับคือ
- operational dashboards ซึ่งถูกใช้โดย front lines worker,supervisor
- tactical dashboards ซึ่งถูกใช้โดย manager and analysts
- strategic dashboard ซึ่งถูกใช้โดย ผู้บริหาร
- Scorecards ใช้เพื่อประเมินผลและตืดตามผลการดำเนินงาน
2.Analytics - การใช้เครื่องมือในการวิเคราะห์ข้อมูล โดยมีตัวอย่างดังต่อไปนี้
- Online Analytical Processing (OLTP) เป็น เครื่องมือขั้นพื้นฐานของผู้บริหาร ช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ มักจะแสดงผลนั้นออกมาในรูปของแผนภูมิและกราฟ นอกจากนี้การวิเคราห์จะเป็นแบบ Multi-dimensional
- Data Mining เป็นการ extract ข้อมูลออกมาเพื่อ 1) พยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือ 2) ค้นหา Patterns ที่ไม่เคยรู้มาก่อน
- Online Analytical Processing (OLTP) เป็น เครื่องมือขั้นพื้นฐานของผู้บริหาร ช่วยระบุปัญหาและวิเคราะห์ได้ในพื้นฐานเท่านั้น ไม่สามารถตอบคำถามเชิงธุรกิจได้ มักจะแสดงผลนั้นออกมาในรูปของแผนภูมิและกราฟ นอกจากนี้การวิเคราห์จะเป็นแบบ Multi-dimensional
- Data Mining เป็นการ extract ข้อมูลออกมาเพื่อ 1) พยากรณ์แนวโน้มที่อาจจะเกิดขึ้น หรือ 2) ค้นหา Patterns ที่ไม่เคยรู้มาก่อน
รูปแบบของ Data Mining มีทั้งหมด 5 รูปแบบ ดังต่อไปนี้
1.Clustering - นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น)
2.Classification - นำเสนอข้อมูลตามสมมติฐานที่เราคิด โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
3.Association - นำเสนอผลสืบเนื่อง เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.Sequence discovery - consequence ผลที่เกิดตามหลังมา
5.Prediction – นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต
1.Clustering - นำเสนอข้อมูลที่มีความสัมพันธ์กันเอง โดยไม่มีการตั้งสมมติฐานไว้ล่วงหน้า(ไม่รู้ว่าจะเกิดอะไรขึ้น)
2.Classification - นำเสนอข้อมูลตามสมมติฐานที่เราคิด โดยให้ทดสอบว่าสมมติฐานนั้นจริงหรือไม่ อย่างไร
3.Association - นำเสนอผลสืบเนื่อง เช่น คนที่เปิดบัญชีประเภทออมทรัพย์จะมีกี่ % ที่ใช้บัตร ATM
4.Sequence discovery - consequence ผลที่เกิดตามหลังมา
5.Prediction – นำเสนอโดยการพยากรณ์สิ่งที่จะเกิดขึ้นในอนาคต
ข้อดีและข้อเสียของ Data Mining
- เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ
- แต่เทคนิคอาจมีความซับซ้อนมากเกินไป ทำให้ต้องการความรู้และการอบรม
- ผู้ใช้อาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผล
-Text mining:
เป็นเสมือนการทำ Data Mining ในกรณีที่ข้อมูลเป็น Unstructure Data คือ ข้อมูลไม่มีโครงสร้างที่ตายตัว ซึ่งข้อมูลแบบนี้นับวันจะยิ่งเพิ่มจำนวนมากขึ้น เช่น การ complain ของลูกค้า, E-mail Spam โดยเมื่อมีการจัดเก็บข้อมูลแบบนี้ไว้รวมๆกันแล้ว ระบบก็จะพยายามค้นหาความสัมพันธ์ของประเด็นต่างๆในเรื่องนั้นๆ เป็นการจับกลุ่มประเด็นของข้อมูล เพื่อให้ข้อมูลเป็นประโยชน์ต่อการใช้งานต่อไป- เป็นเครื่องมือที่ใช้งานง่ายสำหรับพนักงานระดับปฏิบัติการ
- แต่เทคนิคอาจมีความซับซ้อนมากเกินไป ทำให้ต้องการความรู้และการอบรม
- ผู้ใช้อาจต้องมีความรู้ด้านสถิติในการอ่านและแปลผล
-Text mining: