DATA WAREHOUSE & DATA MINING

DATA WAREHOUSE & DATA MINING

ปัจจุบันระบบสนับสนุนข้อมูลในการตัดสินใจได้เข้ามามีอิทธิพลในการรวบรวมข้อมูลและปรับค่าข้อมูลในคลังสินค้า ซึ่งฐานข้อมูลขนาดใหญ่นี้จะประกอบไปด้วยข้อมูลเป็นพันๆ ล้านไบต์ ยากแก่การค้นหาได้อย่างทันกาลด้วยวิธี DBMS ( Database Management System ) โดยทั่วไป ข้อมูลที่เป็นที่สนใจของผู้บริหารธุรกิจวันนี้สามารถจะค้นหาได้ง่ายขึ้น องค์กรส่วนใหญ่ที่จะประสบความสำเร็จได้นั้นต้องขึ้นอยู่กับปัจจัยหลายๆอย่าง และปัจจัยที่สำคัญมากสำหรับองค์กรคือข้อมูลที่มีอยู่และใช้ประจำวัน (Operational Database) ซึ่งนับวันจะเริ่มเข้ามามีบทบาทมากขึ้นในแต่ละองค์กร ที่จะต้องมีการจัดเก็บอย่างดี ในอดีตการจัดเก็บข้อมูลเป็นเพียงการจัดเก็บบนเทปแม่เหล็ก แผ่นดิสก์ แผ่นซีดี ซึ่งมักจะเสี่ยงกับการสูญหายของข้อมูล และการค้นหาข้อมูลก็ทำได้ยากและใช้เวลานาน ยิ่งข้อมูลที่มีจำนวนมากๆ หรือมีขนาดใหญ่ ยิ่งเสี่ยงมาก อีกทั้ง การประมวลผลของข้อมูลยังช้าอีกด้วย ดังนั้น จึงมีผู้คิดค้นวิธรการจัดเก็บข้อมูลเพื่อสามารถนำมาใช้ให้เกิดประโยชน์สูงสุดนั่นก็คือ การจัดเก็บข้อมูลในระบบคลังข้อมูล หรือ Data Warehouse นั่นเอง เรามาทำความเข้าใจกับคลังข้อมูลกันก่อนว่า คลังข้อมูลนี้เป็นอย่างไร

นิยามของคลังข้อมูล DATA WAREHOUSE

Data Warehouse หมายถึง ฐานข้อมูลขนาดใหญ่ขององค์กรหรือหน่วยงานหนึ่งๆ ซึ่งเก็บ รวบรวมข้อมูลจากฐานข้อมูล ระบบงานประจำวัน เรียกอีกอย่างว่า operational database หรืออาจเรียกว่า Internal Data Sources และฐานข้อมูลอื่นภายนอกองค์กร หรือเรียกว่า external database โดยข้อมูลที่ถูกจัดเก็บในคลังข้อมูลนั้น มีวัตถุประสงค์ในการนำมาใช้งาน และมีลักษณะของการ จัดเก็บแตกต่างไปจากข้อมูลในฐานข้อมูลระบบงานอื่น การย้ายข้อมูลจากฐานข้อมูลปกติ เข้าไปไว้ ใน Date Warehouse มีข้อดีหลายอย่าง เช่น ทำให้องค์กรหรือ เจ้าของข้อมูล มีโอกาสได้ออกแบบ รูปแบบการเก็บข้อมูลใหม่ให้เหมาะสมกับการเรียกใช้มากยิ่งขึ้น และทำให้เหมาะ สำหรับการนำไปใช้ ช่วยในการตัดสินใจ หรือใช้ในงานวิเคราะห์ นอกจากนั้นระบบ Data Warehouse ยังรวมเอา ข้อมูลที่ ใช้อยู่ในปัจจุบันเข้ากับข้อมูลในอดีตเข้าเป็นฐานข้อมูลเดียวกัน สามารถเรียกใช้งานได้จาก อินเตอร์เฟสแบบ กราฟิกได้โดยตรง (GUI) พร้อมสำหรับการจัดการข้อมูลและนำข้อมูลที่ได้ไป วิเคราะห์ ข้อดีสุดท้ายก็คือ ระบบ Data Warehouse ทำให้ผู้ใช้ระดับสูง หรือพนักงานทั่วไปสามารถ เข้าถึงและเรียกใช้ฐานข้อมูลได้ด้วยตัวเอง โดยไม่ต้องอาศัยความช่วยเหลือจากเจ้าหน้าที่ทาง IT อีก ต่อไป ทำให้ทั้งคู่คือพนักงานและเจ้าหน้าที่ IT ทำงานได้สะดวกและมีประสิทธิภาพ มากขึ้น

รูปแสดงระดับของข้อมูล

(http://www.vcharkarn.com/uploads/191/192135.jpg)

จากรูปจะแสดงให้เห็นถึงระดับของข้อมูล โดยลำดับจากฐานไปสู่ยอดสามเหลี่ยม การเคลื่อนย้ายข้อมูลจะเป็นลักษณะวันต่อวัน (Transaction) ซึ่งเกิดจากการเก็บรวบรวมจากทุกส่วนขององค์กรที่เป็นหน่วยงานระดับปฏิบัติการ (Operation) เพื่อทำการจัดระบบให้เป็นหมวดหมู่ และสามารถเรียกใช้ได้ง่าย โดยทั่วไปเราเรียกว่า การจัดเก็บในรูปแบบ “ฐานข้อมูล (Database)” หลังจากผ่านกระบวนการ วิเคราะห์ และสรุป แล้วจะนำไปเก็บไว้ในระบบข้อมูลที่สูงขึ้น นั่นคือ Data Warehouse โดยข้อมูลใน Data Warehouse นี้ถือว่าเป็นข้อมูลที่มีระโยชน์ในเชิงกลยุทธ์ ในทางธุรกิจถือว่าเป็นระบบพื้นฐานที่คอยสนับสนุนระบบ “ธุรกิจอัจฉริยะ (Business Intelligent System)” ซึ่งเป็นข้อมูลที่สามารถช่วยให้ผู้บริหารระดับกลางและระดับสูงสามารถนำมาใช้เพื่อการวางกลยุทธ์ สามารถช่วยในการพยากรณ์สถานการณ์ในอนาคตเพื่อการวางแผนการใช้ทรัพยากรได้อย่างมีประสิทธิภาพ อย่างไรก็ตาม การที่ Data Warehouse จะทำงานได้ตามที่กล่าวไว้ได้ดีหรือไม่นั้น ก็ต้องเกิดจากการรวบรวมข้อมูลที่ครบรอบด้าน ทุกมิติ และควรเก็บข้อมูลในอดีตที่ยาวนานเพียงพอ จึงจะทำให้การพยากรณ์แม่นยำ ถ้าข้อมูลใน Data Warehouse ถูกพัฒนาในเชิงวิเคราะห์และสังเคราะห์มากขึ้น ก็สามารถนำไปใช้ในระดับการวางยุทธศาสตร์ในระดับผู้บริหารระดับสูง (Executives) ได้ในที่สุด (พ.อ.รศ.ดร.เศรษฐพงค์ มะลิสุวรรณ)

สาเหตุที่ต้องใช้ Data warehouse
องค์กรต่างๆ ในปัจจุบันส่วนใหญ่จะมีการลงทุนลงแรงไปมาก กับระบบที่เรียกว่า “ระบบ ฐานข้อมูลประจำวัน Operational System” ระบบสารนิเทศที่ว่านี้จะมีหน้าที่หลักในการรวบรวมและ จัดเก็บข้อมูลเอาไว้ ไม่ว่าจะเป็นข้อมูล ของลูกค้า ข้อมูลการขาย ข้อมูลฝ่ายบุคคลหรือข้อมูลเกี่ยวกับ คงคลังก็ตาม เนื่องจากระบบเหล่านี้มีการลงทุนไปมาก ดังนั้นปริมาณข้อมูลที่มหาศาลก็เลยถือได้ว่าเป็น ทรัพย์สินและ ทรัพยากรอย่างหนึ่งขององค์กรด้วย และจำเป็นต้องมีการจัดการที่เหมาะสมเพื่อนำเอาทรัพย์สินเหล่านี้มาใช้อย่างเกิด ประโยชน์สูงสุด หลาย ๆ องค์กรนำข้อมูลเหล่านี้มาช่วยในการ ตัดสินใจโดยประยุกต์ใช้เป็นระบบ “Decision Support System” (DSS) โดยนำเอาระบบ Data Warehouse มาช่วยเพื่อให้ผู้บริหารสามารถเรียกใช้ข้อมูลที่ต้องการได้อย่างรวดเร็วและมีประสิทธิภาพ มากขึ้นข้อมูลเชิงบริหารนี้จะสามารถช่วยลดปัญหาที่เกิดจากการใช้ข้อมูลจากฐานข้อมูลปฏิบัติการ(operational database) ซึ่งเป็นการเก็บข้อมูลในรูปแบบ transaction system ได้ ซึ่งโดยทั่วไปปัญหา ที่พบเมื่อต้องการข้อมูลที่ช่วยในการตัดสินใจได้แก่
- การเรียกข้อมูลจากฐานข้อมูลปฏิบัติการ ซึ่งมีขนาดใหญ่ ทำให้ประสิทธิภาพของระบบลดลง และทำงานได้ช้าลง

- ข้อมูลที่นำเสนอมีรูปแบบเดียว ไม่สามารถเปลี่ยนแปลงได้ตามความต้องการของผู้บริหาร
- ไม่สามารถหาคำตอบในเชิงพยากรณ์ได้
- ไม่ตอบสนองการทำคิวรีที่ซับซ้อนได้ดีเท่าที่ควร
- ข้อมูลถูกจัดเก็บอยู ตามฐานข้อมูลของระบบงานต่างๆ ซึ่งยากแก่การเรียกใช้และขาดความสัมพันธ์ทางธุรกิจ
- จากรูปจะเห็นได้ว่าการดึงข้อมูลจาก Database และ Data Warehouse ก็สามารถเชื่อมต่อ กับ Internet ได้

เครื่องมือที่ใช้ในการจัดทำ DATA WAREHOUSE แบ่งเป็น 3 ส่วน

1. Construct warehouse ทำหน้าที่ในการสร้างตัว warehouse ส่วนที่เป็น warehouse Construction เป็นการดึงฐานข้อมูลในแต่ละข้อมูลที่ใช้กันอยู่ในแต่ละแผนก ที่ เรียกว่าเป็น Operational Database ทำหน้าที่ duplicate data ให้มีสาระ มีความสำคัญ ในระบบจะคลอบคลุมถึง Data Cleansing หรือการทำความสะอาดข้อมูล มีการแยกข้อมูลที่เป็นข้อมูล สารสนเทศจริง ข้อมูลใดที่ควรนำมาเก็บในตัว warehouse เป็นต้น
2. Operate warehouse ทำหน้าที่ในการบริหารจัดการตัว warehouse ให้คงอยู่ได้ รวมทั้งการดูแลรักษาต่างๆ
3. Warehouse Access and analyze software ทำหน้าที่ในการดึงข้อมูลเพื่อใช้ในการ วิเคราะห์ประมวลผล ประเมินสถานการณ์ต่างๆ เพื่อที่ให้ผู้บริหารสามารถดึงข้อมูลออกมา หรือ สร้างเป็น Report ได้

วิวัฒนาการของเทคโนโลยีฐานข้อมูล

ในปี 1960 เทคโนโลยีฐานข้อมูลได้เริ่มพัฒนามาจาก file processing พื้นฐาน การค้นคว้าและพัฒนาระบบฐานข้อมูลมีมาเรื่อย ๆ
ปี 1970 ได้นำไปสู่การพัฒนาระบบการเก็บข้อมูลในรูปแบบตาราง ( Relational Database System ) มีเครื่องมือจัดการโมเดลข้อมูล และมีเทคนิคการใช้อินเด็กซ์และการบริหารข้อมูล นอกจากนี้ผู้ใช้ยังได้รับความสะดวกในการเข้าถึงข้อมูลโดยการใช้ภาษาในการเรียกข้อมูล ( Query Language )
ปี 1980 เทคโนโลยีฐานข้อมูลได้เริ่มมีการปรับปรุงและพัฒนาในการหาระบบจัดการที่มีศักยภาพมากขึ้น ความก้าวหน้าในเทคโนโลยี hardware ใน 30 ปีที่ผ่านมา ได้นำไปสู่การจัดเก็บ ข้อมูลจำนวนมากที่มีความซับซ้อนได้อย่างมีประสิทธิภาพเพิ่มขึ้น
ปี 1990 – ปัจจุบัน สามารถจัดเก็บข้อมูลได้ในหลายรูปแบบ แตกต่างกันทั้งระบบปฏิบัติการ หรือการจัดเก็บฐานข้อมูล ซึ่งการนำข้อมูลทั้งหมดมารวมและจัดเก็บไว้ในรูปแบบเดียวกันเรียกว่า Data Warehouse เพื่อความสะดวกในการจัดการต่อไป ซึ่งเทคโนโลยี Data Warehouse รวมไปถึง Data Cleansing , Data Integration และ On-Line Analytical Processing ( OLAP ) เป็นเทคนิคการวิเคราะห์ข้อมูลในหลาย ๆ มิตินั้นได้เกิดขึ้นมาตามลำดับ การละเลยข้อมูล ควบคู่ไปกับการขาดเครื่องมือวิเคราะห์ข้อมูลที่มีศักยภาพ นำไปสู่คำสถานการณ์ที่ว่า “ ข้อมูลมาก แต่ความรู้น้อย ” ( data rich but information poor ) การเติบโตขึ้นอย่างรวดเร็วของข้อมูลจำนวนมากที่สะสมไว้ในฐานข้อมูลขนาดใหญ่มากซึ่งเกินกว่าที่กำลังคนจะสามารถจัดการได้ เป็นผลทำให้มีความจำเป็นที่ต้องมีเครื่องมือที่ช่วยในการวิเคราะห์ข้อมูลและหาความเป็นไปได้ของข้อมูลทั้งหมดที่เป็นประโยชน์ออกมา ซึ่งก็คือ Data Mining

คุณสมบัติของ Data Warehouse

1. Consolidated and Consistant
Consolidated หมายถึง การรวบรวมข้อมูลที่เกิดขึ้นในระดับปฏิบัติการมาไว้ที่ศูนย์กลางเดียวกัน (คลังข้อมูล) Consistant หมายถึง ข้อมูลจากแหล่งต่างๆที่รวบรวมมาไว้ในคลังข้อมูล จะต้องมีคุณสมบัติที่เหมือนกัน รูปแบบเดียวกัน และสอดคล้องกัน
2. Subject-Oriented Data หมายถึง เก็บข้อมูลในระดับปฏิบัติการเฉพาะส่วนที่นำมาใช้เชิงวิเคราะห์หรือ เชิงตัดสินใจมากกว่า การเก็บข้อมูลเพื่อตอบคำถาม
3. Historical Data หมายถึง จะเก็บย้อนหลังเป็นเวลาหลายๆปี เพื่อจะได้นำไปวิเคราะห์เปรียบเทียบหาแนวโน้มของข้อมูลเปรียบเทียบกับปีที่ผ่านมา
4. Read – Only Data หมายถึง ข้อมูลในฐานข้อมูลไม่ควรมีการแก้ไขหลังจากที่นำข้อมูลเข้าสู่ฐานข้อมูลของคลังข้อมูลแล้วไม่มีการ Insert update or delete ข้อมูลภายในคลังข้อมูลนอกจากการเพิ่มข้อมูลเข้าอย่างเดียว

คุณลักษณะเฉพาะของ Data Warehouse

1. Subject oriented หรือการแบ่งโครงสร้างตามเนื้อหา หมายถึง คลังข้อมูลถูกออกแบบมาเพื่อมุ่งเน้นไปในแต่ละเนื้อหาที่สนใจ ไม่ได้เน้นไปที่การทำงานหรือกระบวนการแต่ละอย่างโดยเฉพาะเหมือนอย่างฐานข้อมูลปฏิบัติการในส่วนของรายละเอียดข้อมูลที่จัดเก็บในระบบทั้งสองแบบก็จะแตกต่างกันไปตามความต้องการใช้งานด้วยเช่นกัน คลังข้อมูลจะไม่จำกัดเก็บข้อมูลที่ไม่มีส่วนเกี่ยวข้องกับการประมวลผลเพื่อสนับสนุนการตัดสินใจ ในขณะที่ข้อมูลนั้นจะถูกเก็บไว้ในฐานข้อมูลปฏิบัติการหากมีส่วนที่เกี่ยวข้องกับกระบวนการทำงาน
2. Integration หรือการรวมเป็นหนึ่ง ซึ่งถือได้ว่าเป็นคุณลักษณะที่สำคัญที่สุดของคลังข้อมูล คือการรวบรวมข้อมูลจากหลายฐานข้อมูลปฏิบัติการเข้าด้วยกัน และทำให้ข้อมูลมีมาตราฐานเดียวกัน เช่นกำหนดให้มีค่าตัวแปรของข้อมูลในเนื่อหาเดียวกันให้เป็นแบบเดียวกันทั้นหมด
3. Time variancy หรือความสัมพันธ์กับเวลา หมายถึงข้อมูลในคลังข้อมูล จะต้องจัดเก็บโดยกำหนดช่วงเวลาเอาไว้ โดยจะสัมพันธ์กับการดำเนินธุรกิจของหน่วยธุรกิจนั้น เพราะในการตัดสินด้านการบริหารจำเป็นต้องมีข้อมูลเปรียบเทียบในแต่ละช่วงเวลา แต่ละจุดของข้อมูลจะเกี่ยวข้องกับจุดของเวลาและข้อมูลแต่ละจุดสามารถเปรียบเทียบกันได้ตามแกนของเวลา
4. Nonvolatile หรือความเสถียรของข้อมูล หมายถึงข้อมูลในคลังข้อมูลจะไม่เปลี่ยนแปลงบ่อย ไม่ว่าจะเป็นการเพิ่มเติมข้อมูลใหม่ หรือการปรับปรุงแก้ไขข้อมูลเดิมที่บรรจุอยู่แล้ว ผู้ใช้ทำได้เพียงการเข้าถึงข้อมูลเท่านั้น

สถาปัตยกรรมของ Data warehouse

1. Operational database หรือ external database layer ทำหน้าที่จัดการกับข้อมูลในระบบงานปฏิบัติการหรือแหล่งข้อมูล ภายนอกองค์กร
2. Information access layer เป็นส่วนที่ผู้ใช้ปลายทางติดต่อผ่านโดยตรง ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ ที่ใช้ในการ แสดงผลเพื่อวิเคราะห์ โดยมีเครื่องมือช่วย เป็นตัวกลางที่ผู้ใช้ใช้ติดต่อกับคลังข้อมูล
3. Data access layer เป็นส่วนต่อประสานระหว่าง Information access layer กับ operational layer
4. Metadata layer เพื่อให้เข้าใจถึงข้อมูลได้ง่ายขึ้น และเป็นการเพิ่มความเร็วในการเรียกและดึงข้อมูลของคลังข้อมูล
5. Process management layer ทำหน้าที่จัดการกระบวนการทำงานทั้งหมด
6. Application messaging layer เป็นมิดเดิลแวร์ (Middleware) ทำหน้าที่ในการส่งข้อมูลภายในองค์กรผ่านทางเครือข่าย
7. Data warehouse (physical) layer เป็นแหล่งเก็บข้อมูลของทาง information data และ external data ในรูปแบบที่ง่ายแก่การ เข้าถึงและยืดหยุ่นได้
8. Data staging layer เป็นกระบวนการการแก้ไข และดึงข้อมูลจาก external database

โมเดลข้อมูลของ Data Warehouse

โมเดลข้อมูลของคลังข้อมูลของ Data Warehouse ซึ่งเปรียบเสมือนกับรูปลูกบาศก์ที่มีมุมมองหลากหลาย แต่ละมุมมองทำให้เกิดการคิวรีข้อมูลจาก Data Warehouseได้หลากหลายแบบคิวบ์ (Cube) ประกอบด้วยองค์ประกอบที่สำคัญคือ Dimention และ Measure การผสมผสานของ Dimention ต่างๆ ของคิวบ์ (Cube) ในบทนี้ คิวบ์ (Cube) มีโครงสร้างได้ 2 แบบคือ โครงสร้างแบบ Star Schema และ โครงสร้างแบบ Snowflake Schema
Dimensional Modeling เป็นชื่อเรียกของเทคนิคในการทำให้ฐานข้อมูลง่ายต่อการทำความเข้าใจ โดยการมองภาพของฐานข้อมูลเป็นลูกบาศก์ที่มี 3,4,5 มิติ หรือมากกว่านั้น ทำให้สามารถจิตนาการการ หันหรือแบ่งลูกบาศก์ที่มีลักษณะเหมือนลูกเต๋านี้ได้ นั่นคือสามารถตัดข้อมูลมาวิเคราะห์ดูในช่วงใดก็ได้ และหมุนข้อมูลดูได้จากทุกๆด้านของลูกเต๋า ตัวอย่างเช่น เราขายสินค้า (product) ในหลายๆที่ (market) และในช่วงเวลาต่างๆกัน (time) เราสามารถสร้าง Dimensional Modeling ได้โดยให้ label คือ product, market และ time อยู่บนแต่ละด้านของลูกบาศก์ที่เป็น 3 มิติ แต่ละจุดภายในลูกบาศก์เกิดจากการตัดของ coordinate ซึ่งมี label อยู่ที่ขอบของลูกบาศก์ ดังนั้นจุดต่างๆภายในลูกบาศก์คือผลลัพธ์ทางด้านธุรกิจที่พิจารณาจากทั้ง 3 เรื่องคือ สินค้า, ทีขายสินค้า, เวลา พร้อมๆกัน

การออกแบบโครงสร้างการเชื่อมโยงระหว่างตารางเก็บข้อมูล ตามลักษณะของ Dimensional แบ่งออกเป็น 2 ประเภท คือ

1. Star schema เป็นเทคนิคที่ใช้ multidimensional model โดย data warehouse จะมีตั้งแต่ 1 star schema ขึ้นไป star schema จะมีลักษณะที่มี fact table อยู่ตรงกลางล้อมรอบด้วยหลาย ๆ dimension table ที่เก็บรายละเอียดของ fact ที่ไม่ใช่ normalized center Star Schema วิธีนี้จะช่วยเพิ่มความสามารถในการ query โดยลดประมาณ data ที่ อ่านจาก disk การวิเคราะห์การ queries ข้อมูลใน dimension table ที่เล็กจะใช้ dimension key จาก indexใน central fact table เป็นการลดจำนวนข้อมูลที่ต้องตรวจสอบ ซึ่งมีข้อดีคือ มีจำนวนของตารางน้อย ,สร้าง query ง่าย และเร็ว

ลักษณะของการ Slice and Dice View of Sales

รูปแบบลักษณะของ Star Schema for Sales

2. Snowflake schema มีความแตกต่างจาก Star schema ตรงที่ dimension table จะเก็บข้อมูลจะเก็บข้อมูลที่อยู่ในรูป normal form จาก star schema เราอาจจะเกิดปัญหาในการ design ได้ snowflake จึงเกิดขึ้นมาเนื่องจากปัจจัยดังนี้
• สภาวะทางธุรกิจ
• การ design ไม่สามารถ implement โดยใช้ star schema

Snowflake Schema จะใช้ในทางธุรกิจ แต่จะไม่แนะนำให้เลือกวิธีนี้ เนื่องจากวิธี นี้มีความยุ่งยากในการดูแล การเก็บข้อมูลผู้ใช้ระบบไม่สามารถรู้ได้ว่าข้อมูลอยู่ที่ ไหน อีกทั้งการเข้าถึงข้อมูลยังช้าอีกด้วย

KEYWORD FOR CUBE
• Slice การนำเสนอหน้าใดหน้าหนึ่ง
• Dice การตัดส่วนของ CUBE ให้เล็กลง
• Roll up การยุบ หรือ รวมให้สูงระดับสูงขึ้น
• Drill Down การย่อยลง ให้สูงระดับต่ำลง

Online Analytical Processing (OLAP)

คือการใช้คำค้น (query) เพื่อค้นหาข้อมูลในคลังข้อมูลเหมือนในฐานข้อมูล เหตุผลที่เราไม่ค้นในฐานข้อมูล แต่มาทำในคลังข้อมูลแทนมีสองสาเหตุคือ ความเร็ว ความครอบคลุมของข้อมูลทั้งบริษัทที่มีอยู่ในคลังข้อมูล ในการสำรวจข้อมูลของผู้บริหารอุตสาหกรรมส่วนใหญ่ ต้องการข้อมูล เพื่อประกอบการตัดสินใจ ในรูปของ สเปรดชีด (Spreadsheets) รายงาน (Report) และ เครื่องมือวิเตราะห์ (Analytical tools) เครื่องมือที่สามารถนำเสนอข้อมูล และ วิเคราะห์ข้อมูล ดังกล่าว คือ Online Analytical processing (OLAP) โดยโปรแกรมดังกล่าว เป็นเครื่องมือ ที่นำเสนอข้อมูลในรูปแบบ ต่างๆ จาก Data Warehouse. OLAP server และ Desktop tools สนับสนุนการวิเคราะห์ความเร็วสูง ของ ชุดข้อมูลที่มีความสัมพันธ์ที่ซับซ้อน ตัวอย่างเช่น ส่วนผสมของ สินค้า(Product) ช่องทางการขาย (Channel of distribution) และ ระยะเวลา (Time period ) OLAP ถูกออกแบบให้ ความสามารถในการเรียกดูข้อมูล ที่รวดเร็ว เนื่องจาก โครงสร้างการจัดเก็บที่เหมาะสม และ การหลีกเลี่ยงการใช้ Index จำนวนมาก ทำให้ระบบแบบนี้จึงไม่เหมาะสมกับการเปลี่ยนแปลงข้อมูลจำนวนมากๆ ด้วยคุณสมบัติดังกล่าวนี้ทำให้ OLAP ถูกใช้ร่วมกับ Data Warehouse เสมอ

CRM (Customer Relationship Management) กับ Data Warehouse

ปัจจุบันกระแสของ CRM ยังเป็นกระแสที่มาแรงอยู่อย่างต่อเนื่อง เพราะไม่ว่าผู้บริหารทั้งส่วนธุรกิจ และส่วนไอที ต่างก็หนีไม่พ้นเรื่อง CRM ที่ว่านี้เลย CRM นั้นย่อมาจาก Customer Relationship Management หรือการบริหารลูกค้าสัมพันธ์นั่นเอง อย่างไรก็ตาม CRM เป็นเพียงการสร้างความสัมพันธ์อันดีกับลูกค้า โดยมีความหวังว่าลูกค้าเหล่านั้นจะมีความจงรักภักดีกับองค์กรกับแบรนด์หรือผลิตภัณฑ์ของเราทำไมเราจึงต้องมี CRM การทำธุรกิจแบบเดิมๆ ที่ผ่านมา ยังไม่เพียงพอเพราะในโลกของธุรกิจ ย่อมต้องแข่งขันกันซึ่งจะทวีความรุนแรงมากขึ้น สินค้าและบริการที่แต่เดิมจะขึ้นอยู่กับผู้ผลิตว่าจะผลิตอะไรออกมาให้ใช้ เริ่มเปลี่ยนเป็นรูปแบบที่เน้นความต้องการของลูกค้าเป็นหลัก (Customer Oriented) หรือผู้บริโภคเป็นผู้กำหนดว่าต้องการสินค้าแล้วบริการอะไรการแข่งขันที่รุนแรงนี้เอง ประกอบกับสินค้าที่แทบจะไม่มีความแตกต่าง สิ่งที่เกิดขึ้นคือ ลูกค้าไม่หลงเหลือความจงรักภักดีแล้ว นี่แหล่ะคือเหตุผลที่บริษัทหลายๆ แห่งจะเน้นไปที่การบริการ เพื่อสร้างความแตกต่าง และ CRM เองก็เป็นอีกกลยุทธ์หนึ่งที่จะช่วยสร้างความแตกต่างนี้ ในปัจจุบันบริษัททั้งหลายจึงเน้นไปที่ลูกค้าของตนเองที่มีอยู่เดิม เราจึงไม่ต้องแปลกใจว่าสำหรับผู้ที่มีส่วนแบ่งทางตลาดที่อาจจะไม่ได้เติบโตมากนัก ก็ไม่ได้หมายความว่าบริษัทมีการดำเนินงานที่ไร้ประสิทธิภาพ เพราะว่าการทำให้ฐานลูกค้าเดิมจ่ายเงินมากขึ้น ย่อมหมายถึงรายได้ที่เพิ่มขึ้นได้ แล้วทำไมธุรกิจทั้งหลายจึงเลือกที่จะมุ่งไปที่ลูกค้าเดิมที่มีอยู่ คำตอบง่ายๆ ก็เพราะว่าค่าใช้จ่ายในการหาลูกค้าใหม่ๆ มันสูงกว่าการทำให้ลูกค้าเดิมๆ จ่ายเพิ่มนั่นเอง การที่จะทำให้ลูกค้าเดิมจ่ายเงินมากขึ้น แน่นอนว่าเรายังต้องการ M อีกหนึ่งตัว นั่นก็คือ Marketing นั่นเอง ดังนั้นในปัจจุบัน คำเรียกที่น่าจะดูมีพลังและสะท้อนถึงผลที่จะเกิดขึ้นกับบริษัทมากที่สุดน่าจะเป็น CRM&M มากกว่า เพราะแค่การบริหารลูกค้าเดิมนั้นให้รู้สึกดีกับองค์กรก็ทำให้เขารู้สึกดีระดับหนึ่ง แต่การหาผลประโยชน์จากความสัมพันธ์อันดีต่างหาก นั่นคือหัวใจหลักที่เราจะต้องรู้จักทำการตลาด ผมเองเชื่อว่ายังมีบริษัทอีกมากมายที่ยังไม่ได้ลงมานั่งวิเคราะห์พฤติกรรมของลูกค้าอย่างจริงๆ จังๆ ดังนั้นในแง่ของ Business Intelligent (BI) หรือ Data Warehouse คงจะเริ่มมีบทบาทในการสร้างความสัมพันธ์ และการหารายได้แบบหนึ่งต่อหนึ่งกับลูกค้า เช่น บริษัทบัตรเครดิตมีการวิเคราะห์พฤติกรรมการใช้จ่ายของลูกค้าผ่านบัตรเครดิตของแต่ละคนแค่ไหน และฐานข้อมูลของผู้ใช้บัตรเมื่อสามปีที่แล้วกับผู้ใช้บัตรคนเดิม ณ ปัจจุบันมีการปรับปรุงแค่ไหน สถานะของเขาเป็นอย่างไร และจะทำอย่างไรเพื่อจะได้นำเสนอสินค้าและบริการให้ตรงใจได้นั้น ถ้าเราสามารถวิเคราะห์ได้ว่าช่วงนั้นช่วงนี้ ผู้ถือบัตรอาจจะเติบโตในสายงานมีเงินเดือนมากขึ้น หรืออาจจะแต่งงาน ซื้อบ้าน หรือแม้กระทั่งกำลังจะมีลูก และอื่นๆ ตลอดชั่วอายุคน สิ่งเหล่านี้เป็นโอกาสที่จะนำเสนอสินค้าและบริการทั้งสิ้น การนำสินค้าและบริการนำเสนอให้ถูกคนถูกเวลา คงจะเป็นยุทธศาสตร์ที่สำคัญของธุรกิจในปัจจุบันและอนาคต

DATA MINING คืออะไร

Data Mining คือ ชุด software วิเคราะห์ข้อมูลที่ได้ถูกออกแบบมาเพื่อระบบสนับสนุนการตัดสินใจของผู้ใช้ มันเป็น software ที่สมบรูณ์ทั้งเรื่องการค้นหา การทำรายงาน และโปรแกรมในการจัดการ ซึ่งเราคุ้นเคยดีกับคำว่า Executive Information System ( EIS ) หรือระบบข้อมูลสำหรับการตัดสินใจในการบริหาร ซึ่งเป็นเครื่องมือชิ้นใหม่ที่สามารถค้นหาข้อมูลในฐานข้อมูลขนาดใหญ่หรือข้อมูลที่เป็นประโยชน์ในการบริหาร ซึ่งเป็นการเพิ่มคุณค่าให้กับฐานข้อมูลที่มีอยู่ ระบบสนับสนุนการตัดสินใจ ( Decision Support System) คือทำอย่างไรให้ข้อมูลที่เรามีอยู่กลายเป็นความรู้อันมีค่าได้สร้างคำตอบของอนาคตได้ นี่คือจุดประสงค์ของ Data Mining ที่จะมาช่วยในเรื่องของเทคนิคการจัดการข้อมูล ซึ่งได้พยายามและทดสอบแล้วและข้อมูลสนับสนุนที่มีอาจย้อนหลังไปถึง 30 ปี ด้วยเทคนิคเดียวกันนี้เราสามารถใช้ค้นข้อมูลสำคัญที่ปะปนกับข้อมูลอื่น ๆ ในฐานข้อมูลที่ไม่ใช่แค่การสุ่มหา บางคนเรียกว่า KDD ( Knowledge Discovery in Database ) หรือ การค้นหาข้อมูลด้วยความรู้ และนั่นก็คือ Data Mining
Philippe Nieuwbourg ( CXP Information ) กล่าวไว้ว่า “ Data Mining คือ เทคนิคที่ผู้ใช้สามารถปฏิบัติการได้โดยอัตโนมัติ กับ ข้อมูลที่ไม่รู้จัก ซึ่งเป็นการเพิ่มคุณค่า ให้กับข้อมูลที่มี” จากประโยคข้างต้นมีคำอยู่สามคำที่สำคัญ คือ คำแรก “ อัตโนมัติ” คือ กระบวนการทำงานของ Data Mining ซึ่งจะเป็นผู้ทำงานเองไม่ใช่ผู้ใช้กระบวนการจะไม่ให้คำตอบกับปัญหาที่มีแต่จะเป็นศูนย์กลางของข้อมูล คำที่สอง “ข้อมูลที่ไม่รู้จัก” เครื่องมือในการค้นหาใหม่ของ Data Mining ซึ่งจะไม่ค้นหาแต่ข้อมูลเก่าและข้อมูลที่ผู้ใช้ป้อนให้เท่านั้น แต่จะค้นหาข้อมูลใหม่ ๆ ด้วย และสุดท้าย “ เพิ่มคุณค่า ” นั่นหมายถึง ผู้ใช้ไม่ได้เป็นแค่เพียงนักสถิติ แต่เป็นได้ถึงระดับตัดสินใจ

ทำไมจึงต้องมี Data Mining

1.ข้อมูลที่ถูกเก็บไว้ในฐานข้อมูลหากเก็บไว้เฉย ๆ ก็จะไม่เกิดประโยชน์ดังนั้นจึงต้องมีการสกัดสารสนเทศไปใช้ การสกัดสารสนเทศ หมายถึง การคัดเลือกข้อมูลออกมาใช้งานในส่วนที่เราต้องการ
2.ในอดีตเราใช้คนเป็นผู้สืบค้นข้อมูลต่าง ๆ ในฐานข้อมูลซึ่งผู้สืบค้นจะทำการสร้างเงื่อนไขขึ้นมาตามภูมิปัญญาของผู้สืบค้น
3.ในปัจจุบันการวิเคราะห์ข้อมูลจากฐานข้อมูลเดียวอาจไม่ให้ความรู้เพียงพอและลึกซึ้งสำหรับการดำเนินงานภายใต้ภาวะที่มีการแข่งขันสูงและมีการเปลี่ยนแปลงที่รวดเร็วจึงจำเป็นที่จะต้องรวบรวมฐานข้อมูลหลาย ๆ ฐานข้อมูลเข้าด้วยกัน เรียกว่า “ คลังข้อมูล” ( Data Warehouse) ดังนั้นเราจึงจำเป็นต้องใช้ Data Mining ในการดึงข้อมูลจากฐานข้อมูลที่มีขนาดใหญ่ เพื่อที่จะนำข้อมูลนั่นมาใช้งานให้เกิดประโยชน์สูงที่สุด

ปัจจัยที่ทำให้ Data Mining เป็นที่ได้รับความนิยม

• จำนวนและขนาดข้อมูลขนาดใหญ่ถูกผลิตและขยายตัวอย่างรวดเร็ว การสืบค้นความรู้จะมีความหมายก็ต่อเมื่อฐานข้อมูลที่ใช้มีขนาดใหญ่มาก ปัจจุบันมีจำนวนและขนาดข้อมูลขนาดใหญ่ที่ขยายตัวอย่างรวดเร็ว โดยผ่านทาง Internet ดาวเทียม และแหล่งผลิตข้อมูล อื่น ๆ เช่น เครื่องอ่านบาร์โค้ด , เครดิตการ์ด , อีคอมเมิร์ซ
• ข้อมูลถูกจัดเก็บเพื่อนำไปสร้างระบบการสนับสนุนการตัดสินใจ ( Decision Support System) เพื่อเป็นการง่ายต่อการนำข้อมูลมาใช้ในการวิเคราะห์เพื่อการตัดสินใจ ส่วนมากข้อมูลจะถูกจัดเก็บแยกมาจากระบบปฏิบัติการ ( Operational System ) โดยจัดอยู่ในรูปของคลังหรือเหมืองข้อมูล ( Data Warehouse ) ซึ่งเป็นการง่ายต่อการนำเอาไปใช้ในการสืบค้นความรู้
• ระบบ computer สมรรถนะสูงมีราคาต่ำลง เทคนิค Data Mining ประกอบไปด้วย Algorithm ที่มีความซับซ้อนและความต้องการการคำนวณสูง จึงจำเป็นต้องใช้งานกับระบบ computer สมรรถนะสูง ปัจจุบันระบบ computer สมรรถนะสูงมีราคาต่ำลง พร้อมด้วยเริ่มมีเทคโนโลยีที่นำเครื่อง microcomputer จำนวนมากมาเชื่อมต่อกันโดยเครือข่ายความเร็วสูง ( PC Cluster ) ทำให้ได้ระบบ computer สมรรถนะสูงในราคาต่ำ
• การแข่งขันอย่างสูงในด้านอุตสาหกรรมและการค้า เนื่องจากปัจจุบันมีการแข่งขันอย่างสูงในด้านอุตสหกรรมและการค้า มีการผลิตข้อมูลไว้อย่างมากมายแต่ไม่ได้นำมาใช้ให้เกิดประโยชน์ จึงเป็นการจำเป็นอย่างยิ่งที่ต้องควบคุมและสืบค้นความรู้ที่ถูกซ่อนอยู่ในฐานข้อมูลความรู้ที่ได้รับสามารถนำไปวิเคราะห์เพื่อการตัดสินใจในการจัดการในระบบต่าง ๆ ซึ่งจะเห็นได้ว่าความรู้เหล่านี้ถือว่าเป็นผลิตผลอีกชิ้นหนึ่งเลยทีเดียว

ประเภทข้อมูลที่สามารถทำ Data Mining

• Relational Database เป็นฐานข้อมูลที่จัดเก็บอยู่ในรูปแบบของตาราง โดยในแต่ละตารางจะประกอบไปด้วยแถวและคอลัมน์ ความสัมพันธ์ของข้อมูลทั้งหมดสามารถแสดงได้โดย entity-relationship ( ER ) model
• Data Warehouses เป็นการเก็บรวบรวมข้อมูลจากหลายแหล่งมาเก็บไว้ในรูปแบบเดียวกันและรวบรวมไว้ในที่ ๆ เดียวกัน
• Transactional Database ประกอบด้วยข้อมูลที่แต่ละทรานเซกชันแทนด้วยเหตุการณ์ในขณะใดขณะหนึ่ง เช่น ใบเสร็จรับเงิน จะเก็บข้อมูลในรูป ชื่อลูกค้าและรายการสินค้าที่ลูกค้ารายนั้นซื้อ เป็นต้น
• Advanced Database เป็นฐานข้อมูลที่จัดเก็บในรูปแบบอื่น ๆ เช่น ข้อมูลแบบ object-oriented , ข้อมูลที่เป็น text file , ข้อมูลมัลติมีเดีย , ข้อมูลในรูปของ web

ลักษณะเฉพาะของข้อมูลที่สามารถทำ Data Mining

• ข้อมูลขนาดใหญ่ เกินกว่าจะพิจารณาความสัมพันธ์ที่ซ่อนอยู่ภายในข้อมูลได้ด้วยตาเปล่า หรือโดยการใช้ Database Management System ( DBMS ) ในการจัดการฐานข้อมูล
• ข้อมูลที่มาจากหลายแหล่ง โดยอาจรวบรวมมาจากหลายระบบปฏิบัติการหรือหลาย DBMS เช่น Oracle , DB2 , MS SQL , MS Access เป็นต้น
• ข้อมูลที่ไม่มีการเปลี่ยนแปลงตลอดช่วงเวลาที่ทำการ Mining หากข้อมูลที่มีอยู่นั้นเป็นข้อมูลที่เปลี่ยนแปลงตลอดเวลาจะต้องแก้ปัญหานี้ก่อน โดยบันทึกฐานข้อมูลนั้นไว้และนำฐานข้อมูลที่บันทึกไว้มาทำ Mining แต่เนื่องจากข้อมูลนั้นมีการเปลี่ยนแปลงอยู่ตลอดเวลา จึงทำให้ผลลัพธ์ที่ได้จาการทำ Mining สมเหตุสมผลในช่วงเวลาหนึ่งเท่านั้น ดังนั้นเพื่อให้ได้ผลลัพธ์ที่มีความถูกต้องเหมาะสมอยู่ตลอดเวลาจึงต้องทำ Mining ใหม่ทุกครั้งในช่วงเวลาที่เหมาะสม
• ข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลรูปภาพ ข้อมูลมัลติมีเดีย ข้อมูลเหล่านี้สามารถนำมาทำ Mining ได้เช่นกันแต่ต้องใช้เทคนิคการทำ Data Mining ขั้นสูง

การประยุกต์ใช้งาน Data Mining

• ธุรกิจค้าปลีกสามารถใช้งาน Data Mining ในการพิจารณาหากลยุทธ์ให้เป็นที่สนใจกับผู้บริโภคในรูปแบบต่าง ๆ เช่น ที่ว่างในชั้นวางของจะจัดการอย่างไรถึงจะเพิ่มยอดขายได้ เช่นที่ Midas ซึ่งเป็นผู้แทนจำหน่ายอะไหล่สำหรับอุตสาหกรรมรถยนต์ งานที่ต้องทำคือการจัดการกับข้อมูลที่ได้รับจากสาขาทั้งหมด ซึ่งจะต้องทำการรวบรวมและวิเคราะห์อย่างทันท่วงที
• กิจการโทรคมนาคม เช่นที่ Bouygues Telecom ได้นำมาใช้ตรวจสอบการโกงโดยวิเคราะห์รูปแบบการใช้งานของสมาชิกลูกข่ายในการใช้งานโทรศัพท์ เช่น คาบเวลาที่ใช้จุดหมายปลายทาง ความถี่ที่ใช้ ฯลฯ และคาดการณ์ข้อบกพร่องที่เป็นไปได้ในการชำระเงิน เทคนิคนี้ยังได้ถูกนำมาใช้กับลูกค้าโทรศัพท์เคลื่อนที่ซึ่งระบบสามารถตรวจสอบได้ว่าที่ใดที่เสี่ยงที่จะสูญเสียลูกค้าสูงในการแข่งขัน France Telecom ได้ค้นหาวิธีรวมกลุ่มผู้ใช้ให้เป็นหนึ่งเดียวด้วยการสร้างแรงดึงดูดในเรื่องค่าใช้จ่ายและพัฒนาเรื่องความจงรักภักดีต่อตัวสินค้า
• การวิเคราะห์ผลิตภัณฑ์ เก็บรวบรวมลักษณะและราคาของผลิตภัณฑ์ทั้งหมดสร้างโมเดลด้วยเทคนิค Data Mining และใช้โมเดลในการทำนายราคาผลิตภัณฑ์ตัวอื่น ๆ
• การวิเคราะห์บัตรเครดิต
- ช่วยบริษัทเครดิตการ์ดตัดสินใจในการที่จะให้เครดิตการ์ดกับลูกค้าหรือไม่
- แบ่งประเภทของลูกค้าว่ามีความเสี่ยงในเรื่องเครดิต ต่ำ ปานกลาง หรือสูง
- ป้องกันปัญหาเรื่องการทุจริตบัตรเครดิต
• การวิเคราะห์ลูกค้า
- ช่วยแบ่งกลุ่มและวิเคราะห์ลูกค้าเพื่อที่จะผลิตและเสนอสินค้าได้ตรงตามกลุ่มเป้าหมายแต่ละกลุ่ม
- ทำนายว่าลูกค้าคนใดจะเลิกใช้บริการจากบริษัทภายใน 6 เดือนหน้า
• การวิเคราะห์การขาย
- พบว่า 70 % ของลูกค้าที่ซื้อโทรทัศน์แล้วจะซื้อวิดีโอตามมา ดังนั้นผู้จัดการจึงควรมุ่งไปลูกค้าที่ซื้อโทรทัศน์ แล้วจึงส่งเมล์ไปยังลูกค้าเหล่านั้นเพื่อที่จะเชิญชวน หรือให้ข้อเสนอที่ดี เพื่อให้ลูกค้ามาซื้อวิดีโอในครั้งต่อไป
- ช่วยในการโฆษณาสินค้าได้อย่างเหมาะสมและตรงตามเป้าหมาย
- ช่วยในการจัดวางสินค้าได้อย่างเหมาะสม
• Text Mining เป็นการปรับใช้ Data Mining มาอยู่ในรูปของข้อมูลตัวอักษรซึ่งเป็นรูปแบบของภาษาเครื่อง SDP Infoware ตัวอย่างของงานคือใช้เป็นเครื่องมือตรวจระดับความพึงพอใจของผู้ที่เข้าชมนิทรรศการโดยผ่านการประมวลผลจากแบบสอบถาม
• e-Commerce
- ช่วยให้เข้าใจพฤติกรรมของลูกค้า เช่น ลูกค้ามักเข้าไปที่ web ใดตามลำดับก่อนหลัง
- ช่วยในการปรับปรุง web site เช่น พิจารณาว่าส่วนใดของ web ที่ควรปรับปรุงหรือควรเรียงลำดับการเชื่อมโยงในแต่ละหน้าอย่างไรเพื่อให้สะดวกกับผู้เข้าเยี่ยมชม ตัวอย่างการประยุกต์ Data Mining ทางด้านการศึกษา เราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับด้านการศึกษา เนื่องมาจากเราได้เล็งเห็นว่าในปัจจุบันตามสถาบันการศึกษาส่วนใหญ่มีข้อมูลต่างๆ นิสิตที่ได้ถูกจัดเก็บไว้ในเวลานาน แต่ข้อมูลส่วนใหญ่จะได้นำมาใช้ประโยชน์ตอนที่นิสิตศึกษาอยู่เท่านั้น เมื่อนิสิตจบการศึกษาไปแล้วข้อมูลก็จะได้รับการจัดเก็บไว้อย่างดี โดยที่ไม่ได้นำมาใช้ให้เกิดประโยชน์เท่าที่ควร เมื่อเราคิดได้แล้วว่าเราต้องการนำเทคนิคดาต้าไมน์นิงไปประยุกต์ใช้กับการศึกษา ต่อมาเราต้องหาเป้าหมาย (Mining Objective) ว่าเราต้องการสืบค้นความรู้แบบใดจากการทำดาต้าไมน์นิงกับข้อมูลนิสิตนี้บ้างเช่น ถ้าเราต้องการนำเทคนิคดาต้าไมน์นิงมาช่วยนิสิตในการเลือกสาขาวิชาต่างๆมากมายกว่า 10 สาขาวิชา ซึ่งจะเห็นได้ว่า นิสิตส่วนใหญ่ เมื่อเข้ามาศึกษาในคณะวิศวกรรมศาสตร์แล้ว พอถึงเวลาที่ต้องเลือกสาขาวิชา นิสิตจะไม่ทราบว่าความสามารถตนเองควรจะเข้าเรียนในสาขาวิชาใดจึงจะมีโอกาสประสบความสำเร็จมากที่สุด ดังนั้น เราจึงเห็นว่าสมควรอย่างยิ่งที่จะนำเทคนิคดาต้าไมน์นิงมาประยุกต์ใช้กับฐานข้อมูลนิสิตโดยความรู้ (knowledge) ที่ได้จากการทำดาต้าไมน์นิงสามารถนำมาใช้ในการช่วยนิสิตเลือกสาขาวิชาได้

Web Mining

Web Mining เป็นลักษณะเฉพาะอย่างหนึ่งของการนำหลักการ Data Mining มาใช้กับข้อมูลที่อาจจะมีขนาดใหญ่มาก ทั้งนี้ขึ้นอยู่กับขอบเขตของระบบที่จะทำ Web Mining เช่น ถ้าข้อมูลของเราจะต้องรวบรวมและประมวลผลจากข้อมูลทั้งหมดบน web ข้อมูลก็จะมีขนาดใหญ่ แต่ถ้าเราประมวลผลในเครือข่ายที่เล็กลง หรือบนเครื่องเดี่ยว ๆ ก็จะเป็นเพียง Data Mining ขนาดเล็กนั่นเอง สำหรับกรณีนี้จะมุ่งเน้นไปที่การรวบรวมข้อมูลผ่านทาง web ซึ่งมีข้อมูลที่มากมายหลากหลายชนิด หากเรานำข้อมูลเหล่านี้มาผ่านขบวนการ Web Mining ก็จะได้ข้อมูลทองคำไปใช้ประโยชน์ ไม่ว่าจะเป็นในด้านการปรับปรุงการให้บริการ web โดยผู้ดูแล web เองหรืออาจจะเป็นข้อมูลที่นำไปใช้ช่วยในการดำเนินธุรกิจของผู้ประกอบการได้

การประยุกต์ Web Mining

Data Mining เป็นกระบวนการสืบค้นข้อมูลสำคัญอันจะเป็นประโยชน์ต่อการดำเนินธุรกิจออกจากกองข้อมูลขนาดมหาศาลที่จัดเก็บอยู่ภายในแหล่งฐานข้อมูลของแต่ละองค์กร การขุดค้นข้อมูลด้วยเทคโนโลยี Data Mining ประกอบไปด้วยขั้นตอนเทคโนโลยีอันสลับซับซ้อนมากมาย ไม่ว่าจะเป็นการเรียนรู้จดจำแบบแผนมาตรฐานของข้อมูลเฉพาะกลุ่ม (pattern recognition technology) การใช้ประโยชน์จากอัลกอริทึม ซึ่งออกแบบมาเพื่อให้เครื่องคอมพิวเตอร์สามารถเรียนรู้และพัฒนาตัวมันเองได้ (machinelearning & genetic algorithms) หรือการเชื่อมโยงแลกเปลี่ยนข้อมูลภายในเครือข่ายเน็ตเวิร์คแบบโพลีโนเมี่ยลซึ่งเลียนแบบการทำงานระบบประสาทของมนุษย์ (Netural & Polynomial networks)

อย่างไรก็ตาม ไม่ว่าจะมีการใช้เทคโนโลยีทางคอมพิวเตอร์ที่สลับซับซ้อนเพียงไร เป้าหมายของ Data Mining ก็เป็นเรื่องง่ายๆ คือ ทำอย่างไรถึงจะเอาชนะคู่แข่งทางธุรกิจให้ได้ ทำอย่างไรถึงจะรู้ได้ว่าประชากรกลุ่มไหนคือ ลูกค้า เป้าหมาย(Who) และประชากรกลุ่มนี้ต้องการซื้ออะไร (What) ซื้อที่ไหน (Where) ซื้อเมื่อไหร่ (When) และที่สำคัญที่สุดก็คือ อะไรคือแรงขับเคลื่อนให้ลูกค้าเป้าหมายต้องการสินค้าที่ว่านั้น (Why) ซึ่งคำถามหลักๆ เหล่านี้เมื่อมาผนวกเข้ากับรูปแบบการดำเนินธุรกิจยุคดิจิตอลที่มีเครือข่ายอินเตอร์เน็ตเป็นสมรภูมิการตลาดอันไร้พรมแดน ก็ส่งผลให้เทคโนโลยี Data Mining กลายสภาพมาเป็นเครื่องมือการตลาดที่สำคัญมาก สำคัญขนาดที่ว่า นักธุรกิจรายใดไม่ให้ความสำคัญกับมัน ก็อาจจะถูกคู่แข่งทางการค้าของตนทิ้งห่างไปเลย

Data Warehouse และ Data Mining

สิ่งสำคัญที่จะต้องทำในการทำ Data Mining ก็คือ การกำหนดข้อมูลที่เหมาะสมในการ mining ดังนั้น Data mining จึงต้องการแหล่งข้อมูลที่มีการจัดเก็บและรวบรวมข้อมูลไว้อย่างดีและมีความมั่นคง เหตุผลที่ต้องมี Data warehouse ที่มีการจัดเก็บข้อมูลที่ดีสำหรับเตรียมข้อมูลเพื่อทำการ mining ก็คือ
1 Data warehouse จะทำการจัดเก็บข้อมูลที่มีความมั่นคงและข้อมูลที่ได้ทำความสะอาดแล้ว ซึ่งการจัดเตรียมและรวบรวมข้อมูลเป็นสิ่งที่จำเป็นสำหรับการ mining ที่ต้องการความแน่ใจในความแม่นยำของ predictive models
2 Data warehouse จะเป็นประโยชน์สำหรับการ mining ข้อมูลจากแหล่งข้อมูลหลายๆแหล่งที่ค้นพบมากมายเท่าที่จะเป็นไปได้ ซึ่ง Data warehouse จะบรรจุข้อมูลจากแหล่งข้อมูลเหล่านั้น
3 ในการเลือกส่วนย่อยๆของ record และ fields ที่ตรงประเด็น Data mining จะต้องการความสามรถในการ query ข้อมูลของ Data warehouse
4 การศึกษาผลที่ได้จากการทำ Data mining จะเป็นประโยชน์อย่างมาก ถ้าหากมีการสืบค้นข้อมูลอย่างมีแบบแผนต่อไปในอนาคต ซึ่ง Data warehouse จะเป็นแหล่งจัดเก็บข้อมูลภายหลังไว้ให้
ปกติแล้ว Data mining และ Data warehouse จะเป็นสิ่งคู่กัน ผู้ขายจำนวนมากจึงหาวิธีที่จะนำเทคโนโลยี Data mining และ Data warehouse มารวมเข้าไว้ด้วยกัน

สรุป

คลังข้อมูลขององค์กรเป็นการรวบรวมข้อมูลจากฐานข้อมูลของระบบงานปฏิบัติงานประจำวัน แล้วนำมาวิเคราะห์ปรับปรุง ให้ข้อมูลอยู่ในรูปแบบที่เหมาะสมต่อการใช้งาน มีความสะดวกรวดเร็วในการเข้าถึง จัดเก็บข้อมูลดังกล่าว แล้วจึงนำ เข้าไปเก็บในคลังข้อมูล (Data Warehouse) ที่ได้จัดทำขึ้น การจัดทำระบบคลังข้อมูลจำเป็นต้องพิจารณาในหลาย ๆ ปัจจัย เพื่อให้เกิดความคุ้มค่า และเกิดประโยชน์สูงสุด ต่อการลงทุนและการนำข้อมูลเหล่านั้นไปใช้งานไม่ว่าจะเป็นสถาปัตยกรรมและเทคโนโลยีของระบบ ทั้งฮาร์ดแวร์และ ซอฟต์ แวร์ ที่จะนำมาใช้ ทีมพัฒนาต้องมีความพร้อมในเรื่องของวิสัยทัศน์ในเชิงบวก และความสามารถในการพัฒนาระบบ

เอกสารอ้างอิง

http://www.vcharkarn.com/varticle/40511
เอกสารคู่มือการเรียนรู้วิชาเทคโนโลยีการสื่อสารและอินเตอร์เน็ต (ITM640)
http://th.wikipedia.org/
http://compcenter.bu.ac.th/index.php?option=com_content&task=view&id=75&Itemid=172
http://www2.cs.science.cmu.ac.th/useminar/2543/dataware/Introduction.htm
http://techinnoreview.exteen.com/20090611/data-warehouse

วันพุธที่ 25 สิงหาคม พ.ศ. 2553