دسته‌ها
process mining علمی

process mining introduction 3 – decision tree

a good article here
Entropy: the degree of uncertainty
invest of compressibility (zippability)
Goal: reduce entropy in leaves of the tree to improve predictability.
E = – (Sigma from i=1 to k)Pi log(Pi) in base 2
K: possible values enumerated
Pi = Ci / n is the fraction of elements having value i with Ci>= ۱ the number of i value and n= (sigma i = 1 to k ) Ci
decision tree

دسته‌ها
Data Science آمار علمی

رابطه علّی

در تصمیم‌گیری‌های کسب‌وکار بسیار اهمیت دارد که مدیران بتوانند رابطه علّی را درست تشخیص دهند. می‌توان گفت در بیشتر موارد مدیریت یعنی ایجاد تغییر در چیزهایی که تحت کنترل است به‌منظور آن‌که روی چیزهای دیگری که تحت کنترل نیست، اثر گذاشت تا به نتیجه دلخواه رسید. برای مثال یک مدیر بودجه تبلیغات سازمان خود را افزایش می‌دهد (آنچه تحت کنترل است) به امید آنکه فروش بیشتری ایجاد کند (نتیجه دلخواه). یا دستمزد سال آتی کارمند خود را افزایش می‌دهد (آنچه تحت کنترل است) تا انگیزه او را برای کار کردن بیشتر کند (نتیجه دلخواه). پس نکته مهم آن می‌شود که یک مدیر بتواند علت پدیده‌ها را درست تشخیص دهد.

اما در دنیای واقعی همیشه مسائل آن‌طور که می‌نماید، نیست. در مقاله “چرا مدیران باید تفاوت بین همبستگی و رابطه علّی را بدانند؟” با ارائه مثال‌های متنوعی از دنیای واقعی توضیح دادم چگونه ممکن است دلایل بروز یک پدیده اشتباه تشخیص داده شود. من در این مقاله فرض می‌کنم، خواننده مقاله مذکور را مطالعه کرده است و به این موضوع می‌پردازم که بر چه اساسی وجود رابطه علّی را می‌توان تشخیص داد.

مدیران برای آنکه بتوانند رابطه علّی را بین پدیده‌ها به‌درستی تشخیص دهند باید به سه معیار زیر توجه کنند:

وجود رابطه (Association)،

ترتیب رخداد وقایع (Time Order)، و

نبود رابطه جعلی (Non-Spuriousness).

وجود رابطه

در گام اول باید نشان داد بین دو متغیر رابطه‌ای وجود دارد. اگر افزایش یک متغیر با افزایش و یا کاهش دیگری همراه است، می‌توان گفت بین این دو متغیر رابطه وجود دارد. برای مثال در بسیاری از موارد دیده می‌شود هر چه افراد تجربه کاری بیشتری در صنعت داشته باشند، دستمزد سالیانه بیشتری دریافت می‌کنند (البته این اثر ممکن است از یک‌میزان تجربه کاری بیشتر، کمرنگ شود). پس باید دید آیا داده‌ها وجود چنین حدسی را تائید می‌کنند یا خیر. برای نمونه من رابطه بین سابقه کار و حقوق سالیانه را برای شاغلین حوزه حسابداری، حسابرسی و مدیریت مالی از گزارش حقوق و دستمزد سال ۱۳۹۵ ایران تلنت (Iran Talent) استخراج کردم و در شکل-۱ نشان دادم. نمودار نشان می‌دهد برای این گروه از شاغلین هرچه تجربه کاری افزایش یابد، میانگین دستمزد سالیانه بیشتر می‌شود.

در این نمودار تجربه کاری به شکل یک متغیر رسته‌ای (Categorical) و میزان حقوق و دستمزد به شکل عددی (Numerical) اندازه‌گیری شده است. این یعنی میزان تجربه کاری در چند دسته تقسیم شده، درحالی‌که میزان دستمزد (بر حسب میلیون تومان) می‌تواند هر عددی را به شکل پیوسته به خود بگیرد.

شکل-۱

زمانی که هر دو متغیر عددی هستند، شدت رابطه خطی را می‌توان به‌صورت کمّی با ضریب همبستگی (Correlation Coefficient) سنجید. ضریب همبستگی همواره عددی بین ۱ و ۱- است.  این ضریب دو بخش دارد: مقدار عددی و علامت. مقدار عددی نشان می‌دهد چقدر رابطه خطی بین دو متغیر قدرتمند است. علامت نشان می‌دهد جهت این رابطه مثبت است یا منفی.

اگر ضریب همبستگی مثبت باشد، به این مفهوم است که افزایش در مقادیر یک متغیر با افزایش در مقادیر متغیر دیگر همراه است. همین‌طور کاهش در مقادیر یک متغیر با کاهش در مقادیر متغیر دیگر همراه است. در این حالت اگر نمودار پراکندگی دو متغیر رسم شود، می‌توان خطی با شیب مثبت را از بین نقاط برازش داد (شکل-۲). به همین ترتیب اگر ضریب همبستگی منفی باشد، می‌توان خطی با شیب منفی را از بین نقاط برازش داد (شکل-۲).

هرچه مقدار مطلق ضریب همبستگی (صرف‌نظر از علامت) به ۱ نزدیک باشد، نشان می‌دهد شدت رابطه خطی بین دو متغیر قوی‌تر است. در مقابل ضریب همبستگی نزدیک صفر نشان می‌دهد که رابطه خطی بسیار ضعیفی بین دو متغیر برقرار است.

شکل-۲

اگر بین دو متغیر رابطه غیرخطی برقرار باشد، همچنان این امکان وجود دارد ضریب همبستگی نزدیک صفر باشد که نشان‌دهنده نبود رابطه خطی بین دو آن است (شکل-۳). به همین دلیل در هنگام تحلیل بهتر است نمودار پراکندگی بین متغیرها رسم شود تا به وجود این روابط پی برد.

شکل-۳

برای آنکه از وجود رابطه بین دو متغیر مطمئن شویم، تنها به میزان شدت و ضعف رابطه (انداز ضریب همبستگی) نباید اطمینان کرد بلکه باید به سطح معنی‌داری آماری نیز توجه کرد. بحث بیشتر در این مورد را می‌توانید در مقاله “ضریب همبستگی چیست و چه کاربردی دارد؟” دنبال کنید.

در حالتی که هر دو متغیر به شکل رسته‌ای اندازه‌گیری شده‌اند، معمولاً داده‌ها را در جدول متقاطع (Cross Tabulation) نشان می‌دهیم. شکل-۴ نتایج یک نظرسنجی را در قالب جدول متقاطع نشان می‌دهد. در این مثال شرکتی برای ارائه خدمات پشتیبانی مشتریان علاوه بر روش فعلی (تماس تلفنی)، پلتفرم آنلاین جدیدی را عرضه کرده است. شرکت تمایل دارد ببینید آیا بین استفاده از این دو روش و رضایت کلی مشتریان از دریافت خدمات پشتیبانی رابطه‌ای وجود دارد یا خیر. در این مثال هر دو متغیر رسته‌ای هستند؛ روش دریافت خدمت دارای دو حالت (تماس تلفنی یا پلتفرم آنلاین) و رضایت کلی مشتری دارای سه حالت (راضی، متوسط، ناراضی) است.

برای نمونه جدول نشان می‌دهد از ۱۲۱۸ نفری که در این نظرسنجی خدمات پشتیبانی را از طریق تماس تلفنی دریافت کردند، ۳۷۳ نفر معادل ۳۱ درصد از دریافت خدمت راضی بودند. همچنین می‌توان گفت از بین ۸۹۱ نفری که در این نظرسنجی بیان کردند از دریافت خدمات پشتیبانی راضی هستند، ۳۷۳ نفر معادل ۴۲ درصد خدمات پشتیبانی را از طریق تماس تلفنی دریافت کردند.

شکل-۴

یک روش مرسوم برای تحلیل جدول متقاطع، روش تحلیل کای-دو (Chi-Square Analysis) است. هدف آن است که بفهمیم آیا می‌توانیم بگوییم استفاده از دو روش متفاوت دریافت خدمت به لحاظ آماری اثر معنی‌داری روی سطح رضایت مشتریان گذاشته است. تحلیل آماری برای این مثال نشان می‌دهد برای سطح معنی‌داری ۰٫۰۵ نمی‌توان چنین نتیجه‌ای گرفت. بنابراین نمی‌توان گفت رابطه‌ای بین روش دریافت خدمت و رضایت کلی مشتری از دریافت خدمت وجود دارد.

ترتیب رخداد وقایع

زمانی که از وجود رابطه مطمئن شدیم، توجه خود را به ترتیب زمانی متغیرهای موردنظر جلب می‌کنیم. اگر متغیر عامل یا مستقل (Independent Variable) بخواهد علت متغیر وابسته (Dependent Variable) باشد، منطقاً باید قبل از آن رخ دهد. به‌عبارت‌دیگر، دلیل قبل از معلول باید رخ دهد. در حالت ایدئال از طریق آزمایش کنترل‌شده تصادفی (Randomized Controlled Experiment) می‌توان به این موضوع پی برد. در آزمایش کنترل‌شده تصادفی سعی می‌کنیم به‌دقت متغیرهای عامل را کنترل کنیم و سپس اثر آنان را روی خروجی موردنظر بسنجیم. به این شکل می‌توان ترتیب رخداد وقایع را تنظیم کرد.

شاید خواننده استدلال کند در دنیای واقعی کسب‌وکار به‌سختی می‌توان اثر متغیرها را کنترل کرد. من با چنین استدلالی همدلی دارم. ولی بدترین حالت این است که ما خودمان شرایط را به‌گونه‌ای ایجاد کنیم که تداخل متغیرها اجازه اندازه‌گیری اثر آنان را ندهد. برای مثال در حوزه بازاریابی و ترویج من بارها دیدم که شرکت‌ها هم‌زمان چندین اقدام را انجام می‌دهند. وقتی شرکتی در یک‌زمان کوپن تخفیف در سطح گسترده به مشتریانش می‌دهد، حمل رایگان محصول را به‌عنوان یک امتیاز پیشنهاد می‌دهد و یک کمپین تبلیغاتی در قالب مسابقه برگزار می‌کند، نمی‌تواند اثرات مجزای این فعالیت‌ها را بر میزان فروش اندازه‌گیری کند. به‌این‌ترتیب شرکت نمی‌فهمد سرمایه‌گذاری روی هر یک از این روش‌ها چقدر برایش عایدی ایجاد می‌کند. شاید درنهایت شرکت از همه این روش‌ها استفاده کند ولی حداقل برای دوره آزمایشی باید تا جای ممکن اثر بقیه رخدادها را کنترل کند.

ممکن است همواره مدیران این امکان را نداشته باشند که از طریق آزمایش کردن در کسب‌وکار به ترتیب رخداد وقایع پی ببرند. در این حالت تکیه‌بر منطق، استفاده از تجارب دیگران یا نتایج تحقیقات انجام‌شده می‌تواند به آنان در این امر کمک کند. پیام اصلی این است که یک مدیر هوشمند همواره در مورد جهت رابطه علی تأمل می‌کند و به‌سرعت نتیجه‌گیری نمی‌کند؛ آیا مطمئن هستیم الف موجب ب شده یا شاید ب عامل الف شده و یا شاید متغیر سومی هر دو را هدایت می‌کند. در این مورد در مقاله “چرا مدیران باید تفاوت بین همبستگی و رابطه علّی را بدانند؟” همراه با مثال‌هایی بحث کرده‌ام.

نبود رابطه جعلی

این امکان هست که دو متغیر هم‌زمان باهم ارتباط داشته باشند، یکی قبل از دیگری رخ دهد ولی هیچ رابطه علّی بین آن دو وجود نداشته باشد. یک نمونه از وجود رابطه جعلی، رابطه بین سایز کفش کودکان و میزان دانش آنان است؛ هرچه سایز کفش کودک بزرگ‌تر باشد دانش بیشتری دارند. واضح است که سایز کفش عامل افزایش دانش در کودکان نیست. هر دو متغیر تحت تأثیر سن کودک قرار دارند. مثال دیگر تعداد آتش‌نشانانی است که در مهار آتش‌سوزی شرکت می‌کنند و میزان خسارت ناشی از آتش‌سوزی است. در اینجا دوباره متغیر سومی یعنی حجم آتش‌سوزی است که بر روی هر دو متغیر اثر می‌گذارد.

در برخی موارد هم روابط جعلی کاملاً تصادفی هستند و هیچ ارتباطی به متغیر سوم ندارند. برای مثال بین تعداد پرتاب فضاپیماهای غیرتجاری در دنیا و تعداد فارغ‌التحصیلان دکترای رشته علوم اجتماعی در آمریکا در هر سال همبستگی قوی (ضریب همبستگی ۰٫۷۹) وجود دارد (شکل-۵).

شکل-۵

این‌ها مواردی از روابط جعلی بین متغیرها هستند. این مثال‌ها خیلی سرراست‌اند. ولی در مسائل عملی ممکن است تشخیص آن به همین راحتی نباشد. به‌خصوص حالتی که متغیر سومی ممکن است عامل پیش برنده هر دو متغیر باشد. برای مواجهه با این مسئله، طراحی دقیق آزمایش تجربی، جمع‌آوری دقیق داده، استفاده از روش‌های کنترل آماری و بهره‌گیری از چندین منبع داده‌ای برای تائید نتایج می‌تواند مفید باشد.

منابع:

Cook, T. D., Campbell, D. T., & Shadish, W. (2002). “Experimental and Quasi-Experimental Designs for Generalized Causal Inference”, Boston: Houghton Mifflin

Pearl, J., Glymour, M., Jewell, N. P. (2016). “Causal Inference in Statistics”, Wiley & Sons Ltd

Smith, G. (2014). “Standard Deviations: Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics”, Overlook Duckworth, Peter Mayer Publishers, Inc. New York

Vigen, T. (2015). “Spurious Correlations”, Hachette Books

دسته‌ها
Buiness Analysis Data Science process mining

Process mining – Introduction 2

 • Case ID
 • Activity Name
 • Time Stamp

Play out: A possible scenario

Play in: simple process allowing for 4 traces

Replay

Process mining:

 1. Discovery
 2. Conformance
 3. Enhancement

Machine learning:

 1. Supervised learning: response variable that labels each instance (we labeled each data and the machine will learn from that)
  1. Classification: classify to predict (i.e. decision tree)
  2. Regression: final function that fits data
 2. Unsupervised learning: unlabeled. (i.e. clustering like K-means, pattern discovery)

Example: smoker, drinker, weight: supervised learning

Smoker, drinker: predictor variable

Weight: response variable

دسته‌ها
Buiness Analysis Data Science process mining

Process mining – Introduction 1

Process mining is the combination of Data mining and Business process management. It works with log files. Every log file must have:

 1. Case ID (order ID)
 2. Activity (purchased, Request, rejected, …)
 3. Time stamp

Process mining Internet of events
Big data Internet of contents (google, Wikipedia)
Social media Internet of people
Cloud Internet of things
Mobility Internet of places

 Big data issue:

 • Volume (data size)
 • Velocity (speed of change)
 • Variety (different forms of sources)
 • Veracity (uncertainty of data)

Data science questions:

 • What happened
 • Why did it happen
 • What will happen
 • What is the best that can happen?

Process mining questions:

 • What is the process that people really follow?
 • What are the bottlenecks in the process?
 • Where do people deviate from the expected?

دسته‌ها
علمی محمد حسین ابراهیم زاده

Unleash the value of PROCESS MINING

ABOUT

The purpose of this article is to introduce the reader to process mining, an innovative analytical approach to learn about any process in an objective and exhaustive manner. It covers of course the key concepts and definitions, as well as the benefits, technical requirements, and success criteria, which hopefully will give you the inspiration to apply such techniques to your own professional reality.

Let’s jump and learn about this fascinating innovative solution for complex processes exploration!


CONTENTS

 • What is process mining?
 • Benefits
 • How does it work?
 • How does process mining heavily improve process discovery ?
 • A word on required data
 • Success criteria
 • Conclusion

WHAT IS PROCESS MINING?

Most organizations create business processes which are sometimes difficult to control and comprehend. Understanding these processes are however an absolute prerequisite prior to taking on any improvement initiative.

Process mining is a discipline supported by a powerful analytical technique which makes it easy and fast to get a complete and objective picture of your processes, and as a consequence to control and continuously improve them. This is made possible by analyzing vast quantities of data available in IT systems. Mainly which activities are performed, when, and by whom.

In that sense, process mining sits at the intersection of Business Process Management (BPM) and Data Mining.

Process mining is a highly valuable solution for insights generation: did you ever ask yourself what really occurred in a particular process, what deviations from the initial designed flow have been observed, where are the bottlenecks, how can the process be optimized? If so, then you should definitively consider process mining as part of your team’s toolkit.

As process mining tools are very intuitive to use and highly visual, I encourage you to have a look at the video below, before deep diving into more details, as an illustration of the power of process mining, applied to a banking process. This video has been created by Fluxicon.

Process mining applied to the banking industry (ILLUSTRATIVE)

BENEFITS

Using process mining provides several benefits to business owners and organizations. We list hereunder the most significant ones:

 • Understanding how a process is actually performed.

Most of the time, business owners know very well their processes from a theoretical perspective: what is supposed to happen, when, who is supposed to do what, under which condition.

However, they usually do not have a way to investigate what is really happening throughout the process lifecycle. Traditional reporting, Business Intelligence (BI), statistical tools have difficulties in revealing both the big and the very detailed picture. Such a back and forth navigation from the big picture and the detail is actually what is the most efficient way to comprehend the real life situation. Process mining solutions such as Disco focuses on making it easy to digest and exploit.

 • Improving the process flow by knowing the actual flows, frequencies, and delays in the process.

IT system logs track great volumes of useful information, making it feasible to compute paths and lead times to switch from one step in the process to another. One can leverage this valuable information to detect bottlenecks, highlight sub efficiencies, reveal most frequent paths, etc.

 • Cost savings by improving the productivity of employees.

Speed up investigation time, and free up time of your analysts to improve processes rather than to analyze the as-is. Reduce overall process time by focusing on the pain points.

 • Harmonizing processes in different regions by understanding how people work in different ways to see what the best practices are and to align processes.
 • Improving the quality and increasing the efficiency of auditing.

Conduct audits in an efficient manner, leveraging data science and avoiding opinion-based discussion (data is agnostic!).

 • Verifying that implemented process changes have had the expected effect by comparing the old process to the new process.

Want to observe the impact of any change in the process? Conduct pre/post analysis, and quantify your impact and added value to the new process!


HOW DOES IT WORK?

One of the great advantage of process mining is that it analyzes any process in an agnostic way. This is made possible thanks to data, namely the footprint of any action being performed in a IT system and captured in its log.

To understand how this works, let’s consider a process made of 5 activities A, B, C, D, E, and analyze how 3 past items going through this process can help learn more about it.

In the animation below, you can observe that some cases go through different activities, or through the same activities but in different order. Some others loop over the same activity.

Process mining consists in analyzing all possible patterns based on historical data and in creating a highly visual process map for investigations.


HOW DOES PROCESS MINING HEAVILY IMPROVE PROCESS DISCOVERY EXERCISES?

The value of process mining is twofold: generating valuable insights to improve current processes, and speeding up the insight generation time, thus improving team’s productivity. Let’s compare and highlight these benefits:

Without process mining

The traditional way of process discovery is carried out manually through workshops and interviews.

۱٫ Time consuming:for the people who do the interviews and process mapping. If they could do their work faster, they could do more projects and therefore deliver more value for their organization.

۲٫ Bind resources: it binds people (interviewees) from productive work into discussions about how things are currently done just to understand the ‘as-is’ process.

۳٫ Subjective results: based on what people think about how the processes are, not necessarily based on how the processes really are.

۴٫ Risk of political deadlock: there may be different opinions that cannot be resolved (political deadlock). In situations, where the participating people cannot agree on a unified view of the ‘As-is’ process and the problems with the process, the risk is high that the project fails and no process improvement is carried out at all.

۵٫ Incomplete picture: you get only a sample view, not the complete picture. By asking people to spell out the process, the manual picture will never be complete.

۶٫ Measurement is costly: manual tracking and measurement is costly, biased, and also provides only sample data. This is about the practice of measuring process steps with a stopwatch to collect objective evidence: (1) Doing this manual work is very time-consuming, (2) People who are observed behave differently than normally, and (3) Only a limited sample can be obtained (e.g., tracing 30 cases over a few weeks).

۷٫ Difficult to replicate: because the cost of process diagnosis and information collection is so high, it cannot be easily repeated.

With process mining

The starting point for any process improvement project is the so-called ‘As-is’ process analysis, in which the current state and all the deficiencies of the process are mapped out and improvement opportunities are identified. Process mining significantly lowers the cost of understanding the current process by limiting people interviews and extracting the necessary information out of the existing data from the IT systems.

With process mining, the previously mentioned pain points are resolved:

۱٫ Time-efficient: The analyst spends less time on interviews and workshops. Instead, the ‘As-is’ process is automatically reconstructed from the IT data in the organization.

۲٫ Frees resources: workshop sessions can be much more productive, because the real ‘As-is’ process can be already taken as a starting point.

۳٫ Objective results: The data provides a factual basis for the diagnosis and improvement decisions.

۴٫ Freedom from political deadlock: There is no room for opinions as far as the process reality is concerned.

۵٫ Complete picture: All the exceptions are brought into the picture along with the normal process. For example, all process variations and actual delays from the past year can be analyzed to get a complete picture.

۶٫ Measurement is less costly: The actual durations and delays between process steps can be measured for thousands of transactions.


A WORD ON REQUIRED DATA

As for all data driven technologies, data preparation plays an important role in order to be able to fully benefit from process mining.

In this section, I briefly introduce the reader to the data requirements which consist of creating an event log that can be fed into a process mining tool.

Prerequisites

What are the key required components to any process analysis? Actually only 3 main pieces of information are required:

 • Activities (process step): the several steps that compose the process.
 • Case ID: the unique identifier of any item going through the process.
 • Timestamp (for performance evaluation): flag of when each item arrived and left any activity.

Optional

For more advanced analysis, I strongly encourage you to complement these prerequisites with additional (optional) information, such as resourcecountrydepartment etc. being involved.

Leveraging such additional data will enable far more advanced and detailed investigations (territory specificities, products being treated differently depending on their category etc.)


SUCCESS CRITERIA

Interested in starting a process mining initiative? Before you start, remind that process mining is a discipline (not just a tool) that requires skills people need to learn (e.g. how to detect data quality issues, how to interpret the results, etc.) and that process mining is just a starting point for the discussion with the domain experts (so the purpose is not to automatically generate definitive answers and stop talking to people, but to start talking to them on a different level).

Make sure success criteria are identified from the beginning.

 1. Focus on the business value: define the business value in terms of effectiveness (customer experience and revenue), efficiency (costs) and risk (reliability). Determine into which process aspects you want to gain insights. To which business driver does this insight contribute? Better customer experience, cost reduction, risk mitigation?
 2. Start small, think big: connect the business driver to a specific business domain. Choose a process where the beginning and the end are clearly defined. Each manager of such a process will benefit from insights that help to reduce costs or increase the effectiveness. And while you think about the possible use cases and application possibilities, also make sure to communicate what process mining is not. By indicating clear boundaries, you can manage expectations on what it is.
 3. Work hypothesis-driven and in short cycles: divide the main business driver into sub hypotheses that you can confirm or disprove with a process mining analysis. For example: There is a gut feeling that a particular service process takes too long. How long does the process really take? How much does it deviate from the expectations? Where are the bottlenecks that cause the delays in this process? In addition, you can then indicate where exactly the delays are in the process. Take your business stakeholders from insight to insight. Stimulate them to ask questions. Explore, analyze and innovate. Time-box the intermediate results and the project. Eight weeks for the first project is usually a good aim.
 4. Facts don’t lie: process mining allows you to analyze processes based on facts instead of subjective opinions. Speak openly and transparently about the data that you use and about the facts that come out of this analysis. This can be confrontational and for some people even unwelcome. Put a change management team together that has the competency to handle resistance. Process mining can be the perfect assistance in this truth finding. Always use experts from the business process domain and the IT-domain for a sanity check of the data and the analysis. Use process mining as a constructive starting point to ask the right questions and avoid too quick judgments.

CONCLUSION

I’ve discovered process mining a few years ago, following the online course from process mining’s guru Wil van der Aalst, and this was really eye-opening to me. The benefits of it are numerous, and should definitively part of any data scientist’s toolkit!

I’m happy to receive feedback of any kind so please feel free to comment and share your perspective (opinion, use case, etc.) on this capability.

Struggling with your processes? No need to get your hands dirty anymore! Take full benefit of process mining!

Resource